Das ZIMT verfügt über eine Reihe von Knoten für High-Throughput-Computing (HTC) vom Typ HPE Moonshot 1500. Auf dieser Seite ist deren Bedienung beschrieben.
Zugang und Login
Die Moonshot-Knoten sind weitestgehend in den HoRUS-Cluster integriert. Wenn Sie für HoRUS-Zugriff zugelassen sind (hier erfahren Sie, wie Sie Zugriff erhalten), können Sie sich auch auf den Moonshot-Knoten einloggen.
Die beiden Login-Knoten tragen die Kennungen htc001
und htc002
, genau wie auf dem HoRUS steht ein Alias htc
zur Verfügung, dass Sie auf einen der beiden Login-Knoten bringt. Sie sollten dieses Alias wann immer möglich benutzen, da hier ein Load Balancer dafür sorgt, dass Sie auf den weniger ausgelasteten Knoten kommen. Sie können sich mit ssh
einloggen wie auf dem HoRUS, indem Sie .zimt.uni-siegen.de
an den Knotennamen oder das Alias anhängen.
Achtung: im Gegensatz zum HoRUS können Sie das HTC-System nur aus dem Uninetz (oder per VPN) erreichen.
Die übrigen Knoten htc003
bis htc007
sind die Compute-Knoten, sie sind von außen nicht erreichbar.
Ein weiterer Unterschied ist, dass die Moonshot-Knoten nicht an den Infiniband-Interconnect des HoRUS angeschlossen sind. Datei-IO ist deshalb eventuell nicht so schnell, selbst wenn Workspaces verwendet werden.
Installierte Software
Im Prinzip sind alle Module, die auf dem HoRUS installiert sind, auch auf den HTC-Knoten verfügbar. Allerdings ist auf Grund der verschiedenen CPU-Architektur nicht garantiert, dass ein Modul auch funktioniert, nur weil es verfügbar ist.
Achtung: das ZIMT hat nicht alle HoRUS-Module auf den HTC-Knoten getestet und Sie sollten immer erst Ihre eigenen Tests mit dem entsprechenden Modul machen, bevor Sie es produktiv nutzen.
Rechnen
Sie rechnen auf den Knoten htc003
bis htc007
analog zum HoRUS, indem Sie SLURM-Jobs in die Queue htc
einstellen. Den Status der Jobs und der Knoten der htc
-Queue können Sie sowohl vom HoRUS als auch von den HTC-Knoten aus wie gewohnt mit squeue
und sinfo
abrufen. Die einzelnen SLURM-Befehle sind auch hier beschrieben. Die Default-Laufzeit sowie die maximale Laufzeit der HTC-Queue ist 24 Stunden.
Achtung: wenn Sie keine Queue (Queue = Partition in SLURM-Terminologie) angeben, wird der Job in der Default-Queue (defq
) eingestellt und läuft somit auf dem HoRUS, nicht auf den HTC-Knoten! Sie müssen im Job-Skript die Zeile
#SBATCH --partition=htc
angeben (oder beim Aufruf von sbatch
die Partition htc
spezifizieren) , um auf den HTC-Knoten zu rechnen!
Kann man HTC-Jobs vom HoRUS aus einstellen und umgekehrt?
Teilweise ja. Sie können Jobs einstellen, bei denen die Unterschiede in der Prozessorarchitektur keine Rolle spielen. Insbesondere unterstützt das ZIMT derzeit kein Cross-Compiling.
Zum Beispiel ist es ohne weiteres möglich, einen Matlab-Job vom HoRUS aus in die HTC-Queue einzustellen, weil Matlab auf beiden installiert ist. Möchten Sie jedoch beispielsweise ein C- oder Fortran-Programm compilieren, muss dies wegen der unterschiedlichen Architektur auf dem HTC-Frontend (htc001
oder htc002
) passieren.