Wiss. Rechnen » HPE Moonshot
 

Das ZIMT besitzt ein System für High-Throughput-Computing (HTC), das größtenteils in den OMNI-Cluster integriert ist und dort in Form der HTC-Partition erscheint. Die HTC-Partition besteht aus 4 Login-Knoten sowie 41 Compute-Knoten, die sich physikalisch in besonders kompakt gebauten Blades in einem HPE Moonshot 1500 Chassis im NDC befinden. Auf dieser Seite ist deren Nutzung beschrieben.

Unter High-Throughput-Computing versteht man das Berechnen von vielen kleinen Rechenjobs, die in der Regel vollkommen unabhängig voneinander (trivial/embarrassingly parallel) sind. Im Unterschied dazu spricht man von High Performance Computing (HPC), wenn wenige große Rechenjobs mit untereinander abhängigen Teilaufgaben durchgeführt werden.

Zugang und Login

Wenn Sie für den Zugang zum OMNI-Cluster zugelassen sind, können Sie sich auch auf den Moonshot-Knoten einloggen.

Es gibt vier Login-Knoten mit den Namen htc-login01 bis htc-login04, genau wie bei OMNI steht ein Alias htc zur Verfügung, dass Sie auf einen der vier Login-Knoten bringt. Sie sollten dieses Alias wann immer möglich benutzen, da hier ein Load Balancer dafür sorgt, dass Sie auf den am wenigsten ausgelasteten Knoten kommen. Sie können sich mit ssh einloggen wie auf dem OMNI, indem Sie .zimt.uni-siegen.de an den Knotennamen oder das Alias anhängen.

Achtung: Die Anmeldung mit Passwort ist nur aus dem Netz der Universität bzw. mit VPN-Zugang möglich. Für die Anmeldung von außerhalb müssen Sie SSH-Schlüssel zur Authentifizierung anlegen. Da Ihr Heimverzeichnis auf OMNI und dem HTC-System dasselbe ist, müssen Sie dies allerdings nur einmal tun.

Die Compute-Knoten htc-node001 bis htc-node041 sind von außen nicht erreichbar.

Installierte Software

Im Prinzip sind alle Module, die auf dem OMNI installiert sind, auch auf den HTC-Knoten verfügbar. Allerdings ist auf Grund der verschiedenen CPU-Architekturen nicht garantiert, dass ein Modul auch funktioniert, nur weil es verfügbar ist.

Achtung: das ZIMT hat nicht alle OMNI-Module auf den HTC-Knoten getestet und Sie sollten immer erst Ihre eigenen Tests mit dem entsprechenden Modul machen, bevor Sie es produktiv nutzen.

Rechnen

Sie rechnen auf den Knoten htc-node001 bis htc-node041 analog zu OMNI, indem Sie SLURM-Jobs in die Queue htc einstellen. Den Status der Jobs und der Knoten der htc-Queue können Sie sowohl vom OMNI als auch von den HTC-Knoten aus wie gewohnt mit squeue und sinfo abrufen. Die einzelnen SLURM-Befehle sind auch hier beschrieben. Die Default-Laufzeit der HTC-Queue ist 12 Stunden, die maximale Laufzeit ist 24 Stunden.

Achtung: wenn Sie keine Queue (Queue = Partition in SLURM-Terminologie) angeben, wird der Job in der Default-Queue (short) eingestellt und läuft somit auf dem OMNI, nicht auf den HTC-Knoten! Sie müssen im Job-Skript die Zeile

#SBATCH --partition=htc

angeben (oder beim Aufruf von sbatch die Partition htc spezifizieren) , um auf den HTC-Knoten zu rechnen!

Kann man HTC-Jobs von OMNI aus einstellen und umgekehrt?

Teilweise ja. Sie können Jobs einstellen, bei denen die Unterschiede in der Prozessorarchitektur keine Rolle spielen. Insbesondere unterstützt das ZIMT derzeit kein Cross-Compiling.

Zum Beispiel ist es ohne weiteres möglich, einen MATLAB-Job von OMNI aus in die HTC-Queue einzustellen, weil MATLAB auf beiden installiert ist. Möchten Sie jedoch beispielsweise ein C- oder Fortran-Programm compilieren, muss dies wegen der unterschiedlichen Architektur auf dem HTC-Frontend (htc-login01 bis htc-login04) passieren.

Aktualisiert um 16:31 am 16. März 2021 von Jan Steiner