Auf dieser Seite erklären wir, was Sie tun müssen, um vom HoRUS-Cluster auf den OMNI-Cluster umzusteigen. Außerdem finden Sie eine Liste der wichtigsten Unterschiede zwischen dem HoRUS-Cluster und dem OMNI-Cluster.

Zeitplan

Der Cluster wird ab Montag, den 8.3. für alle Uni-Angehörigen nutzbar sein. Gleichzeitig wird auf der Cluster-Website die Dokumentation für OMNI veröffentlicht werden. Genau wie der HoRUS-Cluster wird der OMNI-Cluster nur aus dem Uninetz oder Uni-VPN mit Username und Passwort erreichbar sein. Wenn Sie einen Public Key auf HoRUS hinterlegt haben, können Sie sich auch auf OMNI von außerhalb mit Key-Authentifizierung einloggen.

Achtung: Der OMNI-Cluster hat eine geschlossene Testphase durchlaufen und wir gehen davon aus, dass er stabil läuft. Wir behalten uns aber vor, den Cluster im Extremfall nochmal teilweise oder komplett abzuschalten. Nach einer Eingewöhnungsphase von 1-2 Monaten werden wir außerdem eventuell noch einmal Anpassungen vornehmen, abhängig vom Nutzerfeedback, das wir bis dahin erhalten haben.

Die Compute-Knoten des HoRUS-Clusters werden am 31.3. abgeschaltet. Der Knoten pre1 des HoRUS wird danach weiterhin erreichbar sein, damit Sie Ihre Daten sichern können.

Einschränkungen

Obwohl der Cluster an sich bereits nutzbar ist, stehen ein paar Features noch nicht oder nur eingeschränkt zur Verfügung. Dies sind insbesondere:

  • Jupyter: Diese Software steht wegen technischer Schwierigkeiten noch nicht zur Verfügung. Wir hoffen, dass wir Jupyter so schnell wie möglich vollständig freigeben können und werden Sie informieren.
  • Tensorflow: Die Software Tensorflow ist so eng mit Jupyter verknüpft, dass sie ebenfalls erst dann zur Verfügung stehen wird, wenn Jupyter feigegeben ist.
  • CUDA und Tools zur GPU-Programmierung: Diese Tools stehen noch nicht allgemein zur Verfügung. Wenn Sie die Tools testhalber verwenden möchten, kontaktieren Sie uns bitte.
  • Burst Buffer: Der Burst Buffer läuft noch nicht stabil und steht eventuell zeitweilig nicht zur Verfügung. Er ist aber generell nutzbar. Seine Nutzung beschreiben wir hier.
  • Compute-Knoten: Um die Stromversorgung des Datenzentrums nicht zu überlasten, werden 60 der 434 Compute-Knoten des OMNI noch nicht zur Verfügung stehen.

Wir empfehlen außerdem, Ihre .bashrc und ähnliche Konfigurationsdateien sowie Ihre Jobskripte zu überprüfen. Insbesondere sollten Sie überprüfen, welche Module Sie laden, da sich viele Module geändert haben.

Zugang beantragen

Auch wenn Sie auf dem HoRUS-Cluster bereits Zugang haben, müssen Sie diesen für OMNI nochmal erneut beantragen.

Als Mitarbeiter können Sie Zugang beantragen, indem Sie in der Nutzerkontenverwaltung unter “Meine Optionen” die Option “Ressourcen zum Wissenschaftlichen Rechnen (OMNI)” anklicken. Sie werden danach weitergeleitet und müssen den Nutzungsbedingungen zustimmen. Den Vorgang beschreiben wir hier im Detail.

Studierende können wie bisher den Cluster nutzen, indem sie von einem Mitarbeiter mit Cluster-Zugang hinzugefügt werden. Der Prozess läuft allerdings ebenfalls über die Nutzerkontenverwaltung ab und ist hier beschrieben.

Sie bekommen wie bisher auch eine Willkommens-E-Mail mit der Adresse des Clusters. Die Adresse steht aus Sicherheitsgründen nirgends auf der Cluster-Website. Der SSH-Zugang funktioniert wie bisher auch und ist hier beschrieben.

Der HTTP(S)-Zugang, über den Sie in Zukunft unser Jupyter-Portal erreichen können, steht noch nicht zur Verfügung. Wir werden Sie über die Adresse des Jupyter-Portals informieren, sobald dieser freigegeben ist.

Datentransfer

Die Heimverzeichnisse auf dem OMNI-Cluster sind dieselben wie auf dem HoRUS-Cluster, Ihre Daten stehen deshalb nach wie vor zur Verfügung. Nach Abschaltung des HoRUS werden die Zugriffsberechtigungen dahingehend geändert, dass die Heim-Verzeichnisse nicht mehr von allen Nutzern einsehbar ist, sondern nur noch vom Eigentümer.

Daten aus Ihren Workspaces können Sie mittels rsync von HoRUS nach OMNI umziehen. Dabei gehen Sie am besten wie folgt vor:

  1. Loggen Sie sich auf OMNI ein.

  2. Legen Sie gegebenenfalls einen neuen Workspace an und wechseln Sie in das entsprechende Verzeichnis.

  3. Benutzen Sie den rsync-Befehl, um die Daten von HoRUS zu kopieren. Hier ist ein Beispiel:

    rsync -r <Username>@<Horus-Adresse oder SSH-Preset>:<Pfad zu ihren Daten auf Horus> .

    Statt des aktuellen Verzeichnisses . können Sie natürlich auch ein anderes als Ziel angeben. Die Option -r bewirkt, dass alle Unterverzeichnisse mitkopiert werden.

  4. Der Transfer sollte dann starten. Wenn der Transfer unterbrochen wird, entweder absichtlich oder unabsichtlich, können Sie ihn wiederaufnehmen indem Sie den rsync-Befehl nochmal aufrufen, diesmal zusätzlich mit der Option --append-verify:

    rsync --append-verify -r <Username>@<Horus-Adresse oder SSH-Preset>:<Pfad zu ihren Daten auf Horus> .

    Diese Möglichkeit zur Unterbrechung und Wiederaufnahme ist der Hauptgrund, dass Sie rsync anstatt scp verwenden sollten.

Neue Hardware

Die größte Änderung bei der Hardware, ist die Tatsache, dass nun fast alle Knoten AMD-CPUs statt wie bei HoRUS Intel-CPUs haben. Die einzige Ausnahme sind die SMP-Knoten, die über je vier Intel-CPUs verfügen. Ihre selbstgeschriebene Software wird wahrscheinlich erst nach einer Neu-Compilierung lauffähig sein.

Der OMNI-Cluster verfügt über eine Reihe von Hardwarekomponenten, die vorher nicht zur Verfügung standen, insbesondere:

  • Eine Reihe von GPU-Knoten
  • Einen sog. Burst Buffer, das heißt eine Storage-Partition, die aus SSDs besteht und für Rechnungen, die besonders schnellen Datei-Input/-Output benötigen, gedacht ist

Die kompletten Hardware-Spezifikationen des OMNI-Clusters finden Sie hier.

Neue Software

Es steht neue Software zur Verfügung, insbesondere:

  • Den Paket-Manager Conda
  • Das Container-System Singularity
  • Das Container Orchestration System Kubernetes, bitte kontaktieren Sie uns, wenn Sie dieses nutzen wollen.
  • Zukünftig: Jupyter
  • Ebenfalls zukünftig: die Machine-Learning-Bibliothek Tensorflow

Einen Überblick über die wichtigsten installierten Softwareprodukte finden Sie hier.

Sonstige Neuerungen

  • Die Zugriffsberechtigungen auf die Heimverzeichnisse werden mit Abschlatung des HoRUS geändert. Der Zugriff ist dann nur noch durch den Eigentümer möglich und nicht mehr durch alle Nutzer. Kontaktieren Sie uns, wenn Sie besondere Zugriffsgruppen benötigen.
  • Neuerungen bei den SLURM-Queues:
    • Die Queue-Defaulteinstellungen wurden angepasst.
    • Die Short-Queue ist nun der Default.
    • Es existiert eine Debug-Queue, die Sie für sehr kurze Testläufe und Debugging benutzen können.
    • Es existiert eine Queue gpu für GPU-Jobs. Wie Sie die GPUs selbst nutzen, beschreiben wir hier.
    • Es existiert nun eine expert-Queue für besonders große Jobs. Zugriff auf diese Queue wird vom HPC-Team nur auf Anfrage vergeben. Bitte kontaktieren Sie uns, wenn Sie die Expert-Queue benutzen wollen.
  • Obwohl wir nach wie vor von Fall zu Fall entscheiden, welche Software wir zentral installieren, haben wir ein paar grobe Richtlinien erstellt, die Software erfüllen muss, bevor wir eine Installation in Betracht ziehen. Mehr dazu finden Sie hier.
  • Es ist standardmäßig ein Compiler-Modul (gnu9) und ein MPI-Modul (openmpi4) geladen. Bitte beachten Sie, dass einige Module eventuell nicht bei einem module avail erscheinen, wenn Sie Compiler- und MPI-Modul händisch entladen. Sie können mit der Suchfunktion des Modulsystems nach Modulen suchen, diese verwenden Sie mit dem Befehl module spider <Modulname oder Teil eines Modulnamens>.

Aktualisiert um 20:39 am 4. März 2021 von Gerd Pokorra