Sehr geehrte HPC-Nutzer der MLU,
in Vorbereitung für den neuen HPC-Cluster am IT-Servicezentrum wird der IANVS-Cluster am 01.05.2026 dauerhaft abgeschaltet. Wir bitten Sie, Ihre Daten rechtzeitig zu sichern. Bitte beachten Sie, dass alle Daten auf der /home-Partition jeden Tag automatisch in unserem Backup-System gesichert werden und für ein Jahr nach der Abschaltung zur Verfügung stehen werden (bis zum 30.04.2027). Wir möchten außerdem darauf hinweisen, dass das /scratch-Dateisystem nicht von uns gesichert wird.
Falls es Ihnen nicht möglich sein sollte, Ihre Daten rechtzeitig bis zum 01.05.2026 zu sichern, bitten wir Sie darum, uns zu kontaktieren, damit wir Ihnen die Daten über unser Backup-System zur Verfügung stellen können. Vielen Dank für Ihr Verständnis.
Der neue Cluster
Der neue Cluster wird im Laufe des Monats Mai aufgesetzt werden und planmäßig im Juni 2026 online gehen. Er besteht aus 16 CPU-Knoten, 18 GPU32-Knoten (mit je vier NVIDIA RTX PRO 6000 mit je 96 GB VRAM) und 8 GPU64-Knoten (mit je vier NVIDIA H200 HVL mit je 141 GB VRAM). Jeder Knoten hat zwei AMD EPYC Turin 96-Core-Prozessoren, 1,5 TB RAM und NVMe-SSDs für schnellen lokalen Scratch-Speicher. Das Dateisystem Lustre wird als paralleles Dateisystem benutzt.
Softwareseitig wird der Cluster Alma Linux 10 mit einem 6.12-er Kernel verwenden. Wie schon beim Vorgängersystem wird SLURM als Schedulersystem eingesetzt werden. Nutzersoftware wird mit Spack installiert. Wir planen zudem Unterstützung für Apptainer/Singularity, um Jobs in Containern laufen zu lassen.
Der Cluster is für Erweiterungen konzipiert, um externen Arbeitsgruppen die Möglichkeit zu bieten, eigene Hardware an das System anzukoppeln. Nach einer Zeitspanne wird diese zusätzliche Hardware dann allen Cluster-Nutzern zur Verfügung stehen. Momentan arbeiten wir daran, die entsprechenden Richtlinien zu finalisieren.
Weiterhin werden wir es von unseren Nutzern erfordern, einer Nutzungsordnung zuzustimmen, um die Verfügbarkeit und Qualität der von uns bereitgestellten HPC-Ressourcen sicherzustellen. Die Nutzungsordnung wird ebenfalls in den nächsten Wochen finalisiert. Damit einhergehend planen wir, die Zuweisung von Ressourcen auf ein projektbasiertes Modell umzustellen, wie es bereits in anderen HPC-Zentren praktiziert wird:
- Jedem/r Nutzer/in wird ein kleines Kontingent von Ressourcen zur eigenen Nutzung zur Verfügung gestellt, in dem kleinere Jobs gestartet werden können.
- Größere Ressourcenzuweisungen müssen mit Projekten assoziiert sein, für deren Verwaltung wir ein Ressourcenmanagement-System verwenden.
- Projekte mit langer Laufzeit müssen jedes Jahr verlängert werden. Im Zuge dessen werden wir die Projekteigentümer (üblicherweise Arbeitsgruppenleiter) darum bitten, uns entsprechende Publikationen zur Verfügung zu stellen und/oder Forschungserfolge aufzuzeigen.
Diese projektorientierte Neuausrichtung ist auch die Begründung dafür, warum wir die Software, die auf IANVS installiert war, nicht auf das neue System übertragen werden. Wenn Sie einen Zugang zum neuen Cluster haben und bestimmte Software benötigen, verwenden Sie bitte die üblichen, in unserem Wiki beschriebenen Kanäle.
Bitte kontaktieren Sie uns bei Fragen via E-Mail oder Telefon, (0345) 55-21864.
Mit freundlichen Grüßen
Ihr ITZ-HPC-Team