Betrieb des Compute Clusters
Stand: 17.05.2010 (
Mail an HPC-Admins)
Betrieb
Das HPC-Cluster ist nicht in das UNIX-Workstation-Cluster des HRZs integriert. Für den Zugang ist ein gesonderter Antrag nötig.
Für die Nutzer sind folgende Zugangsmöglichkeiten vorgesehen:
- Dialogzugang zum Login-Server mit SSH
- Dateitransfer zu/vom Home-Verzeichnis mit scp
Auf dem File-Server sind Home-Filesysteme für die Nutzer eingerichtet. Sie sind zur Ablage von Quellcode, Programmen und permanenten Daten gedacht und in die HRZ-Datensicherung einbezogen.
Das Lustre-Filesystem ist für große Datenmengen, die einen performanten Zugriff erfordern, vorgesehen. Es steht unabhängig vom Home-Filesystem zur Verfügung, ist aber eher als Temporärspeicher für mittellang aufzubewahrende Daten gedacht. Daher ist es auch nicht in die Datensicherung einbezogen.
Die 80 Rechenknoten des HPC-Clusters sollen nicht interaktiv benutzt werden. Die Benutzer melden sich auf dem Login-Rechner an. Dort bereiten sie ihre Programme vor. Die eigentlichen Rechenjobs werden mit dem Queuing-System SUN Grid Engine (SGE) gestartet.
Betriebsregelungen
Zur Überführung des jetzt noch bestehenden Testbetriebs in den Regelbetrieb sind Festlegungen zu den erlaubten Jobs und deren Parametern notwendig. Ziel ist es, den einzelnen Nutzern eine faire Chance für die Ausführung ihrer Jobs zu geben und gleichzeitig das Cluster möglichst optimal auszulasten. Durch die unterschiedlichen finanziellen Beteiligungen für den Ausbau ist auch eine Kontigentierung unumgänglich.
Am 18.02.2010 14:00 Uhr hat im HRZ im Raum 1 eine Nutzerversammlung der Nutzer von Skylla stattgefunden, auf der die Betriebsregelungen für die nächsten Wochen/Monate festgelegt wurden.
Für verbindlichere Festlegungen hierzu ist die Installation eines Nutzerrates geplant. Zunächst gelten folgende Regeln:
-
Die maximale Laufzeit eines Jobs wird für normale Jobs auf 5 Tage und für Langläufer auf 10 Tage
begrenzt. Beim Starten von Jobs ist die Angabe der Laufzeit zwingend vorgeschrieben. Im Submitscript
oder bei Aufruf von qsub muss "-l h_rt=Laufzeit" angegeben werden. Jobs ohne diese Angabe werden
nicht gestartet. "Laufzeit" kann eine Zahl in Sekunden (z. B. 84000)
oder eine Angabe wie 01:00:00 sein.
Für spezielle Projektgruppen (z.B. Ausbildung von Studierenden) kann die maximale Laufzeit auf kleiner einen Tag begrenzt werden. - Die maximale Anzahl der Cores in den langen Queues (parallel_long, serial_long) wird zusammen auf 160 begrenzt. Eine Angabe der Queue ist nicht notwendig und sollte durch die angegebene Laufzeit automatisch geregelt werden.
- Die maximale Anzahl der Cores pro Nutzer wird auf 32 begrenzt.
-
Zur Vermeidung von ineffizientem Swappen wird eine maximale Größe des nutzbaren Hauptspeichers
pro genutztem Core festgelegt, wobei für die beiden Knotengruppen unterschiedliche Werte
gelten:
node001-node040 (je 8 Cores, insges. 16GB Hauptspeicher) : "-l h_vmem=1.9g"
node101-node140 (je 12 Cores, insges. 32GB Hauptspeicher): "-l h_vmem=2.5g"
Es ist ein Defaultwert von 1GB eingetragen, d.h. die Angabe von h_vmem ist nicht zwingend notwendig. In parallelen Jobs wird h_vmem SGE-intern mit der Anzahl der angeforderten Cores multipliziert. Richtzahl war hier: 5% unter dem physikalischen Limit, damit noch etwas Speicher für die Systemverwaltung verbleibt.
- Für den Datentransfer zwischen Skylla und der externen Welt ist vorzugsweise nicht der Login-Rechner (skylla) sondern der Fileserver (skylla-store) zu verwenden.
Kontingentierung
Die Kontingentierung wird auf der Grundlage von Nutzergruppen (Projektgruppen in SGE) durchgeführt werden.Projektgruppen
Folgende Projektgruppen sind zur Zeit auf Skylla eingerichtet (in alphabetischer Reihenfolge):| Projektgruppe | Gruppenleiter |
|---|---|
| Experimentalphysik | (Nachfolge Metag) |
| Festkörpertheorie | Heiliger |
| Geografie | (Luttenbacher?) |
| Hadronentheorie | Cassing |
| Materialwissenschaft | Over |
| Mathematik-Informatik | Buhmann |
| Quantenchemie | Schreiner |
| Sonstige | HRZ |
| Studierende | HRZ |
Die Anzahl der Projektgruppen soll allgemein klein gehalten werden. Bei entsprechendem Bedarf können aber auch weitere Gruppen eingerichtet werden.
![[HRZ-Logo; anklickbar] [HRZ der JLU Gießen]](/hrz/bilder/hrzlogo6.gif)
![[JLU-Logo mit Wappen; anklickbar] [JLU-Logo mit Wappen; anklickbar; alt+j]](/hrz/bilder/jlu-logo.png)
