Ich diagnostiziere und behebe deine HPC-Cluster-Leistungsprobleme
Über diesen Service
Die meisten HPC-Cluster laufen bei 30 bis 40 % ihrer tatsächlichen Kapazität.
Nicht weil die Hardware falsch ist. Sondern weil die Konfiguration nie auf die tatsächliche Arbeitsbelastung abgestimmt wurde.
Ich habe dieses genaue Problem bei Forschungseinrichtungen, KI-Laboren und Engineering-Teams diagnostiziert. Die Lösungen liegen fast immer in Software und Konfiguration, nicht in Hardware.
Was das Audit abdeckt:
Slurm-Konfigurationslücken (DefMemPerCPU, cgroup, fairshare)
InfiniBand-Fabric-Gesundheit und Link-Geschwindigkeitsprüfung
Speicher-Durchsatz (Lustre/BeeGFS/NFS-Stripe-Konfiguration)
MPI-Prozessbindung und NUMA-Topologie
HPL-Effizienz im Vergleich zum theoretischen Peak
Node-Gesundheit und stille Hardware-Fehlererkennung
Was du erhältst:
Schriftliche Diagnose mit Schweregradbewertung pro Befund
Exakte Lösung für jedes Problem inklusive Befehle, Vorher/Nachher-Benchmarkzahlen
Prioritätenliste: Was zuerst zu beheben ist, um maximalen Effekt zu erzielen
Was ich von dir brauche: SSH-Zugang zum Login-Node, deine Cluster-Spezifikationen und 2 Stunden mit geringer Aktivität für Benchmarking.
Bearbeitungszeit: 24-48 Stunden nach Erhalt des Zugangs.
Gerät:
Server
Betriebssysteme:
Linux
