Ich diagnostiziere und behebe deine HPC-Cluster-Leistungsprobleme

Einige Informationen wurden automatisch übersetzt.

Indien

Ich spreche Englisch
Als HPC Solutions Architect habe ich sieben HPC-Systeme in ganz Indien konfiguriert, bei denen modernste Hardware und Software für hochleistungsfähige Rechenaufgaben integriert wurden. Ich spezialisie...
Über diesen Service

Die meisten HPC-Cluster laufen bei 30 bis 40 % ihrer tatsächlichen Kapazität.


Nicht weil die Hardware falsch ist. Sondern weil die Konfiguration nie auf die tatsächliche Arbeitsbelastung abgestimmt wurde.


Ich habe dieses genaue Problem bei Forschungseinrichtungen, KI-Laboren und Engineering-Teams diagnostiziert. Die Lösungen liegen fast immer in Software und Konfiguration, nicht in Hardware.


Was das Audit abdeckt:


Slurm-Konfigurationslücken (DefMemPerCPU, cgroup, fairshare)

InfiniBand-Fabric-Gesundheit und Link-Geschwindigkeitsprüfung

Speicher-Durchsatz (Lustre/BeeGFS/NFS-Stripe-Konfiguration)

MPI-Prozessbindung und NUMA-Topologie

HPL-Effizienz im Vergleich zum theoretischen Peak

Node-Gesundheit und stille Hardware-Fehlererkennung


Was du erhältst:


Schriftliche Diagnose mit Schweregradbewertung pro Befund

Exakte Lösung für jedes Problem inklusive Befehle, Vorher/Nachher-Benchmarkzahlen

Prioritätenliste: Was zuerst zu beheben ist, um maximalen Effekt zu erzielen


Was ich von dir brauche: SSH-Zugang zum Login-Node, deine Cluster-Spezifikationen und 2 Stunden mit geringer Aktivität für Benchmarking.


Bearbeitungszeit: 24-48 Stunden nach Erhalt des Zugangs.

Gerät:

Server

Betriebssysteme:

Linux

Meine weiteren Dienstleistungen im Bereich Support & IT

Verwandte Tags