Ich richte einen Linux HPC-Cluster mit OpenHPC, Slurm und InfiniBand ein
Über diesen Service
Ein HPC-Cluster von Anfang an richtig einzurichten spart Monate an Debugging und verhindert die Konfigurationsschulden, die 80 % der Leistungsprobleme später verursachen.
Ich habe HPC-Cluster von 4 bis 600 Knoten im Rahmen der National Supercomputing Mission Indiens von Bare Metal bis HPL-Akzeptanz in Auftrag gegeben.
Vollständiger Stack, mit dem ich arbeite:
Provisioning: Warewulf 4, xCAT, PXE
OS: Rocky Linux 8/9, AlmaLinux, CentOS Stream
Scheduler: Slurm mit vollständiger Abrechnung und cgroup
MPI: OpenMPI, IntelMPI, MVAPICH2
Fabric: InfiniBand HDR/NDR/EDR, Ethernet RDMA
Storage: Lustre, BeeGFS, GPFS, NFS
Monitoring: Grafana, Prometheus, Ganglia
Was du bekommst:
Vollständig provisionierte Rechenknoten
Funktionierende Slurm-Warteschlange mit getesteten Jobs
InfiniBand-Fabric mit ibdiagnet validiert
MPI Hello World und Bandbreitentest bestanden
Komplette Konfigurationsdokumentation
Übergabegespräch, um dich durch das System zu führen
Vor der Bestellung: Schick mir deine Knotenzahl, Hardware-Spezifikationen und die Workloads, die du ausführen möchtest. Ich bestätige die Machbarkeit und den Zeitplan, bevor du zahlst.
Server:
Andere
Betriebssysteme:
Linux
