Ich entwerfe professionelle Grafana-Dashboards für Kubernetes, Linux und HPC
Hochleistungsrechner HPC und Linux-Systemingenieur
Über diesen Service
Über dieses Gig
Optimiere deine Infrastruktur! Erhalte eine unternehmensgerechte Sichtbarkeit mit maßgeschneiderten Grafana-Dashboards, erstellt von einem KI- & HPC-Experten.
In KI und Hochleistungsrechnen ist Leistung alles. Ich baue fortschrittliche Observability-Stacks für komplexe Umgebungen. Egal, ob du einen KI-Trainingscluster, Kubernetes (K8s) oder ein Linux HPC-System verwaltest, ich liefere die Echtzeit-Einblicke, die du brauchst.
Was ich anbiete:
- HPC & KI Monitoring: Tiefgehende Metriken für GPU-Auslastung (NVIDIA/AMD), Slurm-Jobs und InfiniBand.
- Kubernetes Observability: Vollständiges Monitoring für K8s (GKE, EKS, AKS) mit Fokus auf Ressourcenstatus und Skalierung.
- Linux-Kenntnisse: Detaillierte Dashboards für CPU, RAM, Disk I/O und Netzwerkdurchsatz.
- Intelligente Alarmierung: Einrichtung von Slack- oder E-Mail-Benachrichtigungen, um Engpässe frühzeitig zu erkennen.
- Fortgeschrittenes PromQL: Experten-Prometheus-Abfragen für schnelle Datenvisualisierung.
Warum du mich wählen solltest?
KI-Spezialist: Ich verstehe LLM-Training und KI-Inferenz-Workloads. HPC-Leistung: Dashboards, die für riesige Datenmengen optimiert sind. Moderne Technik: Experte in Prometheus, Loki und OpenTelemetry.
Lass uns deine rohen Metriken in umsetzbare Leistung umwandeln!
Mein Portfolio
FAQ
Automatische Übersetzung
Kannst du GPU-Auslastung für KI-Model-Training überwachen?
Ja! Ich spezialisiere mich auf die Überwachung von NVIDIA- und AMD-GPU-Metriken, einschließlich Speicherverbrauch, Temperatur und Stromverbrauch. Das ist essenziell, um KI-Trainingscluster zu optimieren und sicherzustellen, dass deine Hardware effizient läuft.
Welche Datenquellen unterstützen Sie?
Ich arbeite mit einer Vielzahl von Datenquellen, darunter Prometheus, VictoriaMetrics, InfluxDB, Loki (für Logs) und cloud-native Tools wie AWS CloudWatch und Google Stackdriver. Ich kann auch benutzerdefinierte AI/ML-Metrik-Exporter integrieren.
Kannst du Alarme für Slack oder E-Mail einrichten?
Absolut. Ich konfiguriere intelligente Alarmregeln, damit du sofort bei hoher CPU/GPU-Auslastung, Pod-Abstürzen in Kubernetes oder Job-Fehlern in deinem HPC-Cluster benachrichtigt wirst. Ich kann auch On-Call-Routing einrichten.
Unterstützt du HPC-Scheduler wie Slurm?
Ja. Ich kann Dashboards erstellen, die Slurm-Job-Warteschlangen, Node-Verfügbarkeit und Partition-Gesundheit visualisieren. Das gibt HPC-Administratoren und Forschern einen klaren Überblick über die Auslastung ihres Clusters.
Muss ich den Server für Grafana bereitstellen?
Ich kann mit deiner bestehenden Infrastruktur arbeiten oder dir beim Deployment einer neuen Instanz auf AWS, GCP, Azure oder Bare Metal helfen. Wenn du eine verwaltete Lösung bevorzugst, unterstütze ich auch Grafana Cloud.

