Ich werde Spark ETL-Pipelines für Batch-Verarbeitung und Big Data-Workflows erstellen
Skalierbare Lösungen, sauberer Code und klare Kommunikation
Über diesen Service
Ich entwerfe und entwickle skalierbare Spark ETL-Pipelines für Batch-Datenverarbeitung, Transformationen und Workflows mit großem Volumen.
Dieses Gig ist ideal für Unternehmen, die Daten aus Dateien, Datenbanken, APIs oder anderen strukturierten Quellen zuverlässig und wartbar verarbeiten möchten. Ob du eine neue Batch-Pipeline von Grund auf brauchst oder Verbesserungen an einem bestehenden Job, ich kann dir helfen, eine saubere und produktionsorientierte Lösung zu bauen.
Ich konzentriere mich auf praktische Data Engineering-Ziele wie Ingestion, Transformation, Validierung, Aggregation und Lieferung in analytische Datensätze oder nachgelagerte Systeme.
Was dieses Gig beinhalten kann
- Spark- oder PySpark-ETL-Pipeline-Entwicklung
- Batch-Verarbeitung für große Datensätze
- Datenaufnahme aus CSV, JSON, Parquet, APIs und Datenbanken
- Datenbereinigung, Normalisierung und Transformation
- Join-, Aggregations-, Filter- und Anreicherungslogik
- Ausgabe in Dateien, Data Warehouses oder Datenbanken
- Optimierung und Refactoring bestehender Spark-Jobs
- Strukturiertes Logging und wartbare Code-Organisation
- Grundlegende Dokumentation und Übergabeschulung
Technologie:
Apache-Funken
•
BigQuery
•
Python
•
Scala
•
SQL
•
Apache Airflow
FAQ
Automatische Übersetzung
Kannst du mit einem bestehenden Spark-Code arbeiten?
Ja. Ich kann eine bestehende Spark-Pipeline verbessern, refaktorisieren, debuggen oder erweitern.
Kann das PySpark beinhalten?
Ja. PySpark wird vollständig unterstützt.
Kannst du bei Performance-Verbesserungen helfen?
Ja. Wenn dein aktueller Job langsam ist oder schwer zu warten, kann ich die Pipeline-Struktur und den Verarbeitungsfluss optimieren.
Übernimmst du auch die vollständige Deployment?
Dieses Gig konzentriert sich hauptsächlich auf die Entwicklung, aber Deployment-Unterstützung kann je nach Umgebung besprochen werden.
