Ich werde Pyspark-Jobs sowohl für Batch- als auch für Streaming-Daten schreiben
Über diesen Service
Brauchst du einen erfahrenen Data Engineer, der deine Datenverarbeitung, ETL-Pipelines und Data Lake-Architektur optimiert? Dann bist du hier genau richtig! Ich bringe tiefgehende Expertise in der Entwicklung robuster Lösungen mit PySpark, EMR, Apache Hive und sogar Apache Hudi mit. Mit einem starken Hintergrund in Batch- und Streaming-Datenverarbeitung bin ich hier, um deine Daten-Workflows effizienter und genauer zu machen.
Meine Leistungen:
PySpark ETL Jobs:
Transformiere, bereinige und verarbeite deine Daten effizient mit PySpark. Ich erstelle maßgeschneiderte ETL-Pipelines, die genau auf deine Datenanforderungen abgestimmt sind, um hochwertige Ergebnisse zu liefern.
Batch- & Streaming-Jobs:
Egal, ob es um die Verarbeitung großer Datenmengen oder um die Handhabung von Echtzeit-Streams geht, ich kann sowohl Batch- als auch Streaming-Jobs nach bewährten Branchenpraktiken entwerfen und umsetzen.
EMR-Expertise:
Nutze die Kraft von Amazon Elastic MapReduce (EMR) für verteilte Datenverarbeitung. Ich erstelle EMR-Cluster, optimiere die Job-Ausführung und passe die Leistung an.
Weitere Leistungen:
Ich kann deine Jobs mit Apache Hive integrieren und auch meine Expertise in Apache Hudi einbringen. Falls du an einem DataLake arbeitest, kann ich deine Daten auch auf Amazon S3 ablegen.
Ich freue mich darauf, mit dir zusammenzuarbeiten. Viele Grüße!
Expertise:
Big Data
•
Datenmanipulation
•
etl
•
Transformation
•
SQL
•
NoSQL
Technologie:
Apache Hadoop
•
Apache-Funken
•
Excel
•
Python
•
SQL
•
NoSQL
