Ich werde einen AWS Data Lake und ETL-Pipeline mit PySpark aufbauen
Cloud Data Engineer, der skalierbare ETL-Pipelines baut
Über diesen Service
Als Data Engineer entwerfe ich robuste cloud-native Architekturen und skalierbare ETL-Pipelines. Ob ich große Log-Daten verarbeite oder Medallion Data Lakes aufbaue, ich liefere saubere, optimierte Lösungen.
️ Was ich anbiete:
- End-to-End ETL-Pipelines: Automatisierte Datenextraktion, -transformation und -ladung mit Python und PySpark.
- Cloud Data Lakes: Architektur von serverlosen Medallion Data Lakes (Bronze, Silver, Gold) auf AWS (S3, Glue, Athena).
- Datenbankarchitektur: Entwurf relationaler Datenbanken (3NF) und Optimierung komplexer SQL-Abfragen (CTEs, Window Functions) in PostgreSQL.
- Performance-Optimierung: Reduzierung der Datenverarbeitungszeiten und Senkung der Speicherkosten durch Formate wie Apache Parquet.
Technologie-Stack: AWS (S3, Glue, Athena) | PySpark | Python | PostgreSQL | Fortgeschrittene SQL | Git/GitHub
Warum du mich wählen solltest? Ich schreibe produktionsbereiten Code, sorge für skalierbare Designs und halte mich strikt an Best Practices im Data Engineering.
Bitte schreibe mir vor der Bestellung, um dein genaues Projekt zu besprechen!
Mein Portfolio
FAQ
Automatische Übersetzung
Stellst du Architekturdiagramme bereit, bevor du mit dem Projekt beginnst?
Ja! Für Standard- und Premium-Pakete stelle ich vor der Codeerstellung ein vollständiges High-Level-Architekturdiagramm (z.B. AWS S3, Glue, Athena Flow) bereit, um sicherzustellen, dass wir auf derselben Seite sind.
Welche Technologien nutzt du für die Datenumwandlung?
Ich verwende hauptsächlich PySpark (über AWS Glue) für Big Data-Transformationen und fortgeschrittene SQL (PostgreSQL) für relationale Datenbanken, um hohe Leistung und Skalierbarkeit zu gewährleisten.

