Ich werde eine ETL-Pipeline mit Python, Airflow und dbt aufbauen
Data Engineer, ETL Pipelines, Python, Airflow und dbt
Über diesen Service
Ist deine Daten über verschiedene Quellen verstreut, ohne eine zuverlässige Pipeline, um sie zu verschieben, zu bereinigen und dorthin zu liefern, wo sie gebraucht werden?
Ich erstelle produktionsreife ETL- und ELT-Pipelines mit Python, Apache Airflow und dbt, automatisiert, getestet und dokumentiert, damit dein Team sie ohne mich warten kann.
WAS DU BEKOMMST:
- Maßgeschneiderte ETL/ELT-Pipeline, angepasst an deine Datenquellen
- Apache Airflow DAGs mit Zeitplanung und Retry-Logik
- dbt-Transformationsmodelle mit Datenqualitäts-Tests
- Inkrementelle und Voll-Load-Muster
- Git-versionierter, dokumentierter Code
- Lieferung an Snowflake, BigQuery, Redshift oder Postgres
WARUM DU MICH WÄHLST:
Microsoft Certified Data Engineer. Habe Medallion Lakehouse auf Microsoft Fabric gebaut. Kompetent in Python, SQL, PySpark, Airflow, dbt, Kafka, Snowflake und BigQuery.
Jede Pipeline, die ich liefere, läuft in Produktion, nicht nur in einem Notebook.
Schreib mir vor der Bestellung, damit ich bestätigen kann, dass dein Stack passt.
FAQ
Automatische Übersetzung
Mit welchen Datenquellen können Sie eine Verbindung herstellen?
Ich kann ETL-Pipelines aus REST-APIs, PostgreSQL, MySQL, MongoDB, Flat Files (CSV, JSON, Parquet), Google Sheets, S3 und den meisten SaaS-Plattformen bauen. Wenn du eine spezielle Quelle hast, schreib mir vor der Bestellung.
Welche Data Warehouses unterstützt du?
Ich liefere an Snowflake, Google BigQuery, Amazon Redshift, PostgreSQL, Microsoft Fabric und Azure Synapse. Ich kann auch Delta Lake oder Apache Iceberg Formate auf Cloud-Speichern ansteuern.
Verwendest du Apache Airflow für Orchestrierung?
Ja. Ich erstelle Airflow DAGs mit Zeitplanung, Retry-Logik, Alarmierung und Abhängigkeitsmanagement. Wenn du eine leichtere Orchestrierung bevorzugst, kann ich auch Prefect verwenden.
Was ist dbt und brauche ich das?
dbt (data build tool) übernimmt die Transformationsebene in deiner ELT-Pipeline mit SQL. Es fügt Datenqualitäts-Tests, automatische Dokumentation und Versionskontrolle hinzu. Ich empfehle es für alle Warehouse-Projekte.
Läuft die Pipeline automatisch nach einem Zeitplan?
Ja. Alle Pipelines beinhalten automatisierte Planung via Airflow oder cron. Du wählst die Frequenz — stündlich, täglich oder ereignisgesteuert — und ich konfiguriere sie entsprechend.
Stellen Sie Unterlagen zur Verfügung?
Ja. Jede Lieferung enthält eine README, automatisch generierte dbt-Dokumentation und Inline-Code-Kommentare. Du wirst die Pipeline verstehen, erweitern und warten können, ohne mich.
Kannst du mit meinem bestehenden Daten-Stack arbeiten?
Ja. Schick mir vor der Bestellung deinen aktuellen Stack, und ich bestätige die Kompatibilität. Ich habe mit AWS, GCP und Azure Umgebungen gearbeitet und kann in die meisten bestehenden Setups integrieren.
Betreibst du Echtzeit-Streaming-Pipelines?
Ja. Das Premium-Paket beinhaltet Apache Kafka für Echtzeit-Ereignis-gesteuerte Pipelines. Wenn du Streaming in kleinerem Umfang brauchst, schreib mir und ich gebe dir ein Angebot.
Was brauchst du von mir, um anzufangen?
Ich brauche deine Datenquellen, Ziel-Data Warehouse, Transformationslogik oder Business Rules sowie Zugangsdaten. Ich sende dir eine Checkliste, nachdem du bestellt hast.
Ist der Code versionskontrolliert?
Ja. Der gesamte Code wird über ein Git-Repository mit sauberer Commit-Historie geliefert. Ich folge den besten Praktiken der Softwareentwicklung — keine Zip-Dateien mit losen Skripten.

