Ich richte den Databricks Unity Catalog, Medallion Layers und PySpark ETL Pipelines ein
Data Engineer, Python Entwickler, AI Automation und AI Agents
Geprüft von Fiverr Pro
Hamza Anwar wurde vom Fiverr Pro-Team aufgrund besonderer Expertise ausgewählt.
Geprüft für
Datentechnik
Über diesen Service
Vetted Pro
Die meisten Data Lake-Projekte scheitern bei Silver. Die Rohdaten landen in Bronze und liegen dort unordentlich, unzuverlässig und unbrauchbar herum. Ich baue die komplette Pipeline vom Rohdaten-Import bis zur Gold-Schicht, die deine BI-Tools tatsächlich abfragen können.
Ich bin ein Python Data Engineer mit praktischer Erfahrung bei Databricks, die den gesamten Lakehouse-Stack abdeckt: Medallion-Architektur, PySpark-Pipelines, Delta Lake, Unity Catalog und Databricks Workflows. Außerdem habe ich einen Master-Abschluss in Business Intelligence, daher weiß ich genau, wie die Daten auf der Gold-Schicht aussehen müssen, damit Reporting wirklich funktioniert.
Was ich für dich bauen werde:
- Medallion-Architektur (Bronze / Silver / Gold), gestaltet um deine Datenquellen und Geschäftslogik
- PySpark-Notebooks dokumentiert, getestet, produktionsbereit.
- Delta-Tabellen mit richtiger Partitionierung, Z-Ordering und Vacuuming.
- Unity Catalog mit Schemas, Katalogen und Zugriffspolitiken eingerichtet.
- Databricks Workflows, um deine Pipelines automatisch zu planen, zu überwachen und neu zu starten.
- BI-ready Gold-Schicht, die dein Team ab Tag eins abfragen kann.
Nicht sicher, was du brauchst? Schick mir deine Datenquellen und dein Endziel, ich sage dir genau, was sinnvoll ist zu bauen.
Warehouse-Plattform:
Databricks
Projektart:
New Build
Kunden, mit denen ich zusammengearbeitet habe
Acuity Healthcare
Built an automated healthcare executive leads pipeline in Python that scrapes Indeed, enriches contacts via Apollo, anymailfinder, verifies emails through Million Verifier, and delivers 2,000 job-matched leads per batch to Excel.
März 2026-Mai 2026
Mein Portfolio
Meine weiteren Dienstleistungen im Bereich Datentechnik
FAQ
Automatische Übersetzung
Was ist Medallion-Architektur und brauche ich sie?
Medallion ist ein schichtweises Konzept zur Organisation von Daten in einem Lakehouse. Bronze enthält Rohdaten. Silver bereinigt und konformiert sie. Gold fasst sie zu geschäftsbereiten Tabellen zusammen. Wenn du mehrere Datenquellen hast und zuverlässige, abfragbare Daten für Reporting oder ML brauchst, ist das das richtige Muster.
Brauche ich einen bestehenden Databricks-Workspace?
Ja, du brauchst einen Databricks-Workspace, der auf Azure, AWS oder GCP eingerichtet ist. Ich arbeite in deiner Umgebung, damit alles in deinem Account bleibt. Wenn du unsicher bist, was du zuerst einrichten sollst, schreib mir und ich gebe dir eine Empfehlung.
Welche Datenquellen kannst du in Bronze importieren?
REST-APIs, relationale Datenbanken (PostgreSQL, MySQL, SQL Server), Cloud-Storage-Dateien (CSV, JSON, Parquet, Avro auf S3 oder ADLS), Streaming-Quellen via Auto Loader und Plattformen von Drittanbietern. Sag mir deine Quellen und ich bestätige, was einfach ist und was mehr Arbeit braucht.
Was ist Unity Catalog und warum ist es wichtig?
Unity Catalog ist die Daten-Governance-Schicht von Databricks. Damit kannst du steuern, wer Zugriff auf welche Tabellen hat, Datenherkunft verfolgen und Schemas in mehreren Workspaces verwalten – alles an einem Ort. Für Teams mit mehreren Nutzern oder regulatorischen Anforderungen lohnt es sich, das von Anfang an einzurichten.
Kann die Gold-Schicht mit Power BI oder Tableau verbunden werden?
Ja. Gold Delta-Tabellen lassen sich direkt mit Power BI über den Databricks-Connector verbinden, ebenso wie mit Tableau und Looker Studio. Ich strukturiere die Gold-Schicht so, dass dein BI-Tool direkt darauf zugreifen kann, ohne weitere Transformationen.

