Ich werde End-to-End GCP Data Pipelines mit Pubsub, Kafka und Dataform aufbauen
Über diesen Service
Eine moderne Datenplattform erfordert eine robuste Ingestion und sorgfältig modellierte Analysen. Als Google Cloud Certified Data Engineer baue ich End-to-End-Systeme, die Datenintegrität vom Ursprung bis zum Dashboard garantieren.
Ich entwickle hochvolumige, ereignisgesteuerte Pipelines mit strikter mindestens-einmal-Lieferung, während ich zentrale BigQuery-Modelle entwerfe, die unterschiedliche Tabellen aus mehr als 19 Geschäftsbereichen vereinheitlichen.
Was ich für dich tun kann:
- Echtzeit-Ingestion: Sichere Systeme mit Apache Kafka & GCP Pub/Sub in Java Spring Boot entwerfen.
- Serverlose Verarbeitung: Entkopplte Microservices mit Cloud Run entwickeln, um große Datensätze zu transformieren.
- Dimensionales Modellieren: Rohdaten in BigQuery mit Dataform in Star Schemas umwandeln, inklusive SCD Typ 2 & 4.
- Orchestrierung: Mehrstufige ELT-Workflows mit Cloud Composer (Airflow) automatisieren, um Dataform-Jobs zu steuern.
Technologien, die ich verwende: GCP Pub/Sub, Kafka, BigQuery, Dataform, Java (Spring Boot), Cloud Run, Airflow und Terraform.
Warum du mich wählen solltest? Du bekommst einen zertifizierten Cloud-Experten, der robuste Datenqualitäts-Frameworks implementiert, Fehler in persistenten Fehler-Tabellen protokolliert, damit deine Analysen vertrauenswürdig bleiben.
Lass uns vor deiner Bestellung sprechen, um den Umfang abzustimmen!
FAQ
Automatische Übersetzung
Wie gehst du mit dem Unterschied zwischen Streaming-Daten und Batch-Modellierung um?
Ich verwende einen modernen Ansatz, bei dem Pub/Sub und Cloud Run die Echtzeit-Ingestion übernehmen und die Daten sicher in Roh-BigQuery-Tabellen landen. Anschließend plane ich Dataform über Cloud Composer (Airflow), um die Rohdaten regelmäßig zu bereinigen, zu testen und in geschäftsbereite kuratierte Tabellen zu modellieren.
Kannst du garantieren, dass keine Streaming-Nachrichten verloren gehen?
Ja. Ich entwickle Systeme mit strengen mindestens-einmal-Liefergarantien, nutze robuste Wiederholungslogik und Zwischenspeicher, um vollständige Fehlertoleranz zu gewährleisten.
Verwendest du Dataform oder dbt für das BigQuery-Modellieren?
Ich empfehle Dataform für native GCP-Stacks, da es vollständig in BigQuery verwaltet wird und sich nahtlos in Cloud Composer integriert. Ich bin jedoch in beiden Tools versiert, je nach deiner Umgebung.
Wie stellst du sicher, dass die modellierten Daten korrekt sind?
Ich implementiere ein robustes Datenqualitäts-Framework in Dataform, um Assertion Failures zu erfassen. Alle Validierungsfehler werden automatisch an eine persistent BigQuery-Fehler-Log-Tabelle weitergeleitet.

