Diese Dienstleistung ist vorübergehend nicht verfügbar
Ich helfe bei der Datentechnik, -verwaltung und -ermittlung
Indien
Architekt für Data Engineering, Data Warehouse und Data Lake: Delta
Über diesen Service
In der heutigen datengetriebenen Landschaft verlangen Organisationen nach Agilität und Skalierbarkeit, um das volle Potenzial ihrer Datenressourcen zu erschließen. Meine Expertise liegt in der Architektur und Implementierung robuster, leistungsstarker ETL-Pipelines, die die Lücke zwischen traditionellen OLTP-Datenbanken und modernen Data Lakehouse-Architekturen schließen und deiner Organisation ermöglichen, umsetzbare Erkenntnisse aus sowohl analytischen als auch operativen Workloads zu gewinnen.
Ich spezialisiere mich auf das Design, die Entwicklung und den Einsatz von Datenpipelines, die für Batch-, Echtzeit- und Near-Echtzeit-Datenaufnahme und -transformation aus OLTP-konformen Datenbanken wie MySQL, AWS Aurora und GCP Cloud SQL maßgeschneidert sind. Diese Pipelines integrieren sich nahtlos mit modernen Data Lakehouse-Formaten wie Apache Hudi, Iceberg und Delta Lake, sodass du eine einheitliche und skalierbare Datenbasis aufbauen kannst.
Durch die Implementierung meiner ETL-Pipelines kann deine Organisation:
- Die Datenzugänglichkeit und -nutzung sowohl für analytische als auch für operative Zwecke verbessern.
- Die Komplexität des Datenmanagements verringern, indem sie die einheitliche Datenbasis eines Data Lakehouse nutzt.
- Die Daten-Governance und Compliance durch robuste Datenlinien und Audit-Transaktionen verbessern.
Datenlösungen für deine Edge
FAQ
Automatische Übersetzung
Integrierst du Daten auch aus CSV, JSON, S3/GCS im Parquet-Format?
Ja, mit einer hochkonfigurierbaren Scala ETL-Pipeline werden verschiedene Dateien in Hudi/Delta Lakehouse ingestiert. Die Hive Metastore-Integration sorgt für eine nahtlose Datenentdeckung via Athena/Trino/Presto.
Integrierst du Daten auch direkt aus Kafka-Topics?
Ja, ich habe die hochkonfigurierbare Scala-Code-ETL-Pipeline, die Kafka-Topics als Micro-Batches liest und in das Lakehouse-Format schreibt. Dabei wird Hive Metastore genutzt, um einen einheitlichen Datenkatalog für Athena/Trino/Presto oder andere SQL-basierte Abfrage-Engines bereitzustellen.
Liest du die MySQL-Instanz über JDBC-Verbindung oder Binlog?
Ich verfüge über eine vollständig konfigurierbare ETL-Codebasis, die MySQL-basierte Tabellen entweder inkrementell, vollständig oder durch Aktivierung des Binlogs (mit Debezium/Maxwell) liest und in Kafka-Topics für die Echtzeit-Ingestion in das Lakehouse-Format schreibt. Die Datenentdeckung erfolgt über Hive Metastore.

