Ich baue große Datenpipelines auf und verarbeite Datensätze mit pyspark und sql

Einige Informationen wurden automatisch übersetzt.

Pakistan

Ich spreche Englisch, Französisch

KI-, Daten- und Web3-Ingenieur

Ich bin ML- und Data-Engineer mit einem Master in Data & Intelligence von der Université Claude Bernard Lyon 1. Ich spezialisiere mich darauf, die Kluft zwischen fortschrittlicher KI-Forschung und ska...
Über diesen Service

Hast du Schwierigkeiten mit riesigen Datensätzen oder langsamen Verarbeitungszeiten?


Ich bin ein Data Engineer, spezialisiert auf groß angelegte Big Data Verarbeitung, ETL und Analysen. Ich erstelle hochoptimierte Datenpipelines, um Gigabytes an Daten effizient mit PySpark und Python zu ingestieren, zu reinigen und zu transformieren. Ob komplexe Aggregationen, geospatiale Karten oder saubere Visualisierungen – ich liefere produktionsbereiten Code.


Meine Kernleistungen:


  • Big Data Pipelines: Hochleistungs-ETL-Workflows mit Apache Spark, PySpark und Python.
  • Fortgeschrittene Transformationen: Optimierte Spark SQL-Abfragen, komplexe Fensterfunktionen, UDFs und groß angelegte Joins.
  • Datenintegration: Reinigung und Formatierung von strukturierten/semi-strukturierten Daten für nachgelagerte Analysen.
  • Geospatiale Daten: Verarbeitung von standortbasierten und Zeitreihendaten.
  • Visuelle Einblicke: Umwandlung großer Daten in umsetzbare Visualisierungen mit Pandas und Matplotlib.


Technologie-Stack: Python | Apache Spark | PySpark | Spark SQL | Pandas | Matplotlib


Warum ich?

Ich schreibe sauberen, skalierbaren und vollständig dokumentierten Code, der sicherstellt, dass deine Datenoperationen genau und rechenoptimiert sind.


Bitte schreibe mir vor der Bestellung, um dein Dataset zu besprechen!

Zielplattform:

Databricks Lakehouse

PostgreSQL

Apache Hive

Tools und Plattformen:

Andere