Dieses Gig kombiniert Backend-Automatisierung mit anspruchsvoller Datenverarbeitung.
Der Tech-Stack:
- Extraction Engine: Python ist die Hauptsprache, die Selenium, Playwright oder Puppeteer für Browser-Automatisierung nutzt. Diese Tools können JavaScript rendern, Buttons klicken und unendliche Scroll-Tasks bewältigen, die BeautifulSoup nicht alleine handhaben kann.
- Anti-Detection Layer: Integration von Proxy-Rotation-Services (Bright Data, Smartproxy) und die Verwendung von undetected-chromedriver um Cloudflare/Akamai WAFs (Web Application Firewalls) zu umgehen.
- Datenverarbeitung: Sobald Rohdaten extrahiert sind, wird Pandas verwendet, um sie zu bereinigen, Duplikate zu entfernen, Währungsformate zu normalisieren, fehlende Werte aufzufüllen und Datentypen zu validieren.
- Speicherung/Delivery: Daten werden per CSV, JSON oder direkt in die PostgreSQL oder Firebase Datenbank des Kunden eingespeist.