Ich führe große Sprachmodell-Projekte durch
Machine Learning, Quantitative Finanzen, Daten
Über diesen Service
Ich werde benutzerdefinierte Sprachmodelle von Grund auf trainieren oder offene Gewichts-LLMs auf deinen Daten feinabstimmen. Ich baue GPT-ähnliche Transformer-Modelle von null mit PyTorch, von kleinen 10M-Parameter-Demos bis hin zu 50M-Parameter-Modellen. Außerdem fine-tune ich bestehende Modelle wie Llama, Phi-3 und Mistral auf deinem Datensatz mit LoRA/QLoRA.
Was du bekommst:
- Vollständig trainierte Modellgewichte und Tokenizer, die auf deine Daten zugeschnitten sind
- Kompletter Quellcode mit Kommentaren für Training und Inferenz
- Textgenerierungsskript + Installationsanleitung
- Trainingslogs, Verlustkurven und Beispielausgaben
- Komplette kommerzielle Rechte
Ich kümmere mich um Datenvorverarbeitung, Tokenizer-Training, Modellarchitektur und Trainingspipeline. Du stellst dein Text-Dataset im .txt-, .csv- oder PDF-Format bereit oder ich nutze Open-Source-Daten von HuggingFace, Kaggle und anderen.
Wichtig: Modelle unter 50M Parametern sind für Demos, Bildungszwecke und das Lernen deines spezifischen Datenstils konzipiert. Sie zeigen, wie LLMs funktionieren, verfügen aber nicht über breites Wissen wie ChatGPT.
Expertise:
Feature-Lernen
•
Prädiktive Analyse
•
Andere
Frameworks:
scikit-learn
•
keras
•
PyTorch
•
Panda
Datentyp:
Text
Programmiersprache:
Python
•
SQL
•
Colab
•
NoSQL
Tools:
Jupyter-Notizbuch
•
opencv
•
OpenNN
•
tensorflow
•
Excel
•
Colab
•
Andere
Mein Portfolio
Meine weiteren Dienstleistungen im Bereich Datenwissenschaft & ML
FAQ
Automatische Übersetzung
Was genau erhalte ich?
Du erhältst: 1) Trainierte Modelgewichte .safetensors 2) Eigenen Tokenizer 3) Vollständigen Python-Quellcode für Training und Inferenz 4) Requirements.txt und Installationsanleitung 5) Trainingslogs mit Verlust- und Perplexitätsdiagrammen 6) Beispieltexte 7) Vollständige kommerzielle Rechte.
Stellst du die Trainingsdaten bereit?
Wenn du einen eigenen Datensatz hast, kannst du diesen bereitstellen. Ich kümmere mich um Reinigung, Formatierung, Tokenisierung und Training. Akzeptierte Formate: .txt, .csv, .json oder PDF. Falls du keinen hast, werde ich je nach deiner Wahl offene Daten von Websites wie HuggingFace, Kaggle und anderen verwenden, um unser Modell zu trainieren.
Wird mein 10M- oder 50M-Modell wie ChatGPT sein?
Nein. Modelle unter 100M Parametern sind für Demos, Proof-of-Concepts und das Lernen spezifischer Stile/Muster aus deinen Daten. Sie werden Texte in deinem Domain-Stil generieren, aber kein breites Wissen, kein logisches Denken oder Anweisungen befolgen wie ChatGPT. Dafür brauchst du 7B+ Modelle mit riesigen Datensätzen.
Wie viel Daten muss ich bereitstellen?
Für 10M-Modelle: 10MB-100MB Text. Für 50M-Modelle: 50MB-500MB Text. Mehr Daten = bessere Ergebnisse. 1MB ≈ 200k Tokens. Wenn du unsicher bist, schick mir deinen Datensatz und ich prüfe, ob er ausreicht, bevor wir starten.
