Ich erstelle hochwertige Trainingsdatensätze aus deinen Dokumenten für LLM-Feinabstimmung
Spezialist für AI-Training-Daten, Dokumente bis zu Feinabstimmung
Über diesen Service
Schick mir eine Nachricht, bevor du bestellst, damit ich bestätigen kann, dass deine Dokumente zu deinem gewählten Paket passen.
Ich erstelle mehrwinkelige Trainingsdatensätze aus deinen Geschäftsdokumenten, die LLMs beibringen, tatsächlich über dein Fachgebiet zu reasoning.
WIE ES FUNKTIONIERT:
Sende mir deine PDFs, Word-Dokumente oder Richtlinienhandbücher. Ich generiere Paare pro Dokumentabschnitt aus drei Reasoning-Winkeln:
Faktisch: "Welche Wasserschäden sind laut Abschnitt 4 ausgeschlossen?"
Bedingt: "Wenn ein Laptop beim Freelance-Arbeiten gestohlen wird, ist er dann versichert?"
Ausschluss: "Was ist NICHT abgedeckt, wenn der Jahresumsatz 50.000 $ übersteigt?"
Jedes Paar wird anhand des Quelltexts überprüft, anschließend prüfe ich die Genauigkeit vor der Lieferung.
WAS DU BEKOMMST:
- Eine Alpaca-Format JSONL-Datei, bereit für jede Fine-Tuning-Pipeline (Unsloth, LLaMA Factory, OpenAI usw.)
- Mehrwinkelige Paare (faktisch, bedingt und Ausschluss reasoning)
- Cross-Dokument-Synthese-Paare, die Wissen über verwandte Dateien verbinden
- 2-3-mal mehr Paare pro Abschnitt als Wettbewerber mit Einzel-Fragen
AM BESTEN FÜR:
Versicherung, Recht, Compliance, Produktdokumentation, Unternehmen
Hol dir das vollständige Modell: https://www.Fiverr.com/s/Ld5qPg4
Programmiersprache:
Python
Datentyp:
Text
KI-Engine:
GPT
•
DeepSeek
•
Llama
•
Langchain
•
PyTorch
FAQ
Automatische Übersetzung
In welchem Format wird das Dataset geliefert?
Alpaca-Format JSONL — der Branchenstandard für LLM-Feinabstimmung. Jeder Eintrag enthält Anweisung, Eingabe und Antwort. Funktioniert direkt mit Unsloth, LLaMA Factory, Axolotl, OpenAI Feinabstimmungs-API und jeder HuggingFace-kompatiblen Pipeline.
Mit welchen Arten von Dokumenten arbeiten Sie?
Jedes textlastige Geschäftsdokument: Versicherungspolicen, rechtliche Verträge, Compliance-Handbücher, Produktdokumentationen, Mitarbeiterratgeber, Gesundheitsprotokolle, Unternehmens-SOPs, technische Handbücher.
Wie viele QA-Paare erhalte ich?
In der Regel 2-3 verifizierte Paare pro Dokumentabschnitt. Eine 10-seitige PDF ergibt meist 40-80 hochwertige Paare. Die genaue Anzahl hängt von der Dokumentendichte ab — Policen mit vielen Bedingungen und Ausschlüssen produzieren mehr Paare als einfache narrative Texte.
Was macht deine Datensätze anders als andere Verkäufer?
Drei Dinge. Erstens, Mehrwinkel-Generation — jeder Abschnitt produziert faktische, bedingte und Ausschluss-Reasoning-Paare. Zweitens, Querverbindung durch Synthesis — Paare, die Wissen über verwandte Dokumente verbinden. Drittens, jedes Paar wird vor der Lieferung überprüft und manuell gegen den Quelltext geprüft.
Kannst du auch das Modell für mich feinabstimmen?
Dieses Gig umfasst nur die Dataset-Erstellung. Schreib mir, um Feinabstimmungsoptionen zu besprechen.

