Chunking-Simulator
Vergleichen Sie visuell Dokument-Chunking-Strategien: Feste Größe, Semantisch und Satzbasiert.
Wie es funktioniert
- Fügen Sie Ihr Dokument ein: Importieren Sie einen Text oder ein Dokument, das Sie aufteilen möchten.
- Parameter anpassen: Ändern Sie die Chunk-Größe und den Überlappungsprozentsatz.
- Strategien vergleichen: Visualisieren Sie nebeneinander das Ergebnis der 3 Chunking-Methoden.
Häufig gestellte Fragen
- Welche Chunk-Größe sollte ich für mein RAG wählen?
- Die optimale Größe hängt von Ihrem Anwendungsfall ab. Für faktische Q&A: 200-500 Tokens. Für Dokumentensynthese: 500-1000 Tokens. Für Code: 100-300 Tokens. Testen Sie mehrere Größen mit diesem Tool.
- Welche Rolle spielt die Überlappung (Overlap)?
- Überlappung bewahrt den Kontext zwischen benachbarten Chunks. Eine Überlappung von 10-20% vermeidet das Abschneiden von Ideen in der Mitte. Zu viel Überlappung erhöht den Speicherbedarf und kann Redundanz in den Ergebnissen verursachen.
- Semantisches vs. Chunking mit fester Größe: Was soll ich wählen?
- Semantisches Chunking bewahrt natürliche Absätze und Bedeutung, ideal für vielfältige Dokumente. Feste Größe ist vorhersehbarer und schneller, ideal für homogene Inhalte wie Code oder Logs.
- Wie beeinflusst Chunking die RAG-Qualität?
- Schlechtes Chunking verschlechtert das Retrieval. Zu kleine Chunks verlieren den Kontext. Zu große Chunks verwässern relevante Informationen. Chunking ist oft der am meisten unterschätzte Optimierungshebel.
- Kann ich mehrere Chunking-Strategien kombinieren?
- Ja, es wird sogar für gemischte Korpora empfohlen. Verwenden Sie Satz-Chunking für FAQs, semantisches für Artikel und feste Größe für Code. Ailog handhabt diese Anpassung automatisch.
- Wie viele Tokens pro Chunk für OpenAI ada-002?
- ada-002 unterstützt bis zu 8191 Tokens, aber das ist nicht optimal. Zielen Sie auf 256-512 Tokens pro Chunk für ein gutes Gleichgewicht zwischen Kontext und Retrieval-Präzision. Embeddings kleiner Chunks sind unterscheidungskräftiger.
