Chunking-Simulator

Vergleichen Sie visuell Dokument-Chunking-Strategien: Feste Größe, Semantisch und Satzbasiert.

Wie es funktioniert

  1. Fügen Sie Ihr Dokument ein: Importieren Sie einen Text oder ein Dokument, das Sie aufteilen möchten.
  2. Parameter anpassen: Ändern Sie die Chunk-Größe und den Überlappungsprozentsatz.
  3. Strategien vergleichen: Visualisieren Sie nebeneinander das Ergebnis der 3 Chunking-Methoden.

Häufig gestellte Fragen

Welche Chunk-Größe sollte ich für mein RAG wählen?
Die optimale Größe hängt von Ihrem Anwendungsfall ab. Für faktische Q&A: 200-500 Tokens. Für Dokumentensynthese: 500-1000 Tokens. Für Code: 100-300 Tokens. Testen Sie mehrere Größen mit diesem Tool.
Welche Rolle spielt die Überlappung (Overlap)?
Überlappung bewahrt den Kontext zwischen benachbarten Chunks. Eine Überlappung von 10-20% vermeidet das Abschneiden von Ideen in der Mitte. Zu viel Überlappung erhöht den Speicherbedarf und kann Redundanz in den Ergebnissen verursachen.
Semantisches vs. Chunking mit fester Größe: Was soll ich wählen?
Semantisches Chunking bewahrt natürliche Absätze und Bedeutung, ideal für vielfältige Dokumente. Feste Größe ist vorhersehbarer und schneller, ideal für homogene Inhalte wie Code oder Logs.
Wie beeinflusst Chunking die RAG-Qualität?
Schlechtes Chunking verschlechtert das Retrieval. Zu kleine Chunks verlieren den Kontext. Zu große Chunks verwässern relevante Informationen. Chunking ist oft der am meisten unterschätzte Optimierungshebel.
Kann ich mehrere Chunking-Strategien kombinieren?
Ja, es wird sogar für gemischte Korpora empfohlen. Verwenden Sie Satz-Chunking für FAQs, semantisches für Artikel und feste Größe für Code. Ailog handhabt diese Anpassung automatisch.
Wie viele Tokens pro Chunk für OpenAI ada-002?
ada-002 unterstützt bis zu 8191 Tokens, aber das ist nicht optimal. Zielen Sie auf 256-512 Tokens pro Chunk für ein gutes Gleichgewicht zwischen Kontext und Retrieval-Präzision. Embeddings kleiner Chunks sind unterscheidungskräftiger.

Chunk it

Vergleichen Sie visuell verschiedene Strategien zur Dokumentenaufteilung

tools.chunking.size300
Overlap50

Geben Sie Text ein, um Chunks zu sehen

tools.chunking.cta.automaticOptimization

Ausprobieren

Wie es funktioniert

  1. 1

    Fügen Sie Ihr Dokument ein

    Importieren Sie einen Text oder ein Dokument, das Sie aufteilen möchten.

  2. 2

    Parameter anpassen

    Ändern Sie die Chunk-Größe und den Überlappungsprozentsatz.

  3. 3

    Strategien vergleichen

    Visualisieren Sie nebeneinander das Ergebnis der 3 Chunking-Methoden.

Weitere Tools

Häufig gestellte Fragen

Die optimale Größe hängt von Ihrem Anwendungsfall ab. Für faktische Q&A: 200-500 Tokens. Für Dokumentensynthese: 500-1000 Tokens. Für Code: 100-300 Tokens. Testen Sie mehrere Größen mit diesem Tool.

Überlappung bewahrt den Kontext zwischen benachbarten Chunks. Eine Überlappung von 10-20% vermeidet das Abschneiden von Ideen in der Mitte. Zu viel Überlappung erhöht den Speicherbedarf und kann Redundanz in den Ergebnissen verursachen.

Semantisches Chunking bewahrt natürliche Absätze und Bedeutung, ideal für vielfältige Dokumente. Feste Größe ist vorhersehbarer und schneller, ideal für homogene Inhalte wie Code oder Logs.

Schlechtes Chunking verschlechtert das Retrieval. Zu kleine Chunks verlieren den Kontext. Zu große Chunks verwässern relevante Informationen. Chunking ist oft der am meisten unterschätzte Optimierungshebel.

Ja, es wird sogar für gemischte Korpora empfohlen. Verwenden Sie Satz-Chunking für FAQs, semantisches für Artikel und feste Größe für Code. Ailog handhabt diese Anpassung automatisch.

ada-002 unterstützt bis zu 8191 Tokens, aber das ist nicht optimal. Zielen Sie auf 256-512 Tokens pro Chunk für ein gutes Gleichgewicht zwischen Kontext und Retrieval-Präzision. Embeddings kleiner Chunks sind unterscheidungskräftiger.