2. ChunkingAnfänger

Chunking mit fester Größe: Schnell und zuverlässig

23. November 2025
7 Minuten Lesezeit
Équipe de Recherche Ailog

Beherrschen Sie die Grundlagen: Implementieren Sie Chunking mit fester Größe und Überlappungen für konsistente und vorhersehbare RAG-Leistung.

Warum eine feste Größe ?

Vorteile :

  • ✅ Einfach zu implementieren
  • ✅ Anzahl der chunks vorhersehbar
  • ✅ Schnell (keine KI erforderlich)
  • ✅ Funktioniert für alle Inhalte

Nachteile :

  • ❌ Schneidet Sätze ab
  • ❌ Ignoriert die Semantik

Basisimplementierung

DEVELOPERpython
def fixed_chunk(text, chunk_size=500, overlap=50): chunks = [] start = 0 while start < len(text): end = start + chunk_size chunk = text[start:end] chunks.append(chunk) start += chunk_size - overlap # Mit Überlappung voranschreiten return chunks

Mit Satzgrenzen

Besser : nicht mitten im Satz schneiden :

DEVELOPERpython
import re def chunk_by_tokens(text, chunk_size=500, overlap=50): # In Sätze aufteilen sentences = re.split(r'(?<=[.!?])\s+', text) chunks = [] current_chunk = [] current_size = 0 for sentence in sentences: sentence_size = len(sentence) if current_size + sentence_size > chunk_size and current_chunk: # Aktuellen Chunk speichern chunks.append(' '.join(current_chunk)) # Neuen Chunk mit Überlappung starten overlap_sentences = current_chunk[-2:] if len(current_chunk) > 1 else current_chunk current_chunk = overlap_sentences + [sentence] current_size = sum(len(s) for s in current_chunk) else: current_chunk.append(sentence) current_size += sentence_size if current_chunk: chunks.append(' '.join(current_chunk)) return chunks

LangChain-Implementierung

DEVELOPERpython
from langchain.text_splitter import RecursiveCharacterTextSplitter splitter = RecursiveCharacterTextSplitter( chunk_size=500, chunk_overlap=50, separators=["\n\n", "\n", ". ", " ", ""] ) chunks = splitter.split_text(long_text)

Wahl der Chunk-Größe

Petits chunks (200-300) :

  • Präzisere Retrieval-Ergebnisse
  • Aber weniger Kontext

Chunks moyens (500-800) :

  • Ausgewogen (empfohlen)

Grands chunks (1000+) :

  • Mehr Kontext
  • Aber ungenaues Retrieval

Testen Sie es mit Ihren Daten !

Das chunking mit fester Größe ist bewährt. Beginnen Sie hier, optimieren Sie später bei Bedarf.

Tags

découpagefixed-sizesimplefast

Verwandte Artikel

Ailog Assistant

Ici pour vous aider

Salut ! Pose-moi des questions sur Ailog et comment intégrer votre RAG dans vos projets !