Chunking mit fester Größe: Schnell und zuverlässig
Beherrschen Sie die Grundlagen: Implementieren Sie Chunking mit fester Größe und Überlappungen für konsistente und vorhersehbare RAG-Leistung.
Warum eine feste Größe ?
Vorteile :
- ✅ Einfach zu implementieren
- ✅ Anzahl der chunks vorhersehbar
- ✅ Schnell (keine KI erforderlich)
- ✅ Funktioniert für alle Inhalte
Nachteile :
- ❌ Schneidet Sätze ab
- ❌ Ignoriert die Semantik
Basisimplementierung
DEVELOPERpythondef fixed_chunk(text, chunk_size=500, overlap=50): chunks = [] start = 0 while start < len(text): end = start + chunk_size chunk = text[start:end] chunks.append(chunk) start += chunk_size - overlap # Mit Überlappung voranschreiten return chunks
Mit Satzgrenzen
Besser : nicht mitten im Satz schneiden :
DEVELOPERpythonimport re def chunk_by_tokens(text, chunk_size=500, overlap=50): # In Sätze aufteilen sentences = re.split(r'(?<=[.!?])\s+', text) chunks = [] current_chunk = [] current_size = 0 for sentence in sentences: sentence_size = len(sentence) if current_size + sentence_size > chunk_size and current_chunk: # Aktuellen Chunk speichern chunks.append(' '.join(current_chunk)) # Neuen Chunk mit Überlappung starten overlap_sentences = current_chunk[-2:] if len(current_chunk) > 1 else current_chunk current_chunk = overlap_sentences + [sentence] current_size = sum(len(s) for s in current_chunk) else: current_chunk.append(sentence) current_size += sentence_size if current_chunk: chunks.append(' '.join(current_chunk)) return chunks
LangChain-Implementierung
DEVELOPERpythonfrom langchain.text_splitter import RecursiveCharacterTextSplitter splitter = RecursiveCharacterTextSplitter( chunk_size=500, chunk_overlap=50, separators=["\n\n", "\n", ". ", " ", ""] ) chunks = splitter.split_text(long_text)
Wahl der Chunk-Größe
Petits chunks (200-300) :
- Präzisere Retrieval-Ergebnisse
- Aber weniger Kontext
Chunks moyens (500-800) :
- Ausgewogen (empfohlen)
Grands chunks (1000+) :
- Mehr Kontext
- Aber ungenaues Retrieval
Testen Sie es mit Ihren Daten !
Das chunking mit fester Größe ist bewährt. Beginnen Sie hier, optimieren Sie später bei Bedarf.
Tags
Verwandte Artikel
Strategien für Chunking RAG 2025: Optimale Größen & Techniken
Beherrschen Sie Chunking für RAG: optimale Größen (512–1024 tokens), Überlappungsstrategien, semantische vs. feste Segmentierung. +25% Retrieval-Genauigkeit.
Semantische Aufteilung für besseren Abruf
Teilen Sie Dokumente intelligent nach Bedeutung, nicht nur nach Länge. Lernen Sie Techniken der semantischen Aufteilung für RAG.
Hierarchische Aufteilung: Die Struktur Ihrer Dokumente bewahren
Die hierarchische Aufteilung erhält die Eltern-Kind-Beziehungen in Ihren Dokumenten. Lernen Sie, wie Sie diese fortgeschrittene Technik implementieren, um die Retrieval-Qualität von RAG zu verbessern.