Name: Ailog - RAG as a Service Platform
Availability: InStock
Rating: 4.8 (156 reviews)

Warum eine feste Größe ?

Vorteile :

✅ Einfach zu implementieren
✅ Anzahl der chunks vorhersehbar
✅ Schnell (keine KI erforderlich)
✅ Funktioniert für alle Inhalte

Nachteile :

❌ Schneidet Sätze ab
❌ Ignoriert die Semantik

Basisimplementierung

DEVELOPERpython
def fixed_chunk(text, chunk_size=500, overlap=50):
    chunks = []
    start = 0

    while start < len(text):
        end = start + chunk_size
        chunk = text[start:end]
        chunks.append(chunk)
        start += chunk_size - overlap  # Mit Überlappung voranschreiten

    return chunks

Mit Satzgrenzen

Besser : nicht mitten im Satz schneiden :

DEVELOPERpython
import re

def chunk_by_tokens(text, chunk_size=500, overlap=50):
    # In Sätze aufteilen
    sentences = re.split(r'(?<=[.!?])\s+', text)

    chunks = []
    current_chunk = []
    current_size = 0

    for sentence in sentences:
        sentence_size = len(sentence)

        if current_size + sentence_size > chunk_size and current_chunk:
            # Aktuellen Chunk speichern
            chunks.append(' '.join(current_chunk))

            # Neuen Chunk mit Überlappung starten
            overlap_sentences = current_chunk[-2:] if len(current_chunk) > 1 else current_chunk
            current_chunk = overlap_sentences + [sentence]
            current_size = sum(len(s) for s in current_chunk)
        else:
            current_chunk.append(sentence)
            current_size += sentence_size

    if current_chunk:
        chunks.append(' '.join(current_chunk))

    return chunks

LangChain-Implementierung

DEVELOPERpython
from langchain.text_splitter import RecursiveCharacterTextSplitter

splitter = RecursiveCharacterTextSplitter(
    chunk_size=500,
    chunk_overlap=50,
    separators=["\n\n", "\n", ". ", " ", ""]
)

chunks = splitter.split_text(long_text)

Wahl der Chunk-Größe

Petits chunks (200-300) :

Präzisere Retrieval-Ergebnisse
Aber weniger Kontext

Chunks moyens (500-800) :

Ausgewogen (empfohlen)

Grands chunks (1000+) :

Mehr Kontext
Aber ungenaues Retrieval

Testen Sie es mit Ihren Daten !

Das chunking mit fester Größe ist bewährt. Beginnen Sie hier, optimieren Sie später bei Bedarf.

Chunking mit fester Größe: Schnell und zuverlässig

Warum eine feste Größe ?

Basisimplementierung

Mit Satzgrenzen

LangChain-Implementierung

Wahl der Chunk-Größe

Tags

Verwandte Artikel

Strategien für Chunking RAG 2025: Optimale Größen & Techniken

Semantische Aufteilung für besseren Abruf

Hierarchische Aufteilung: Die Struktur Ihrer Dokumente bewahren

Ailog Assistant