Simulateur de chunking
Comparez visuellement les stratégies de découpage de documents : taille fixe, sémantique et par phrase.
Comment ça marche
- Collez votre document: Importez un texte ou document que vous souhaitez découper.
- Ajustez les paramètres: Modifiez la taille des chunks et le pourcentage de chevauchement.
- Comparez les stratégies: Visualisez côte à côte le résultat des 3 méthodes de chunking.
Questions fréquentes
- Quelle taille de chunk choisir pour mon RAG ?
- La taille optimale dépend de votre cas d'usage. Pour du Q&A factuel, 200-500 tokens. Pour de la synthèse de documents, 500-1000 tokens. Pour du code, 100-300 tokens. Testez plusieurs tailles avec cet outil.
- Quel est le rôle du chevauchement (overlap) ?
- Le chevauchement préserve le contexte entre les chunks adjacents. Un overlap de 10-20% évite de couper des idées en plein milieu. Trop d'overlap augmente le stockage et peut créer de la redondance dans les résultats.
- Chunking sémantique vs taille fixe : lequel choisir ?
- Le chunking sémantique préserve les paragraphes naturels et le sens, idéal pour des documents variés. La taille fixe est plus prévisible et rapide, idéale pour des contenus homogènes comme du code ou des logs.
- Comment le chunking affecte-t-il la qualité du RAG ?
- Un mauvais chunking dégrade la retrieval. Des chunks trop petits perdent le contexte. Des chunks trop grands diluent l'information pertinente. Le chunking est souvent le levier d'optimisation le plus sous-estimé.
- Puis-je combiner plusieurs stratégies de chunking ?
- Oui, c'est même recommandé pour des corpus mixtes. Utilisez du chunking par phrase pour les FAQ, sémantique pour les articles, et taille fixe pour le code. Ailog gère automatiquement cette adaptation.
- Combien de tokens par chunk pour OpenAI ada-002 ?
- ada-002 supporte jusqu'à 8191 tokens mais ce n'est pas optimal. Visez 256-512 tokens par chunk pour un bon équilibre entre contexte et précision de retrieval. Les embeddings de petits chunks sont plus discriminants.
