RAG Glossary - Document AI Terms and Definitions

Comprehensive glossary of RAG, LLM, and artificial intelligence terms. Clear definitions of key concepts to master document AI.

Core RAG Terms

RAG (Retrieval-Augmented Generation)
A technique that enhances LLMs by retrieving relevant information from an external knowledge base before generating a response.
Embedding
A dense vector representation of text that captures its semantic meaning. Similar texts have embeddings that are close together in vector space.
Vector Database
A specialized database for efficiently storing and searching embedding vectors. Examples: Qdrant, Pinecone, Weaviate, ChromaDB, Milvus.
Chunking
The process of splitting documents into smaller segments to enable more precise retrieval and respect model context limits.
Semantic Search
Search based on meaning rather than exact keywords. Uses similarity between embeddings to find conceptually related documents.

LLM-related Terms

LLM (Large Language Model)
A large-scale language model trained on vast text corpora. Examples: GPT-4, Claude, Llama, Mistral.
Context Window
The maximum number of tokens a model can process in a single request.
Hallucination
Generation of false or invented information by an LLM. RAG reduces this by grounding responses in verified sources.
Fine-tuning
Additional training of a pre-trained model on specific data to adapt its behavior or knowledge.

Advanced RAG Techniques

Reranking
A step that re-orders search results to improve relevance using cross-encoder models.
Hybrid Search
Combination of semantic search and lexical search (BM25) to benefit from both approaches.
Agentic RAG
RAG where an AI agent dynamically decides when and what to retrieve, enabling multi-step tasks and complex reasoning.
GraphRAG
An extension of RAG that uses knowledge graphs to capture relationships between entities.
Self-RAG
A RAG architecture where the model evaluates and critiques its own retrievals and generations.

Glossaire RAG

Tous les termes et concepts du RAG et de l'IA expliqués simplement

Concepts de base

Chunking

Processus de découpage de documents en segments plus petits (chunks) pour permettre une récupération plus précise et respecter les limites de contexte des modèles.

RAG (Retrieval-Augmented Generation)

Technique qui améliore les LLMs en récupérant des informations pertinentes depuis une base de connaissances externe avant de générer une réponse. Cela permet des réponses plus précises et vérifiables.

Token

Unité de base du traitement de texte par les LLMs. Un token peut être un mot, partie de mot, ou caractère selon le tokenizer.

Embeddings

Bi-Encoder

Modèle qui encode séparément la requête et les documents. Permet une recherche rapide mais moins précise que les cross-encoders.

Embedding

Représentation vectorielle dense d'un texte qui capture son sens sémantique. Les textes similaires ont des embeddings proches dans l'espace vectoriel.

Similarité cosinus

Mesure mathématique de la similarité entre deux vecteurs. Valeur entre -1 et 1, où 1 indique des vecteurs identiques.

Retrieval

Base de données vectorielle

Base de données spécialisée pour stocker et rechercher efficacement des vecteurs d'embedding. Exemples : Pinecone, Weaviate, Qdrant, ChromaDB, Milvus.

BM25

Algorithme de recherche lexicale basé sur la fréquence des termes. Souvent utilisé en combinaison avec la recherche vectorielle dans les approches hybrides.

Cross-Encoder

Modèle qui prend une paire requête-document en entrée pour calculer directement un score de pertinence. Plus précis mais plus lent que les bi-encoders.

Expansion de requête

Technique qui enrichit la requête utilisateur avec des termes supplémentaires ou des reformulations pour améliorer la récupération.

MMR (Maximal Marginal Relevance)

Algorithme de sélection qui équilibre pertinence et diversité dans les résultats de recherche pour éviter la redondance.

Recherche hybride

Combinaison de la recherche sémantique (vecteurs) et lexicale (mots-clés, BM25) pour bénéficier des avantages des deux approches.

Recherche sémantique

Recherche basée sur le sens plutôt que sur les mots-clés exacts. Utilise la similarité entre embeddings pour trouver des documents conceptuellement proches.

Reranking

Étape de ré-ordonnancement des résultats de recherche pour améliorer la pertinence. Utilise souvent des modèles cross-encoder pour scorer chaque paire requête-document.

Génération

Fenêtre de contexte

Nombre maximum de tokens qu'un modèle peut traiter en une seule requête. Limite la quantité d'informations récupérées utilisables.

Hallucination

Génération d'informations fausses ou inventées par un LLM. Le RAG réduit ce problème en ancrant les réponses dans des sources vérifiées.

LLM (Large Language Model)

Modèle de langage de grande taille entraîné sur de vastes corpus de texte. Exemples : GPT-4, Claude, Llama, Mistral.

Prompt

Instruction ou requête envoyée à un LLM. Dans le RAG, le prompt inclut la question de l'utilisateur plus le contexte récupéré.

Évaluation

Fidélité (Faithfulness)

Métrique mesurant si la réponse générée est supportée par le contexte récupéré, sans ajout d'informations non présentes.

MRR (Mean Reciprocal Rank)

Métrique mesurant la position moyenne du premier résultat pertinent dans les résultats de recherche.

NDCG (Normalized Discounted Cumulative Gain)

Métrique d'évaluation de la qualité du ranking qui prend en compte la position des résultats pertinents.

Pertinence de la réponse

Métrique évaluant si la réponse générée répond effectivement à la question posée par l'utilisateur.

Précision du contexte

Métrique mesurant quelle proportion du contexte récupéré est réellement pertinente pour répondre à la question.

Recall@K

Proportion de documents pertinents trouvés dans les K premiers résultats de recherche.

Avancé

Agentic RAG

RAG où un agent IA décide dynamiquement quand et quoi récupérer, permettant des tâches multi-étapes et un raisonnement complexe.

Fine-tuning

Entraînement supplémentaire d'un modèle pré-entraîné sur des données spécifiques pour adapter son comportement ou ses connaissances.

GraphRAG

Extension du RAG qui utilise des graphes de connaissances pour capturer les relations entre entités et améliorer le raisonnement.

Self-RAG

Architecture RAG où le modèle évalue et critique ses propres récupérations et générations pour améliorer la qualité des réponses.

Prêt à construire votre système RAG ?

Consultez nos guides techniques pour implémenter ces concepts

Ailog Assistant

Ici pour vous aider

Salut ! Pose-moi des questions sur Ailog et comment intégrer votre RAG dans vos projets !