Tous les termes et concepts du RAG et de l'IA expliqués simplement
Processus de découpage de documents en segments plus petits (chunks) pour permettre une récupération plus précise et respecter les limites de contexte des modèles.
Technique qui améliore les LLMs en récupérant des informations pertinentes depuis une base de connaissances externe avant de générer une réponse. Cela permet des réponses plus précises et vérifiables.
Unité de base du traitement de texte par les LLMs. Un token peut être un mot, partie de mot, ou caractère selon le tokenizer.
Modèle qui encode séparément la requête et les documents. Permet une recherche rapide mais moins précise que les cross-encoders.
Représentation vectorielle dense d'un texte qui capture son sens sémantique. Les textes similaires ont des embeddings proches dans l'espace vectoriel.
Mesure mathématique de la similarité entre deux vecteurs. Valeur entre -1 et 1, où 1 indique des vecteurs identiques.
Base de données spécialisée pour stocker et rechercher efficacement des vecteurs d'embedding. Exemples : Pinecone, Weaviate, Qdrant, ChromaDB, Milvus.
Algorithme de recherche lexicale basé sur la fréquence des termes. Souvent utilisé en combinaison avec la recherche vectorielle dans les approches hybrides.
Modèle qui prend une paire requête-document en entrée pour calculer directement un score de pertinence. Plus précis mais plus lent que les bi-encoders.
Technique qui enrichit la requête utilisateur avec des termes supplémentaires ou des reformulations pour améliorer la récupération.
Algorithme de sélection qui équilibre pertinence et diversité dans les résultats de recherche pour éviter la redondance.
Combinaison de la recherche sémantique (vecteurs) et lexicale (mots-clés, BM25) pour bénéficier des avantages des deux approches.
Recherche basée sur le sens plutôt que sur les mots-clés exacts. Utilise la similarité entre embeddings pour trouver des documents conceptuellement proches.
Étape de ré-ordonnancement des résultats de recherche pour améliorer la pertinence. Utilise souvent des modèles cross-encoder pour scorer chaque paire requête-document.
Nombre maximum de tokens qu'un modèle peut traiter en une seule requête. Limite la quantité d'informations récupérées utilisables.
Génération d'informations fausses ou inventées par un LLM. Le RAG réduit ce problème en ancrant les réponses dans des sources vérifiées.
Modèle de langage de grande taille entraîné sur de vastes corpus de texte. Exemples : GPT-4, Claude, Llama, Mistral.
Instruction ou requête envoyée à un LLM. Dans le RAG, le prompt inclut la question de l'utilisateur plus le contexte récupéré.
Métrique mesurant si la réponse générée est supportée par le contexte récupéré, sans ajout d'informations non présentes.
Métrique mesurant la position moyenne du premier résultat pertinent dans les résultats de recherche.
Métrique d'évaluation de la qualité du ranking qui prend en compte la position des résultats pertinents.
Métrique évaluant si la réponse générée répond effectivement à la question posée par l'utilisateur.
Métrique mesurant quelle proportion du contexte récupéré est réellement pertinente pour répondre à la question.
Proportion de documents pertinents trouvés dans les K premiers résultats de recherche.
RAG où un agent IA décide dynamiquement quand et quoi récupérer, permettant des tâches multi-étapes et un raisonnement complexe.
Entraînement supplémentaire d'un modèle pré-entraîné sur des données spécifiques pour adapter son comportement ou ses connaissances.
Extension du RAG qui utilise des graphes de connaissances pour capturer les relations entre entités et améliorer le raisonnement.
Architecture RAG où le modèle évalue et critique ses propres récupérations et générations pour améliorer la qualité des réponses.
Consultez nos guides techniques pour implémenter ces concepts
Ici pour vous aider
Salut ! Pose-moi des questions sur Ailog et comment intégrer votre RAG dans vos projets !