Percée dans le RAG multimodal : nouveau framework pour le texte, images et tableaux
Les chercheurs de Stanford et DeepMind présentent MM-RAG, un framework unifié pour la récupération et le raisonnement multimodal avec 65% d'amélioration de précision.
Introduction
Une équipe collaborative de Stanford et Google DeepMind a publié une recherche sur MM-RAG (Multimodal Retrieval-Augmented Generation), un framework qui gère de manière transparente la récupération à travers texte, images, tableaux et graphiques au sein d'un seul système.
Le défi multimodal
Les systèmes RAG traditionnels se concentrent sur le texte, mais les documents du monde réel contiennent :
- Des images et diagrammes
- Des tableaux et feuilles de calcul
- Des graphiques et courbes
- Des mises en page mixtes
Les approches existantes ignorent soit le contenu non-textuel, soit traitent chaque modalité séparément, conduisant à une compréhension fragmentée.
Architecture MM-RAG
Espace d'embedding unifié
MM-RAG utilise des encodeurs basés sur CLIP pour projeter toutes les modalités dans un espace d'embedding partagé :
Texte → Encodeur texte →
Images → Encodeur vision → [Espace partagé 1024-dim] → Base vectorielle
Tableaux → Encodeur tableau →
Récupération cross-modale
Le système peut récupérer :
- Du texte pour des requêtes textuelles (RAG standard)
- Des images pour des questions visuelles
- Des tableaux pour des requêtes de données
- Des résultats mixtes pour des requêtes complexes
Exemple de requête : "Montrez-moi le diagramme d'architecture et expliquez le flux d'authentification"
Récupère :
- Diagramme d'architecture (image)
- Section authentification (texte)
- Tableau des endpoints API (données structurées)
Fusion multimodale
Le contenu multimodal récupéré est traité par GPT-4V ou Gemini Pro Vision :
DEVELOPERpython# Pseudocode query = "Compare Q3 revenue across regions" # Retrieve mixed modalities results = mm_rag.retrieve(query, k=5) # Returns: [chart_image, revenue_table, text_analysis] # Generate answer using multimodal LLM answer = gpt4v.generate( text_prompt=query, images=[r for r in results if r.type == 'image'], tables=[r for r in results if r.type == 'table'], context=[r for r in results if r.type == 'text'] )
Résultats de benchmark
Testé sur le nouveau benchmark MixedQA créé (10K questions à travers modalités) :
| Type de requête | Baseline | MM-RAG | Amélioration |
|---|---|---|---|
| Texte seul | 78.2% | 79.1% | +1.2% |
| Image seule | 45.3% | 74.8% | +65.1% |
| Tableau seul | 52.1% | 81.3% | +56.0% |
| Mixte | 31.2% | 68.7% | +120.2% |
| Global | 51.7% | 75.9% | +46.8% |
Innovations clés
Découpage conscient de la mise en page
MM-RAG préserve la mise en page du document pendant le découpage :
- Conserve les images avec leurs légendes
- Maintient la structure des tableaux
- Préserve les références aux figures
Routage de modalité
Détermine automatiquement quelles modalités récupérer en fonction de la requête :
DEVELOPERpythonquery_intent = analyze_query(query) if query_intent.needs_visual: retrieve_images = True if query_intent.needs_data: retrieve_tables = True # Always retrieve text as context retrieve_text = True
Reranking cross-modal
Après récupération, un reranker cross-modal évalue la pertinence :
- Pertinence texte-vers-image
- Pertinence tableau-vers-requête
- Cohérence globale des résultats mixtes
Applications
MM-RAG excelle dans :
Recherche scientifique
- Récupérer des figures d'articles
- Répondre à des questions sur des résultats expérimentaux
- Comparer des données à travers études
Business Intelligence
- Interroger des tableaux de bord et rapports
- Extraire des insights de graphiques
- Analyser des données tabulaires
Documentation technique
- Trouver des diagrammes pertinents
- Comprendre l'architecture à partir de visuels
- Connecter les explications textuelles avec les illustrations
Éducation
- Matériel d'apprentissage visuel
- Q&A interactif sur manuels
- Explications basées sur diagrammes
Considérations d'implémentation
Coûts computationnels
Le traitement des images et tableaux est coûteux :
- Encodage d'images : 10x plus lent que le texte
- Analyse de tableaux : 5x plus lent que le texte
- LLMs multimodaux : 2-3x plus chers
Besoins en stockage
L'embedding de toutes les modalités augmente le stockage :
- Texte : 768-1536 dimensions
- Images : 512-1024 dimensions + image originale
- Tableaux : Représentation structurée + embeddings
Estimation : augmentation de stockage de 3-5x vs. RAG texte seul
Dépendances de qualité
La qualité de MM-RAG dépend de :
- La précision OCR pour les documents scannés
- La qualité de l'extraction de tableaux
- La résolution et clarté des images
- Les capacités du LLM multimodal
Publication open source
L'équipe a publié :
- Le framework MM-RAG (licence Apache 2.0)
- Le dataset benchmark MixedQA
- Des encodeurs cross-modaux pré-entraînés
- Des scripts d'évaluation
Disponible sur : github.com/stanford-futuredata/mm-rag
Adoption industrielle
Les premiers utilisateurs incluent :
- Des plateformes de documentation technique
- Des outils d'analyse de documents juridiques
- Des moteurs de recherche de littérature scientifique
- Des fournisseurs de business intelligence
Limitations
Les limitations actuelles incluent :
- Vidéo pas encore supportée
- Traitement audio limité
- Défis de performance en temps réel
- Besoins en ressources élevés
Travaux futurs
Améliorations prévues :
- Récupération de frames vidéo
- Intégration de transcription audio
- Réduction de la charge computationnelle
- Meilleure gestion des mises en page complexes
Conclusion
MM-RAG représente une étape significative vers de véritables assistants IA multimodaux capables de comprendre et raisonner à travers tous les types de contenu dans les documents, pas seulement le texte. À mesure que les LLMs multimodaux s'améliorent, des systèmes comme MM-RAG deviendront de plus en plus pratiques pour des applications réelles.
Tags
Articles connexes
CLaRa : Une Nouvelle Approche du RAG avec Raisonnement Latent Continu
CLaRa introduit le raisonnement latent continu pour unifier retrieval et generation, atteignant des performances state-of-the-art sur les benchmarks QA
RAG Multimodal : Images, PDFs et au-delà du texte
Étendez votre RAG au-delà du texte : indexation d'images, extraction de PDFs, tableaux et graphiques pour un assistant vraiment complet.
BEIR Benchmark 2.0 Leaderboard 2025 : Scores NDCG@10 Complets & Classements
Leaderboard BEIR 2.0 complet avec scores NDCG@10 pour tous les top modèles. Comparez Voyage, Cohere, BGE, OpenAI sur le dernier benchmark.