Percée dans le RAG multimodal : nouveau framework pour le texte, images et tableaux
Les chercheurs de Stanford et DeepMind présentent MM-RAG, un framework unifié pour la récupération et le raisonnement multimodal avec 65% d'amélioration de précision.
- Auteur
- Équipe de Recherche Ailog
- Date de publication
- Temps de lecture
- 6 min de lecture
Introduction
Une équipe collaborative de Stanford et Google DeepMind a publié une recherche sur MM-RAG (Multimodal Retrieval-Augmented Generation), un framework qui gère de manière transparente la récupération à travers texte, images, tableaux et graphiques au sein d'un seul système.
Le défi multimodal
Les systèmes RAG traditionnels se concentrent sur le texte, mais les documents du monde réel contiennent : • Des images et diagrammes • Des tableaux et feuilles de calcul • Des graphiques et courbes • Des mises en page mixtes
Les approches existantes ignorent soit le contenu non-textuel, soit traitent chaque modalité séparément, conduisant à une compréhension fragmentée.
Architecture MM-RAG
Espace d'embedding unifié
MM-RAG utilise des encodeurs basés sur CLIP pour projeter toutes les modalités dans un espace d'embedding partagé :
`` Texte → Encodeur texte → Images → Encodeur vision → [Espace partagé 1024-dim] → Base vectorielle Tableaux → Encodeur tableau → `
Récupération cross-modale
Le système peut récupérer : • Du texte pour des requêtes textuelles (RAG standard) • Des images pour des questions visuelles • Des tableaux pour des requêtes de données • Des résultats mixtes pour des requêtes complexes
Exemple de requête : "Montrez-moi le diagramme d'architecture et expliquez le flux d'authentification"
Récupère : Diagramme d'architecture (image) Section authentification (texte) Tableau des endpoints API (données structurées)
Fusion multimodale
Le contenu multimodal récupéré est traité par GPT-4V ou Gemini Pro Vision :
`python Pseudocode query = "Compare Q3 revenue across regions"
Retrieve mixed modalities results = mm_rag.retrieve(query, k=5) Returns: [chart_image, revenue_table, text_analysis]
Generate answer using multimodal LLM answer = gpt4v.generate( text_prompt=query, images=[r for r in results if r.type == 'image'], tables=[r for r in results if r.type == 'table'], context=[r for r in results if r.type == 'text'] ) `
Résultats de benchmark
Testé sur le nouveau benchmark MixedQA créé (10K questions à travers modalités) :
| Type de requête | Baseline | MM-RAG | Amélioration | |------------|----------|--------|-------------| | Texte seul | 78.2% | 79.1% | +1.2% | | Image seule | 45.3% | 74.8% | +65.1% | | Tableau seul | 52.1% | 81.3% | +56.0% | | Mixte | 31.2% | 68.7% | +120.2% | | Global | 51.7% | 75.9% | +46.8% |
Innovations clés
Découpage conscient de la mise en page
MM-RAG préserve la mise en page du document pendant le découpage : • Conserve les images avec leurs légendes • Maintient la structure des tableaux • Préserve les références aux figures
Routage de modalité
Détermine automatiquement quelles modalités récupérer en fonction de la requête :
`python query_intent = analyze_query(query)
if query_intent.needs_visual: retrieve_images = True
if query_intent.needs_data: retrieve_tables = True
Always retrieve text as context retrieve_text = True ``
Reranking cross-modal
Après récupération, un reranker cross-modal évalue la pertinence : • Pertinence texte-vers-image • Pertinence tableau-vers-requête • Cohérence globale des résultats mixtes
Applications
MM-RAG excelle dans :
Recherche scientifique • Récupérer des figures d'articles • Répondre à des questions sur des résultats expérimentaux • Comparer des données à travers études
Business Intelligence • Interroger des tableaux de bord et rapports • Extraire des insights de graphiques • Analyser des données tabulaires
Documentation technique • Trouver des diagrammes pertinents • Comprendre l'architecture à partir de visuels • Connecter les explications textuelles avec les illustrations
Éducation • Matériel d'apprentissage visuel • Q&A interactif sur manuels • Explications basées sur diagrammes
Considérations d'implémentation
Coûts computationnels
Le traitement des images et tableaux est coûteux : • Encodage d'images : 10x plus lent que le texte • Analyse de tableaux : 5x plus lent que le texte • LLMs multimodaux : 2-3x plus chers
Besoins en stockage
L'embedding de toutes les modalités augmente le stockage : • Texte : 768-1536 dimensions • Images : 512-1024 dimensions + image originale • Tableaux : Représentation structurée + embeddings
Estimation : augmentation de stockage de 3-5x vs. RAG texte seul
Dépendances de qualité
La qualité de MM-RAG dépend de : • La précision OCR pour les documents scannés • La qualité de l'extraction de tableaux • La résolution et clarté des images • Les capacités du LLM multimodal
Publication open source
L'équipe a publié : • Le framework MM-RAG (licence Apache 2.0) • Le dataset benchmark MixedQA • Des encodeurs cross-modaux pré-entraînés • Des scripts d'évaluation
Disponible sur : github.com/stanford-futuredata/mm-rag
Adoption industrielle
Les premiers utilisateurs incluent : • Des plateformes de documentation technique • Des outils d'analyse de documents juridiques • Des moteurs de recherche de littérature scientifique • Des fournisseurs de business intelligence
Limitations
Les limitations actuelles incluent : • Vidéo pas encore supportée • Traitement audio limité • Défis de performance en temps réel • Besoins en ressources élevés
Travaux futurs
Améliorations prévues : • Récupération de frames vidéo • Intégration de transcription audio • Réduction de la charge computationnelle • Meilleure gestion des mises en page complexes
Conclusion
MM-RAG représente une étape significative vers de véritables assistants IA multimodaux capables de comprendre et raisonner à travers tous les types de contenu dans les documents, pas seulement le texte. À mesure que les LLMs multimodaux s'améliorent, des systèmes comme MM-RAG deviendront de plus en plus pratiques pour des applications réelles.