Actualités

Percée dans le RAG multimodal : nouveau framework pour le texte, images et tableaux

15 octobre 2025
6 min de lecture
Équipe de Recherche Ailog

Les chercheurs de Stanford et DeepMind présentent MM-RAG, un framework unifié pour la récupération et le raisonnement multimodal avec 65% d'amélioration de précision.

Introduction

Une équipe collaborative de Stanford et Google DeepMind a publié une recherche sur MM-RAG (Multimodal Retrieval-Augmented Generation), un framework qui gère de manière transparente la récupération à travers texte, images, tableaux et graphiques au sein d'un seul système.

Le défi multimodal

Les systèmes RAG traditionnels se concentrent sur le texte, mais les documents du monde réel contiennent :

  • Des images et diagrammes
  • Des tableaux et feuilles de calcul
  • Des graphiques et courbes
  • Des mises en page mixtes

Les approches existantes ignorent soit le contenu non-textuel, soit traitent chaque modalité séparément, conduisant à une compréhension fragmentée.

Architecture MM-RAG

Espace d'embedding unifié

MM-RAG utilise des encodeurs basés sur CLIP pour projeter toutes les modalités dans un espace d'embedding partagé :

Texte → Encodeur texte →
Images → Encodeur vision →  [Espace partagé 1024-dim] → Base vectorielle
Tableaux → Encodeur tableau →

Récupération cross-modale

Le système peut récupérer :

  • Du texte pour des requêtes textuelles (RAG standard)
  • Des images pour des questions visuelles
  • Des tableaux pour des requêtes de données
  • Des résultats mixtes pour des requêtes complexes

Exemple de requête : "Montrez-moi le diagramme d'architecture et expliquez le flux d'authentification"

Récupère :

  1. Diagramme d'architecture (image)
  2. Section authentification (texte)
  3. Tableau des endpoints API (données structurées)

Fusion multimodale

Le contenu multimodal récupéré est traité par GPT-4V ou Gemini Pro Vision :

DEVELOPERpython
# Pseudocode query = "Compare Q3 revenue across regions" # Retrieve mixed modalities results = mm_rag.retrieve(query, k=5) # Returns: [chart_image, revenue_table, text_analysis] # Generate answer using multimodal LLM answer = gpt4v.generate( text_prompt=query, images=[r for r in results if r.type == 'image'], tables=[r for r in results if r.type == 'table'], context=[r for r in results if r.type == 'text'] )

Résultats de benchmark

Testé sur le nouveau benchmark MixedQA créé (10K questions à travers modalités) :

Type de requêteBaselineMM-RAGAmélioration
Texte seul78.2%79.1%+1.2%
Image seule45.3%74.8%+65.1%
Tableau seul52.1%81.3%+56.0%
Mixte31.2%68.7%+120.2%
Global51.7%75.9%+46.8%

Innovations clés

Découpage conscient de la mise en page

MM-RAG préserve la mise en page du document pendant le découpage :

  • Conserve les images avec leurs légendes
  • Maintient la structure des tableaux
  • Préserve les références aux figures

Routage de modalité

Détermine automatiquement quelles modalités récupérer en fonction de la requête :

DEVELOPERpython
query_intent = analyze_query(query) if query_intent.needs_visual: retrieve_images = True if query_intent.needs_data: retrieve_tables = True # Always retrieve text as context retrieve_text = True

Reranking cross-modal

Après récupération, un reranker cross-modal évalue la pertinence :

  • Pertinence texte-vers-image
  • Pertinence tableau-vers-requête
  • Cohérence globale des résultats mixtes

Applications

MM-RAG excelle dans :

Recherche scientifique

  • Récupérer des figures d'articles
  • Répondre à des questions sur des résultats expérimentaux
  • Comparer des données à travers études

Business Intelligence

  • Interroger des tableaux de bord et rapports
  • Extraire des insights de graphiques
  • Analyser des données tabulaires

Documentation technique

  • Trouver des diagrammes pertinents
  • Comprendre l'architecture à partir de visuels
  • Connecter les explications textuelles avec les illustrations

Éducation

  • Matériel d'apprentissage visuel
  • Q&A interactif sur manuels
  • Explications basées sur diagrammes

Considérations d'implémentation

Coûts computationnels

Le traitement des images et tableaux est coûteux :

  • Encodage d'images : 10x plus lent que le texte
  • Analyse de tableaux : 5x plus lent que le texte
  • LLMs multimodaux : 2-3x plus chers

Besoins en stockage

L'embedding de toutes les modalités augmente le stockage :

  • Texte : 768-1536 dimensions
  • Images : 512-1024 dimensions + image originale
  • Tableaux : Représentation structurée + embeddings

Estimation : augmentation de stockage de 3-5x vs. RAG texte seul

Dépendances de qualité

La qualité de MM-RAG dépend de :

  • La précision OCR pour les documents scannés
  • La qualité de l'extraction de tableaux
  • La résolution et clarté des images
  • Les capacités du LLM multimodal

Publication open source

L'équipe a publié :

  • Le framework MM-RAG (licence Apache 2.0)
  • Le dataset benchmark MixedQA
  • Des encodeurs cross-modaux pré-entraînés
  • Des scripts d'évaluation

Disponible sur : github.com/stanford-futuredata/mm-rag

Adoption industrielle

Les premiers utilisateurs incluent :

  • Des plateformes de documentation technique
  • Des outils d'analyse de documents juridiques
  • Des moteurs de recherche de littérature scientifique
  • Des fournisseurs de business intelligence

Limitations

Les limitations actuelles incluent :

  • Vidéo pas encore supportée
  • Traitement audio limité
  • Défis de performance en temps réel
  • Besoins en ressources élevés

Travaux futurs

Améliorations prévues :

  • Récupération de frames vidéo
  • Intégration de transcription audio
  • Réduction de la charge computationnelle
  • Meilleure gestion des mises en page complexes

Conclusion

MM-RAG représente une étape significative vers de véritables assistants IA multimodaux capables de comprendre et raisonner à travers tous les types de contenu dans les documents, pas seulement le texte. À mesure que les LLMs multimodaux s'améliorent, des systèmes comme MM-RAG deviendront de plus en plus pratiques pour des applications réelles.

Tags

multimodalresearchcomputer visionRAG

Articles connexes

Ailog Assistant

Ici pour vous aider

Salut ! Pose-moi des questions sur Ailog et comment intégrer votre RAG dans vos projets !