News

Durchbruch im multimodalen RAG: neues Framework für Text, Bilder und Tabellen

15. Oktober 2025
6 Min. Lesezeit
Équipe de Recherche Ailog

Forscher von Stanford und DeepMind stellen MM-RAG vor, ein einheitliches Framework für Retrieval und multimodales Reasoning mit einer 65%igen Verbesserung der Genauigkeit.

Einführung

Ein kollaboratives Team von Stanford und Google DeepMind hat eine Forschung zu MM-RAG (Multimodal Retrieval-Augmented Generation) veröffentlicht, ein Framework, das retrieval über Text, Bilder, Tabellen und Grafiken innerhalb eines einzigen Systems nahtlos verwaltet.

Die multimodale Herausforderung

Traditionelle RAG-Systeme konzentrieren sich auf den Text, aber reale Dokumente enthalten :

  • Bilder und Diagramme
  • Tabellen und Tabellenkalkulationen
  • Grafiken und Kurven
  • Gemischte Layouts

Bestehende Ansätze ignorieren entweder nicht-textuelle Inhalte oder behandeln jede Modalität separat, was zu einem fragmentierten Verständnis führt.

MM-RAG-Architektur

Einheitlicher Embedding-Raum

MM-RAG verwendet CLIP-basierte Encoder, um alle Modalitäten in einen gemeinsamen Embedding-Raum zu projizieren :

Texte → Encodeur texte →
Images → Encodeur vision →  [Espace partagé 1024-dim] → Base vectorielle
Tableaux → Encodeur tableau →

Cross-modale Retrieval

Das System kann abrufen :

  • Text bei textuellen Anfragen (Standard-RAG)
  • Bilder für visuelle Fragen
  • Tabellen für datenbezogene Anfragen
  • Gemischte Ergebnisse für komplexe Anfragen

Beispielanfrage : "Zeigen Sie mir das Architekturdiagramm und erklären Sie den Authentifizierungsfluss"

Ruft ab :

  1. Architekturdiagramm (image)
  2. Authentifizierungsabschnitt (texte)
  3. Tabelle der API-Endpunkte (strukturierte données)

Multimodale Fusion

Der abgerufene multimodale Inhalt wird von GPT-4V oder Gemini Pro Vision verarbeitet :

DEVELOPERpython
# Pseudocode query = "Compare Q3 revenue across regions" # Retrieve mixed modalities results = mm_rag.retrieve(query, k=5) # Returns: [chart_image, revenue_table, text_analysis] # Generate answer using multimodal LLM answer = gpt4v.generate( text_prompt=query, images=[r for r in results if r.type == 'image'], tables=[r for r in results if r.type == 'table'], context=[r for r in results if r.type == 'text'] )

Benchmark-Ergebnisse

Getestet auf dem neuen Benchmark MixedQA (créé) (10K questions à travers modalités) :

AnfragetypBaselineMM-RAGVerbesserung
Texte seul78.2%79.1%+1.2%
Image seule45.3%74.8%+65.1%
Tableau seul52.1%81.3%+56.0%
Mixte31.2%68.7%+120.2%
Global51.7%75.9%+46.8%

Schlüsselinnovationen

Layout-bewusstes Chunking

MM-RAG bewahrt das Dokumentlayout während des Chunkings :

  • Erhält Bilder zusammen mit ihren Bildunterschriften
  • Erhält die Tabellenstruktur
  • Bewahrt Verweise auf Abbildungen

Modalitäten-Routing

Bestimmt automatisch, welche Modalitäten basierend auf der Anfrage abgerufen werden sollen :

DEVELOPERpython
query_intent = analyze_query(query) if query_intent.needs_visual: retrieve_images = True if query_intent.needs_data: retrieve_tables = True # Always retrieve text as context retrieve_text = True

Cross-modales Reranking

Nach dem retrieval bewertet ein cross-modaler Reranker die Relevanz :

  • Relevanz Text-zu-Bild
  • Relevanz Tabelle-zu-Anfrage
  • Gesamtkohärenz der gemischten Ergebnisse

Anwendungen

MM-RAG ist besonders geeignet für :

Wissenschaftliche Recherche

  • Abbildungen aus Artikeln abrufen
  • Fragen zu experimentellen Ergebnissen beantworten
  • Daten über Studien hinweg vergleichen

Business Intelligence

  • Dashboards und Berichte abfragen
  • Erkenntnisse aus Grafiken extrahieren
  • Tabellarische Daten analysieren

Technische Dokumentation

  • Relevante Diagramme finden
  • Architektur aus Visualisierungen verstehen
  • Textliche Erklärungen mit Abbildungen verknüpfen

Bildung

  • Visuelles Lernmaterial
  • Interaktives Q&A zu Lehrbüchern
  • Diagrammbasierte Erklärungen

Implementierungsüberlegungen

Rechenkosten

Die Verarbeitung von Bildern und Tabellen ist ressourcenintensiv :

  • Bildkodierung : 10x langsamer als der Text
  • Tabellenanalyse : 5x langsamer als der Text
  • Multimodale LLMs : 2-3x teurer

Speicherbedarf

Das Embedding aller Modalitäten erhöht den Speicherbedarf :

  • Texte : 768-1536 dimensions
  • Images : 512-1024 dimensions + image originale
  • Tableaux : Strukturierte Darstellung + embeddings

Estimation : augmentation de stockage de 3-5x vs. RAG texte seul

Qualitätsabhängigkeiten

Die Qualität von MM-RAG hängt ab von :

  • Der Genauigkeit der OCR bei gescannten Dokumenten
  • Der Qualität der Tabellenerkennung/Extraktion
  • Der Auflösung und Klarheit der Bilder
  • Den Fähigkeiten des multimodalen LLM

Open-Source-Veröffentlichung

Das Team hat veröffentlicht :

  • Das MM-RAG-Framework (licence Apache 2.0)
  • Den Benchmark-Datensatz MixedQA
  • Vortrainierte cross-modale Encoder
  • Evaluationsskripte

Verfügbar unter : github.com/stanford-futuredata/mm-rag

Industrielle Adoption

Erste Anwender umfassen :

  • Plattformen für technische Dokumentation
  • Tools zur Analyse juristischer Dokumente
  • Suchmaschinen für wissenschaftliche Literatur
  • Anbieter von Business Intelligence

Einschränkungen

Aktuelle Einschränkungen umfassen :

  • Video noch nicht unterstützt
  • Begrenzte Audioverarbeitung
  • Herausforderungen bei Echtzeit-Leistung
  • Hoher Ressourcenbedarf

Zukünftige Arbeiten

Geplante Verbesserungen :

  • Retrieval von Video-Frames
  • Integration von Audio-Transkription
  • Reduzierung der Rechenlast
  • Bessere Handhabung komplexer Layouts

Fazit

MM-RAG stellt einen bedeutenden Schritt hin zu echten multimodalen KI-Assistenten dar, die in der Lage sind, alle Inhaltsarten in Dokumenten — nicht nur Text — zu verstehen und daraus Schlüsse zu ziehen. Mit der Verbesserung multimodaler LLMs werden Systeme wie MM-RAG zunehmend praktisch für reale Anwendungen.

Tags

multimodalresearchcomputer visionRAG

Verwandte Artikel

Ailog Assistant

Ici pour vous aider

Salut ! Pose-moi des questions sur Ailog et comment intégrer votre RAG dans vos projets !