Durchbruch im multimodalen RAG: neues Framework für Text, Bilder und Tabellen
Forscher von Stanford und DeepMind stellen MM-RAG vor, ein einheitliches Framework für Retrieval und multimodales Reasoning mit einer 65%igen Verbesserung der Genauigkeit.
Einführung
Ein kollaboratives Team von Stanford und Google DeepMind hat eine Forschung zu MM-RAG (Multimodal Retrieval-Augmented Generation) veröffentlicht, ein Framework, das retrieval über Text, Bilder, Tabellen und Grafiken innerhalb eines einzigen Systems nahtlos verwaltet.
Die multimodale Herausforderung
Traditionelle RAG-Systeme konzentrieren sich auf den Text, aber reale Dokumente enthalten :
- Bilder und Diagramme
- Tabellen und Tabellenkalkulationen
- Grafiken und Kurven
- Gemischte Layouts
Bestehende Ansätze ignorieren entweder nicht-textuelle Inhalte oder behandeln jede Modalität separat, was zu einem fragmentierten Verständnis führt.
MM-RAG-Architektur
Einheitlicher Embedding-Raum
MM-RAG verwendet CLIP-basierte Encoder, um alle Modalitäten in einen gemeinsamen Embedding-Raum zu projizieren :
Texte → Encodeur texte →
Images → Encodeur vision → [Espace partagé 1024-dim] → Base vectorielle
Tableaux → Encodeur tableau →
Cross-modale Retrieval
Das System kann abrufen :
- Text bei textuellen Anfragen (Standard-RAG)
- Bilder für visuelle Fragen
- Tabellen für datenbezogene Anfragen
- Gemischte Ergebnisse für komplexe Anfragen
Beispielanfrage : "Zeigen Sie mir das Architekturdiagramm und erklären Sie den Authentifizierungsfluss"
Ruft ab :
- Architekturdiagramm (image)
- Authentifizierungsabschnitt (texte)
- Tabelle der API-Endpunkte (strukturierte données)
Multimodale Fusion
Der abgerufene multimodale Inhalt wird von GPT-4V oder Gemini Pro Vision verarbeitet :
DEVELOPERpython# Pseudocode query = "Compare Q3 revenue across regions" # Retrieve mixed modalities results = mm_rag.retrieve(query, k=5) # Returns: [chart_image, revenue_table, text_analysis] # Generate answer using multimodal LLM answer = gpt4v.generate( text_prompt=query, images=[r for r in results if r.type == 'image'], tables=[r for r in results if r.type == 'table'], context=[r for r in results if r.type == 'text'] )
Benchmark-Ergebnisse
Getestet auf dem neuen Benchmark MixedQA (créé) (10K questions à travers modalités) :
| Anfragetyp | Baseline | MM-RAG | Verbesserung |
|---|---|---|---|
| Texte seul | 78.2% | 79.1% | +1.2% |
| Image seule | 45.3% | 74.8% | +65.1% |
| Tableau seul | 52.1% | 81.3% | +56.0% |
| Mixte | 31.2% | 68.7% | +120.2% |
| Global | 51.7% | 75.9% | +46.8% |
Schlüsselinnovationen
Layout-bewusstes Chunking
MM-RAG bewahrt das Dokumentlayout während des Chunkings :
- Erhält Bilder zusammen mit ihren Bildunterschriften
- Erhält die Tabellenstruktur
- Bewahrt Verweise auf Abbildungen
Modalitäten-Routing
Bestimmt automatisch, welche Modalitäten basierend auf der Anfrage abgerufen werden sollen :
DEVELOPERpythonquery_intent = analyze_query(query) if query_intent.needs_visual: retrieve_images = True if query_intent.needs_data: retrieve_tables = True # Always retrieve text as context retrieve_text = True
Cross-modales Reranking
Nach dem retrieval bewertet ein cross-modaler Reranker die Relevanz :
- Relevanz Text-zu-Bild
- Relevanz Tabelle-zu-Anfrage
- Gesamtkohärenz der gemischten Ergebnisse
Anwendungen
MM-RAG ist besonders geeignet für :
Wissenschaftliche Recherche
- Abbildungen aus Artikeln abrufen
- Fragen zu experimentellen Ergebnissen beantworten
- Daten über Studien hinweg vergleichen
Business Intelligence
- Dashboards und Berichte abfragen
- Erkenntnisse aus Grafiken extrahieren
- Tabellarische Daten analysieren
Technische Dokumentation
- Relevante Diagramme finden
- Architektur aus Visualisierungen verstehen
- Textliche Erklärungen mit Abbildungen verknüpfen
Bildung
- Visuelles Lernmaterial
- Interaktives Q&A zu Lehrbüchern
- Diagrammbasierte Erklärungen
Implementierungsüberlegungen
Rechenkosten
Die Verarbeitung von Bildern und Tabellen ist ressourcenintensiv :
- Bildkodierung : 10x langsamer als der Text
- Tabellenanalyse : 5x langsamer als der Text
- Multimodale LLMs : 2-3x teurer
Speicherbedarf
Das Embedding aller Modalitäten erhöht den Speicherbedarf :
- Texte : 768-1536 dimensions
- Images : 512-1024 dimensions + image originale
- Tableaux : Strukturierte Darstellung + embeddings
Estimation : augmentation de stockage de 3-5x vs. RAG texte seul
Qualitätsabhängigkeiten
Die Qualität von MM-RAG hängt ab von :
- Der Genauigkeit der OCR bei gescannten Dokumenten
- Der Qualität der Tabellenerkennung/Extraktion
- Der Auflösung und Klarheit der Bilder
- Den Fähigkeiten des multimodalen LLM
Open-Source-Veröffentlichung
Das Team hat veröffentlicht :
- Das MM-RAG-Framework (licence Apache 2.0)
- Den Benchmark-Datensatz MixedQA
- Vortrainierte cross-modale Encoder
- Evaluationsskripte
Verfügbar unter : github.com/stanford-futuredata/mm-rag
Industrielle Adoption
Erste Anwender umfassen :
- Plattformen für technische Dokumentation
- Tools zur Analyse juristischer Dokumente
- Suchmaschinen für wissenschaftliche Literatur
- Anbieter von Business Intelligence
Einschränkungen
Aktuelle Einschränkungen umfassen :
- Video noch nicht unterstützt
- Begrenzte Audioverarbeitung
- Herausforderungen bei Echtzeit-Leistung
- Hoher Ressourcenbedarf
Zukünftige Arbeiten
Geplante Verbesserungen :
- Retrieval von Video-Frames
- Integration von Audio-Transkription
- Reduzierung der Rechenlast
- Bessere Handhabung komplexer Layouts
Fazit
MM-RAG stellt einen bedeutenden Schritt hin zu echten multimodalen KI-Assistenten dar, die in der Lage sind, alle Inhaltsarten in Dokumenten — nicht nur Text — zu verstehen und daraus Schlüsse zu ziehen. Mit der Verbesserung multimodaler LLMs werden Systeme wie MM-RAG zunehmend praktisch für reale Anwendungen.
Tags
Verwandte Artikel
CLaRa: Ein neuer Ansatz für RAG mit Continuous Latent Reasoning
CLaRa führt Continuous Latent Reasoning ein, um retrieval und generation zu vereinheitlichen und erzielt state-of-the-art-Leistungen auf QA-Benchmarks.
RAG Multimodal: Bilder, PDFs und über den Text hinaus
Erweitern Sie Ihr RAG über den Text hinaus: Indexierung von Bildern, Extraktion von PDFs, Tabellen und Grafiken für einen wirklich umfassenden Assistenten.
BEIR Benchmark 2.0 – Rangliste 2025: Vollständige NDCG@10-Scores & Platzierungen
Vollständige BEIR 2.0-Rangliste mit NDCG@10-Scores für alle Top-Modelle. Vergleichen Sie Voyage, Cohere, BGE, OpenAI im neuesten Benchmark.