News

MTEB 2026: Bestandsaufnahme der Benchmark-Embeddings

7. Mai 2026
7 Min. Lesezeit
Equipe Ailog

Analyse des MTEB-Benchmarks 2026: neue Spitzenreiter, Entwicklung des Leaderboards und Auswirkungen auf RAG-Pipelines.

MTEB im Jahr 2026: Die Landschaft hat sich verändert

Das Massive Text Embedding Benchmark (MTEB), die weltweite Referenz für die Bewertung von Embedding-Modellen, erlebte 2025–2026 einen Umbruch in den Ranglisten. Das Open-Source-Modell Alibaba Qwen3 übernahm die Spitze, Google stieg mit Gemini Embedding spektakulär ein, und Cohere revolutionierte den Markt mit dem ersten produktreifen multimodalen embedding.

„Das MTEB-Leaderboard entwickelt sich ständig mit neuen Einsendungen“, erklärt Dr. Niklas Muennighoff, Forscher bei Hugging Face und Schöpfer von MTEB. „Im Jahr 2026 sehen wir eine Konvergenz der Scores zwischen Open Source und proprietären APIs.“

Struktur des MTEB-Benchmarks

Aufgaben-Kategorien

MTEB bewertet embeddings in 8 Hauptkategorien:

CategorieNb datasetsDescription
Retrieval15Recherche documentaire (MS MARCO, BEIR)
STS10Similarite semantique textuelle
Classification12Classification de texte
Clustering11Regroupement semantique
Reranking4Re-ordonnancement de resultats
Pair Classification3Classification de paires
Summarization1Evaluation de resumes
Bitext Mining4Alignement multilingual

Das Framework deckt mehr als 1000 Sprachen und 58 Datasets allein für Englisch ab.

Bewertungsmetriken

MetriqueDescriptionUsage RAG
nDCG@10Normalized Discounted Cumulative GainQualite du ranking
MRRMean Reciprocal RankPosition du premier bon resultat
MAPMean Average PrecisionPrecision globale
Recall@kTaux de rappel a k resultatsCouverture

Die Rangliste verwendet standardmäßig den Borda Count und aggregiert die Leistungen über alle Aufgaben.

MTEB-Rangliste Januar 2026

Top 10 global

RangModeleScore MTEBTypeParticularite
1Qwen3-Embedding-8B70.6Open sourceApache 2.0, multilingual
2Google Gemini Embedding68.3APIPrix ultra-bas ($0.008/1M)
3gte-Qwen3-8B68.1Open sourceApache 2.0
4NVIDIA NV-Embed67.5Open sourceBase Llama-3.1-8B
5Cohere Embed v465.2APIMultimodal (texte + images)
6OpenAI text-embedding-3-large64.6APIEcosysteme complet
7Voyage-363.8APISpecialisation domaines
8BGE-M363.2Open sourceMIT, 568M params
9Jina Embeddings v362.8API/Open8192 dimensions max
10Nomic-embed-v261.4Open sourceCompact (137M params)

Entwicklung im Vergleich zu 2024

ModeleScore 2024Score 2026Evolution
OpenAI text-embedding-3-large64.664.6= (pas de mise a jour)
BGE-M363.263.2=
Qwen3-Embedding-8BN/A70.6Nouveau leader
Google Gemini EmbeddingN/A68.3Nouvel entrant
Cohere Embed v4N/A65.2Nouveau (multimodal)

Das Ausbleiben von Updates seitens OpenAI für die embeddings (immer noch text-embedding-3 von Ende 2023) hat ihnen die Spitzenposition gekostet.

Beste Modelle pro Kategorie

Retrieval (Recherche documentaire)

RangModeleScore Retrieval
1Qwen3-Embedding-8B57.8
2Voyage-356.2
3OpenAI text-embedding-3-large55.4

Clustering (Regroupement)

RangModeleScore Clustering
1Qwen3-Embedding-8B51.8
2NVIDIA NV-Embed50.9
3gte-Qwen3-8B50.2

Multilingual (hors anglais)

RangModeleScore Multilingual
1BGE-M362.4
2Qwen3-Embedding-8B61.8
3Cohere Embed v459.5

Um das passende Modell zu wählen, konsultieren Sie unseren guide sur le choix des embeddings.

Fokus: der Aufstieg des Open Source

Qwen3 übernimmt die Spitze

Zum ersten Mal dominiert ein Open-Source-Modell das MTEB-Leaderboard. Alibaba's Qwen3-Embedding-8B:

  • Score global : 70.6 (übertrifft alle APIs)
  • Licence : Apache 2.0 (freie kommerzielle Nutzung)
  • Taille : 8B parametres
  • Multilingual : Hervorragend für Chinesisch, gut für europäische Sprachen
DEVELOPERpython
from sentence_transformers import SentenceTransformer # Qwen3-Embedding laden model = SentenceTransformer('Alibaba-NLP/gte-Qwen3-8B-embedding') embeddings = model.encode( ["Votre texte a encoder"], normalize_embeddings=True )

Implikationen für Unternehmen

Diese Entwicklung verändert das Spielfeld:

AspectAvant (2024)Maintenant (2026)
Meilleur modeleAPI proprietaireOpen source
Cout optimalAPI ($0.13/1M)Self-host (gratuit)
SouveraineteDependance cloudAuto-hebergement possible
PerformanceAPIs en teteOpen source en tete

Fokus: Cohere Embed v4 und Multimodalität

Eine einzigartige Innovation

Cohere Embed v4 ist das einzige Produktionsmodell, das vektorisieren kann:

  • Texte
  • Images
  • Documents interleaves (PDFs, slides)

Sein MTEB-Score (65.2) liegt unter den Spitzenreitern für reinen Text, aber es hat kein Pendant für visuelle Dokumente.

DEVELOPERpython
import cohere co = cohere.ClientV2('your-api-key') # Bild-Embedding (einzigartig bei Cohere) response = co.embed( images=["data:image/jpeg;base64,..."], model="embed-v4", input_type="image", embedding_types=["float"] )

Zur Vertiefung siehe unseren Artikel über Cohere Embed v4 Multimodal.

Implikationen für RAG-Pipelines

Modellwahl je nach Anwendungsfall

Cas d'usageModele recommandeRaison
General (budget)Google Gemini EmbeddingPrix imbattable ($0.008/1M)
General (performance)Qwen3-Embedding-8BMeilleur score MTEB
Documents visuelsCohere Embed v4Seul multimodal
Code / TechVoyage-code-3Specialise code
LegalVoyage-3-legalSpecialise juridique
SouveraineteQwen3 ou BGE-M3Self-host, open source

Abwägungen (Trade-offs) zu berücksichtigen

CritereAPIsOpen source
SetupImmediatConfiguration GPU
Cout variableOuiNon (fixe)
Performance 2026InferieureSuperieure
SouveraineteNonOui
MaintenanceZeroEquipe MLOps

Konsultieren Sie unseren Guide zur optimisation des couts RAG.

Methodologie und Reproduzierbarkeit

Wie man das Benchmark ausführt

DEVELOPERpython
from mteb import MTEB, get_model # Modell laden model = get_model("Alibaba-NLP/gte-Qwen3-8B-embedding") # Evaluation für Retrieval starten evaluation = MTEB(task_types=["Retrieval"]) results = evaluation.run(model) # Ergebnisse anzeigen print(results)

Interaktives Leaderboard

Das offizielle Leaderboard ist verfügbar auf:

Die Ranglisten sind dynamisch – neue Einsendungen können die Reihenfolge jederzeit verändern.

Beobachtete Trends 2026

1. Open source dominiert

Der Vorsprung hat sich umgekehrt. Qwen3 übertrifft OpenAI um +6 MTEB-Punkte.

2. Multimodal tritt hervor

Cohere hat den Weg geebnet. Google und OpenAI werden voraussichtlich 2026–2027 folgen.

3. Spezialisierung nach Domäne

Spezialisierte Modelle (Voyage legal/finance/code) übertreffen generische Modelle in ihren Bereichen um 10–15%.

4. Preise sinken

Google Gemini Embedding zu $0.008/1M tokens verändert die Ökonomie von RAG.

Unsere Einschätzung

Die MTEB-Landschaft 2026 markiert eine Wende:

Points cles :

  • Open source (Qwen3) übertrifft proprietäre APIs
  • Multimodal (Cohere v4) eröffnet neue Anwendungsfälle
  • Die Preise fallen (Gemini 16x günstiger als OpenAI)

Recommandations :

  • Neue Projekte : evaluieren Sie Qwen3 (Performance) oder Gemini (Kosten)
  • Visuelle Dokumente : Cohere Embed v4 ist unverzichtbar
  • Bestehende Projekte auf OpenAI : Migration erwägen, wenn Performance kritisch

Plattformen wie Ailog integrieren diese Benchmarks, um automatisch die besten Modelle für Ihren Anwendungsfall auszuwählen.

Lesen Sie unseren comparatif detaille des embeddings 2026 für tiefere Einblicke.

FAQ

Alibaba hat massiv in multilingual embeddings mit Qwen3 investiert. Das 8B-Parameter-Modell kombiniert eine optimierte Architektur und Training auf umfangreichen Korpora in Chinesisch und Englisch. Die Apache 2.0-Lizenz ermöglicht breite Adoption, beschleunigt Community-Beiträge und Optimierungen.
Ja, aber weniger als vorher. Das Modell bleibt stabil und gut dokumentiert mit einem kompletten Ökosystem (GPT-5, Assistants API). Dennoch liegt sein MTEB-Score (64.6) nun unter Qwen3 (70.6) und Google Gemini (68.3). Für neue Projekte bieten andere Optionen ein besseres Preis-Leistungs-Verhältnis.
Cohere Embed v4 ermöglicht es, PDFs, Slides und Images direkt zu vector (ohne komplexe OCR-Pipelines) umzuwandeln. Das vereinfacht Architekturen für visuelle Dokumente radikal. Das Modell hat kein Äquivalent – die anderen embeddings sind text-only.
Wenn Performance kritisch ist und Sie GPU-Infrastruktur haben: ja. Qwen3 übertrifft OpenAI um +6 MTEB-Punkte. Die Migration erfordert ein komplettes Re-Encoding und MLOps-Expertise. Bei kleinen bis mittleren Volumina ohne GPU-Constraint bietet Google Gemini ein besseres Preis-Leistungs-Verhältnis ohne die Komplexität des Self-hosting.
Nein, das Leaderboard ändert sich ständig mit neuen Einsendungen. Die Ränge können sich verschieben. Es wird empfohlen, das Hugging Face-Leaderboard regelmäßig zu prüfen und Modelle auf Ihrem eigenen Dataset zu evaluieren, bevor Sie Entscheidungen treffen. --- **Besoin d'aide pour choisir vos embeddings ?** [Ailog](https://ailog.fr) integriert automatisch die besten Modelle gemäß Ihrem Anwendungsfall. Profitieren Sie von unserer Expertise ohne technische Komplexität.

Tags

RAGMTEBbenchmarkembeddingsevaluation

Verwandte Artikel

Ailog Assistant

Ici pour vous aider

Salut ! Pose-moi des questions sur Ailog et comment intégrer votre RAG dans vos projets !