BEIR Benchmark Leaderboard 2025 & 2026: NDCG@10-Scores & Ranglisten
Vollständiges BEIR-Leaderboard mit NDCG@10-Scores. Vergleichen Sie Embedding-Modelle auf Retrieval-Benchmarks. Aktualisiert April 2026 mit MTEB v2-Rankings.
BEIR Leaderboard - Top Retrieval-Modelle (2025 & 2026)
Schnellreferenztabelle für Top-Modelle auf dem BEIR Retrieval-Benchmark (nDCG@10, Zero-Shot):
| Rang | Modell | MTEB Retrieval | Typ | Veröffentlichung |
|---|---|---|---|---|
| 1 | Gemini Embedding 2 | 67.71 | Dense | Mär 2026 |
| 2 | Voyage 4 Large | ~66.0 | Dense (MoE) | Jan 2026 |
| 3 | NV-Embed-v2 | 62.65 | Dense | 2025 |
| 4 | Qwen3-Embedding-8B | ~62.0 | Dense | 2025 |
| 5 | Cohere Embed v4 | ~61.0 | Dense | 2025 |
| 6 | OpenAI text-3-large | ~59.0 | Dense | Jan 2024 |
| 7 | BGE-M3 | ~58.0 | Dense + Sparse | 2024 |
| 8 | ColBERT-v2 | ~55.0 | Late Interaction | 2022 |
| 9 | BM25 | ~42.0 | Sparse | Baseline |
BEIR-Retrieval-Scores sind Teil des umfassenderen MTEB Leaderboards. Quelle: MTEB Retrieval-Teilmenge, April 2026.
Was ist BEIR?
BEIR (Benchmarking Information Retrieval) ist ein heterogener Benchmark für die Zero-Shot-Evaluation von Retrieval-Modellen. 2021 erstellt, testet es Modelle auf 18 verschiedenen Datensätzen, darunter MS MARCO, Natural Questions, TREC-COVID und domänenspezifische Korpora.
Der Benchmark misst, wie gut Modelle auf unbekannte Domänen ohne Fine-Tuning generalisieren — eine kritische Fähigkeit für reale RAG-Anwendungen.
- GitHub: github.com/beir-cellar/beir
- Paper: arXiv:2104.08663
- Datensätze: 18, darunter Suche, QA, Fact-Checking, Zitationsvorhersage
BEIR im Jahr 2026: aktuelle Landschaft
MTEB hat BEIR als primäres Leaderboard abgelöst
Die 18 Retrieval-Datensätze von BEIR sind jetzt eine Teilmenge des umfassenderen MTEB (Massive Text Embedding Benchmark), der 56+ Aufgaben über Retrieval, Klassifikation, Clustering und mehr abdeckt. Das MTEB-Leaderboard auf HuggingFace ist jetzt die maßgebliche Quelle für Modellvergleiche.
Wesentliche Unterschiede:
- BEIR: 18 reine Retrieval-Datensätze, nDCG@10-Metrik
- MTEB v1: 56 Datensätze, 8 Aufgabentypen, Durchschnittsscore
- MTEB v2 (2026): Umstrukturierte Aufgaben, nicht direkt mit v1 vergleichbar
Neue Benchmarks als Ergänzung zu BEIR
Mehrere neue Benchmarks adressieren BEIRs Limitierungen:
BRIGHT (ICLR 2025)
- Reasoning-intensive Retrieval-Aufgaben
- Das beste MTEB-Modell (59.0) erzielt nur 18.3 auf BRIGHT
- Testet komplexes Reasoning statt lexikalischem Matching
Agentset Leaderboard (2026)
- ELO-basierte Bewertung mit direkten Vergleichen
- Verwendet GPT-5 als Richter auf FiQA, SciFact, MSMARCO, DBPedia
- Robuster als Einzel-Metrik-Leaderboards
Akademische Kritik (arXiv:2509.07253)
- Nicht alle BEIR-Aufgaben sind streng genommen Retrieval (Zitationsvorhersage, Faktenüberprüfung)
- Labeling-Probleme in einigen Datensätzen
- Begrenzte Abfragekomplexität
Top Retrieval-Modelle (April 2026)
Gemini Embedding 2 (März 2026) — Neuer #1
Googles erstes nativ multimodales Embedding-Modell verarbeitet Text, Bilder, Video, Audio und PDFs in einem einzigen 3.072-dimensionalen Vektorraum.
- MTEB Englisch: 68.32 | Retrieval: 67.71
- Cross-linguales Retrieval: 0.997 (höchster getesteter Wert)
- Preis: $0.20/M Tokens (Text), $0.10/M Batch
Voyage 4 Familie (Januar 2026)
Branchenweit erster gemeinsamer Embedding-Raum mit MoE-Architektur. Ermöglicht das Mischen von Modellen für Abfragen vs. Dokumente.
- Beansprucht +14% gegenüber OpenAI 3-large, +8.2% vs Cohere v4 auf RTEB
- Preis: $0.12/M (large), $0.06/M (standard)
zembed-1 (März 2026)
ZeroEntropys Open-Weight-Modell mit 4B Parametern. Erreicht 0.946 nDCG@10 auf MSMARCO.
- ELO 1590 auf dem Agentset-Leaderboard (#2)
- Open-Weight (kommerzielle Lizenz auf Anfrage)
Etablierte Leader
- NV-Embed-v2: MTEB 72.31 insgesamt, starkes Retrieval
- Qwen3-Embedding-8B: MTEB Multilingual 70.58, Apache 2.0
- Cohere Embed v4: 128K Kontext, multimodal (Text + Bilder)
- OpenAI text-3-large: MTEB 64.6, kein Update seit Januar 2024
Wichtige Erkenntnisse
Dense vs. Sparse
Dense Retrieval übertrifft BM25 jetzt konstant um 15-25% auf BEIR-Datensätzen. Die Lücke hat sich seit dem ursprünglichen 2021-Benchmark, wo BM25 noch konkurrenzfähig war, deutlich vergrößert.
Domänengeneralisierung
Auf Webdaten trainierte Modelle kämpfen weiterhin mit spezialisierten Domänen:
| Domäne | Allgemeines Modell | Domänenangepasst | Verbesserung |
|---|---|---|---|
| Medizin | ~48% | ~62% | +29% |
| Code | ~44% | ~59% | +34% |
| Recht | ~46% | ~57% | +24% |
Fine-Tuning auf Domänendaten bleibt kritisch für spezialisierte RAG-Anwendungen.
Wert der hybriden Suche
Hybrides Retrieval (BM25 + Dense) bringt weiterhin 2-5% Verbesserung, besonders bei Out-of-Domain-Abfragen. Obwohl der marginale Nutzen mit Verbesserung der dichten Modelle abgenommen hat, bleiben hybride Ansätze der Produktionsstandard.
BEIR verwenden
Installation
DEVELOPERbashpip install beir
Beispiel
DEVELOPERpythonfrom beir import util from beir.datasets.data_loader import GenericDataLoader from beir.retrieval.evaluation import EvaluateRetrieval # Datensatz laden dataset = "msmarco" data_path = util.download_and_unzip(url, "datasets") corpus, queries, qrels = GenericDataLoader(data_path).load(split="test") # Ihr Modell evaluieren retriever = YourRetriever() results = retriever.retrieve(corpus, queries) # Standardmetriken eval = EvaluateRetrieval() metrics = eval.evaluate(qrels, results, k_values=[1, 3, 5, 10, 100, 1000]) print(f"NDCG@10: {metrics['NDCG@10']}") print(f"Recall@1000: {metrics['Recall@1000']}")
Implikationen für RAG
- MTEB zur Modellauswahl nutzen: BEIR-Datensätze sind Teil von MTEB — verwenden Sie das HuggingFace-Leaderboard für aktuelle Vergleiche
- Adversariale Robustheit testen: Der BRIGHT-Benchmark deckt Schwächen auf, die BEIR nicht erkennt
- Domänen-Fine-Tuning in Betracht ziehen: 24-34% Verbesserung in spezialisierten Domänen
- Recall@1000 verfolgen: Kritisch für zweistufiges Retrieval mit Rerankern
- Latenz überwachen: Geschwindigkeit zählt in Produktions-RAG
Ressourcen
- BEIR GitHub: github.com/beir-cellar/beir
- MTEB Leaderboard: huggingface.co/spaces/mteb/leaderboard
- BRIGHT Benchmark: brightbenchmark.github.io
- Agentset Leaderboard: agentset.ai/embeddings
- Originalpaper: arXiv:2104.08663
FAQ
Tags
Verwandte Artikel
Beste Embedding-Modelle 2025: MTEB-Scores & Leaderboard (Cohere, OpenAI, BGE)
Vergleichen Sie die MTEB-Scores der besten Embedding-Modelle: Cohere embed-v4 (65.2), OpenAI text-3-large (64.6), BGE-M3 (63.0). Vollständiges Leaderboard mit Preisen.
Neue Forschung: Der Reranking Cross-Encoder verbessert die RAG-Genauigkeit um 40 %
Eine Studie des MIT zeigt, dass zweistufiges Retrieval mit Reranking Cross-Encoder die einfache Vektorsuche deutlich übertrifft.
CLaRa: Ein neuer Ansatz für RAG mit Continuous Latent Reasoning
CLaRa führt Continuous Latent Reasoning ein, um retrieval und generation zu vereinheitlichen und erzielt state-of-the-art-Leistungen auf QA-Benchmarks.