News

BEIR Benchmark Leaderboard 2025 & 2026: NDCG@10-Scores & Ranglisten

8. April 2026
5 Minuten Lesezeit
Ailog Research Team

Vollständiges BEIR-Leaderboard mit NDCG@10-Scores. Vergleichen Sie Embedding-Modelle auf Retrieval-Benchmarks. Aktualisiert April 2026 mit MTEB v2-Rankings.

BEIR Leaderboard - Top Retrieval-Modelle (2025 & 2026)

Schnellreferenztabelle für Top-Modelle auf dem BEIR Retrieval-Benchmark (nDCG@10, Zero-Shot):

RangModellMTEB RetrievalTypVeröffentlichung
1Gemini Embedding 267.71DenseMär 2026
2Voyage 4 Large~66.0Dense (MoE)Jan 2026
3NV-Embed-v262.65Dense2025
4Qwen3-Embedding-8B~62.0Dense2025
5Cohere Embed v4~61.0Dense2025
6OpenAI text-3-large~59.0DenseJan 2024
7BGE-M3~58.0Dense + Sparse2024
8ColBERT-v2~55.0Late Interaction2022
9BM25~42.0SparseBaseline

BEIR-Retrieval-Scores sind Teil des umfassenderen MTEB Leaderboards. Quelle: MTEB Retrieval-Teilmenge, April 2026.


Was ist BEIR?

BEIR (Benchmarking Information Retrieval) ist ein heterogener Benchmark für die Zero-Shot-Evaluation von Retrieval-Modellen. 2021 erstellt, testet es Modelle auf 18 verschiedenen Datensätzen, darunter MS MARCO, Natural Questions, TREC-COVID und domänenspezifische Korpora.

Der Benchmark misst, wie gut Modelle auf unbekannte Domänen ohne Fine-Tuning generalisieren — eine kritische Fähigkeit für reale RAG-Anwendungen.

BEIR im Jahr 2026: aktuelle Landschaft

MTEB hat BEIR als primäres Leaderboard abgelöst

Die 18 Retrieval-Datensätze von BEIR sind jetzt eine Teilmenge des umfassenderen MTEB (Massive Text Embedding Benchmark), der 56+ Aufgaben über Retrieval, Klassifikation, Clustering und mehr abdeckt. Das MTEB-Leaderboard auf HuggingFace ist jetzt die maßgebliche Quelle für Modellvergleiche.

Wesentliche Unterschiede:

  • BEIR: 18 reine Retrieval-Datensätze, nDCG@10-Metrik
  • MTEB v1: 56 Datensätze, 8 Aufgabentypen, Durchschnittsscore
  • MTEB v2 (2026): Umstrukturierte Aufgaben, nicht direkt mit v1 vergleichbar

Neue Benchmarks als Ergänzung zu BEIR

Mehrere neue Benchmarks adressieren BEIRs Limitierungen:

BRIGHT (ICLR 2025)

  • Reasoning-intensive Retrieval-Aufgaben
  • Das beste MTEB-Modell (59.0) erzielt nur 18.3 auf BRIGHT
  • Testet komplexes Reasoning statt lexikalischem Matching

Agentset Leaderboard (2026)

  • ELO-basierte Bewertung mit direkten Vergleichen
  • Verwendet GPT-5 als Richter auf FiQA, SciFact, MSMARCO, DBPedia
  • Robuster als Einzel-Metrik-Leaderboards

Akademische Kritik (arXiv:2509.07253)

  • Nicht alle BEIR-Aufgaben sind streng genommen Retrieval (Zitationsvorhersage, Faktenüberprüfung)
  • Labeling-Probleme in einigen Datensätzen
  • Begrenzte Abfragekomplexität

Top Retrieval-Modelle (April 2026)

Gemini Embedding 2 (März 2026) — Neuer #1

Googles erstes nativ multimodales Embedding-Modell verarbeitet Text, Bilder, Video, Audio und PDFs in einem einzigen 3.072-dimensionalen Vektorraum.

  • MTEB Englisch: 68.32 | Retrieval: 67.71
  • Cross-linguales Retrieval: 0.997 (höchster getesteter Wert)
  • Preis: $0.20/M Tokens (Text), $0.10/M Batch

Voyage 4 Familie (Januar 2026)

Branchenweit erster gemeinsamer Embedding-Raum mit MoE-Architektur. Ermöglicht das Mischen von Modellen für Abfragen vs. Dokumente.

  • Beansprucht +14% gegenüber OpenAI 3-large, +8.2% vs Cohere v4 auf RTEB
  • Preis: $0.12/M (large), $0.06/M (standard)

zembed-1 (März 2026)

ZeroEntropys Open-Weight-Modell mit 4B Parametern. Erreicht 0.946 nDCG@10 auf MSMARCO.

  • ELO 1590 auf dem Agentset-Leaderboard (#2)
  • Open-Weight (kommerzielle Lizenz auf Anfrage)

Etablierte Leader

  • NV-Embed-v2: MTEB 72.31 insgesamt, starkes Retrieval
  • Qwen3-Embedding-8B: MTEB Multilingual 70.58, Apache 2.0
  • Cohere Embed v4: 128K Kontext, multimodal (Text + Bilder)
  • OpenAI text-3-large: MTEB 64.6, kein Update seit Januar 2024

Wichtige Erkenntnisse

Dense vs. Sparse

Dense Retrieval übertrifft BM25 jetzt konstant um 15-25% auf BEIR-Datensätzen. Die Lücke hat sich seit dem ursprünglichen 2021-Benchmark, wo BM25 noch konkurrenzfähig war, deutlich vergrößert.

Domänengeneralisierung

Auf Webdaten trainierte Modelle kämpfen weiterhin mit spezialisierten Domänen:

DomäneAllgemeines ModellDomänenangepasstVerbesserung
Medizin~48%~62%+29%
Code~44%~59%+34%
Recht~46%~57%+24%

Fine-Tuning auf Domänendaten bleibt kritisch für spezialisierte RAG-Anwendungen.

Wert der hybriden Suche

Hybrides Retrieval (BM25 + Dense) bringt weiterhin 2-5% Verbesserung, besonders bei Out-of-Domain-Abfragen. Obwohl der marginale Nutzen mit Verbesserung der dichten Modelle abgenommen hat, bleiben hybride Ansätze der Produktionsstandard.

BEIR verwenden

Installation

DEVELOPERbash
pip install beir

Beispiel

DEVELOPERpython
from beir import util from beir.datasets.data_loader import GenericDataLoader from beir.retrieval.evaluation import EvaluateRetrieval # Datensatz laden dataset = "msmarco" data_path = util.download_and_unzip(url, "datasets") corpus, queries, qrels = GenericDataLoader(data_path).load(split="test") # Ihr Modell evaluieren retriever = YourRetriever() results = retriever.retrieve(corpus, queries) # Standardmetriken eval = EvaluateRetrieval() metrics = eval.evaluate(qrels, results, k_values=[1, 3, 5, 10, 100, 1000]) print(f"NDCG@10: {metrics['NDCG@10']}") print(f"Recall@1000: {metrics['Recall@1000']}")

Implikationen für RAG

  1. MTEB zur Modellauswahl nutzen: BEIR-Datensätze sind Teil von MTEB — verwenden Sie das HuggingFace-Leaderboard für aktuelle Vergleiche
  2. Adversariale Robustheit testen: Der BRIGHT-Benchmark deckt Schwächen auf, die BEIR nicht erkennt
  3. Domänen-Fine-Tuning in Betracht ziehen: 24-34% Verbesserung in spezialisierten Domänen
  4. Recall@1000 verfolgen: Kritisch für zweistufiges Retrieval mit Rerankern
  5. Latenz überwachen: Geschwindigkeit zählt in Produktions-RAG

Ressourcen

FAQ

BEIR (Benchmarking Information Retrieval) ist ein heterogener Benchmark für die Zero-Shot-Evaluation von Retrieval-Modellen über 18 diverse Datensätze, darunter MS MARCO, Natural Questions und domänenspezifische Korpora wie TREC-COVID und SciFact.
Stand April 2026 führt Gemini Embedding 2 die Retrieval-Benchmarks mit 67.71 auf der MTEB-Retrieval-Teilmenge an, gefolgt von Voyage 4 Large und NV-Embed-v2. Die Landschaft hat sich mit multimodalen und MoE-Modellen an den Spitzenpositionen deutlich verändert.
BEIR bleibt wertvoll für die Messung der Zero-Shot-Retrieval-Generalisierung, ist aber jetzt Teil des umfassenderen MTEB-Benchmarks. Neue Benchmarks wie BRIGHT (Reasoning-intensives Retrieval) und Agentset (ELO-basiert) ergänzen BEIR für eine umfassendere Evaluation.
BEIR konzentriert sich speziell auf Information Retrieval über 18 Datensätze. MTEB ist breiter und deckt 56+ Datensätze über 8 Aufgabentypen ab, darunter Retrieval, Klassifikation, Clustering und mehr. BEIRs Retrieval-Datensätze sind eine Teilmenge der MTEB-Retrieval-Aufgaben.
Verwenden Sie MTEB — es enthält alle BEIR-Datensätze plus zusätzliche Retrieval-Benchmarks. Das MTEB-Leaderboard auf HuggingFace bietet den umfassendsten und aktuellsten Vergleich. Verwenden Sie zusätzlich BRIGHT, wenn Ihre Anwendung Reasoning-intensives Retrieval erfordert.

Tags

benchmarksevaluationresearchBEIRNDCGleaderboard20252026

Verwandte Artikel

Ailog Assistant

Ici pour vous aider

Salut ! Pose-moi des questions sur Ailog et comment intégrer votre RAG dans vos projets !