BEIR Benchmark 2.0 Leaderboard 2025 : Scores NDCG@10 Complets & Classements

Leaderboard BEIR 2.0 complet avec scores NDCG@10 pour tous les top modèles. Comparez Voyage, Cohere, BGE, OpenAI sur le dernier benchmark.

Auteur
Équipe de Recherche Ailog
Date de publication
Temps de lecture
4 min de lecture

BEIR 2.0 Leaderboard - Scores NDCG@10 (2025)

Tableau de référence rapide pour tous les modèles sur le benchmark BEIR 2.0 :

| Rang | Modèle | NDCG@10 | Recall@1000 | Type | |------|--------|---------|-------------|------| | 1 | Voyage-Large-2 | 54.8% | 89.2% | Dense | | 2 | Cohere Embed v4 | 53.7% | 87.8% | Dense | | 3 | Gemini-embedding-001 | 52.1% | 86.9% | Dense | | 4 | BGE-Large-EN | 52.3% | 86.1% | Dense | | 5 | OpenAI text-3-large | 51.9% | 85.7% | Dense | | 6 | Qwen3-Embedding-8B | 51.5% | 86.2% | Dense | | 7 | E5-Mistral-7B | 51.2% | 84.9% | Dense | | 8 | ColBERT-v2 | 49.1% | 88.3% | Late Interaction | | 9 | BM25 | 41.2% | 76.8% | Sparse |

Note : BEIR se concentre sur la récupération zero-shot à travers 18 datasets. Pour la qualité globale des embeddings, voir le leaderboard MTEB.

Source : BEIR Official Leaderboard

---

Annonce

L'équipe BEIR (Benchmarking IR) a publié la version 2.0 de leur benchmark de récupération largement utilisé, répondant aux limitations de l'original et ajoutant des scénarios de test plus difficiles.

Nouveautés

Six nouveaux jeux de données CodeSearchNet-RAG : Recherche de code avec requêtes en langage naturel MedQA-Retrieval : Réponses aux questions médicales LegalBench-IR : Récupération de documents juridiques MultiHop-V2 : Questions complexes multi-étapes TimeQA : Requêtes temporelles TableQA : Récupération de données structurées

Total de jeux de données : 18 (contre 12 auparavant)

Ensembles de tests adversariaux

Nouveaux exemples adversariaux conçus pour défier les systèmes de récupération :

Adversaires par paraphrase • Même sens, formulation différente • Teste la compréhension sémantique vs. correspondance de mots-clés

Adversaires par négation • Requêtes avec négations ("pas", "sauf", "sans") • Teste la compréhension fine

Adversaires par échange d'entités • Entités similaires échangées • Teste la désambiguïsation d'entités

Résultats sur les ensembles adversariaux :

| Système | BEIR original | BEIR 2.0 (Adversarial) | Écart | |--------|---------------|------------------------|-----| | BM25 | 41.2% | 28.7% | -30.3% | | Dense (SBERT) | 43.8% | 35.1% | -19.9% | | ColBERT | 47.3% | 39.8% | -15.8% | | Hybride | 49.1% | 42.3% | -13.8% |

Insight : Tous les systèmes peinent avec les exemples adversariaux ; les approches hybrides se dégradent le moins.

Métriques améliorées

Recall@1000

Ajouté pour mesurer la couverture des systèmes à deux étages :

`` Recall@1000 : Avons-nous récupéré les docs pertinents dans le top-1000 ? `

Critique pour les pipelines de re-ranking où la récupération initiale doit avoir un rappel élevé.

MRR@100

Mean Reciprocal Rank à 100 résultats :

` MRR@100 = 1/rang du premier résultat pertinent (jusqu'à 100) `

Reflète mieux l'utilisation réelle que nDCG@10.

Percentiles de latence

Suit maintenant la vitesse de récupération : • Latences p50, p95, p99 • Débit (requêtes/seconde) • Permet des compromis vitesse-qualité

Analyse du décalage de domaine

BEIR 2.0 inclut des divisions de test inter-domaines :

Domaines d'entraînement : Science, Actualités Domaines de test : Juridique, Médical, Code

Mesure la généralisation entre domaines :

| Système | Dans le domaine | Hors domaine | Écart de généralisation | |--------|-----------|---------------|--------------------| | BM25 | 42.1% | 39.8% | -5.5% | | DPR | 45.3% | 34.7% | -23.4% | | BGE-Large | 48.7% | 42.1% | -13.5% | | Cohere Embed v4 | 51.2% | 47.8% | -6.6% |

Insight : Les modèles plus récents généralisent mieux entre domaines.

Classement (2025)

Meilleurs performeurs sur BEIR 2.0 (moyenne sur tous les jeux de données) :

| Rang | Modèle | Avg nDCG@10 | Avg Recall@1000 | |------|-------|-------------|-----------------| | 1 | Voyage-Large-2 | 54.8% | 89.2% | | 2 | Cohere Embed v4 | 53.7% | 87.8% | | 3 | Gemini-embedding-001 | 52.1% | 86.9% | | 4 | BGE-Large-EN | 52.3% | 86.1% | | 5 | OpenAI text-3-large | 51.9% | 85.7% | | 6 | Qwen3-Embedding-8B | 51.5% | 86.2% | | 7 | E5-Mistral-7B | 51.2% | 84.9% | | 8 | ColBERT-v2 | 49.1% | 88.3% | | 9 | BM25 | 41.2% | 76.8% |

Principales découvertes

Dense vs. Sparse

La récupération dense surpasse maintenant systématiquement BM25 : • 2021 (BEIR 1.0) : BM25 compétitif • 2025 (BEIR 2.0) : Les modèles denses mènent de 10-12%

Amélioration due à un meilleur entraînement et des modèles plus grands.

Valeur de la recherche hybride

L'hybride (BM25 + Dense) apporte des gains modestes : • Dense seul : 53.7% • + BM25 : 55.2% (+2.8%)

Rendements décroissants à mesure que les modèles denses s'améliorent.

Taille du modèle vs. Performance

Les lois d'échelle s'appliquent toujours :

| Taille du modèle | Performance moyenne | Coût/1M Tokens | |------------|----------------|----------------| | Petit (100M) | 46.2% | $0.01 | | Base (350M) | 49.8% | $0.05 | | Large (1B+) | 53.7% | $0.10 |

Taille 2-3x = +3-4% de performance

Modèles spécifiques au domaine

Les modèles affinés pour un domaine surpassent les modèles généraux dans ce domaine :

Récupération médicale : • Modèle général : 48.3% • Modèle affiné médical : 61.7% (+27.7%)

Recherche de code : • Modèle général : 44.1% • Modèle affiné code : 58.9% (+33.5%)

Recommandation : Affiner pour les domaines spécialisés.

Utiliser BEIR 2.0

Installation

`bash pip install beir==2.0.0 `

Exemple

`python from beir import util from beir.datasets.data_loader import GenericDataLoader from beir.retrieval.evaluation import EvaluateRetrieval

Charger le jeu de données dataset = "msmarco-v2" ou tout jeu de données BEIR 2.0 data_path = util.download_and_unzip(url, "datasets")

corpus, queries, qrels = GenericDataLoader(data_path).load(split="test")

Évaluer votre modèle retriever = YourRetriever()

results = retriever.retrieve(corpus, queries)

Métriques standard eval = EvaluateRetrieval() metrics = eval.evaluate(qrels, results, k_values=[1, 3, 5, 10, 100, 1000])

print(f"NDCG@10: {metrics['NDCG@10']}") print(f"Recall@1000: {metrics['Recall@1000']}") `

Évaluation adversariale

`python Charger l'ensemble de test adversarial corpus, queries, qrels = GenericDataLoader(data_path).load( split="test-adversarial" )

Évaluer adv_metrics = eval.evaluate(qrels, results, k_values=[10])

Comparer standard vs. adversarial print(f"Standard : {metrics['NDCG@10']}") print(f"Adversarial : {adv_metrics['NDCG@10']}") print(f"Écart de robustesse : {metrics['NDCG@10'] - adv_metrics['NDCG@10']}") ``

Implications pour RAG

Ce qui a changé Barre plus haute : BEIR 2.0 est plus difficile ; attendez-vous à des scores absolus plus bas La robustesse adversariale compte : Les vraies requêtes sont adversariales Adaptation au domaine critique : Les modèles généraux peinent sur les domaines spécialisés Déclin de l'hybride : Les modèles denses comblent l'écart avec BM25

Recommandations Benchmarker sur BEIR 2.0 : Plus réaliste que v1 Tester les divisions adversariales : Mesure la robustesse Envisager l'affinage au domaine : Gains importants dans les domaines spécialisés Suivre Recall@1000 : Critique pour la récupération à deux étages Surveiller la latence : La vitesse compte en production

Plans futurs

L'équipe BEIR a annoncé : • Mises à jour trimestrielles avec de nouveaux jeux de données • Expansion multilingue (actuellement anglais uniquement) • Récupération multimodale (images, tableaux) • Distribution de requêtes d'utilisateurs réels • Mises à jour continues du classement

Ressources • Site web : beir.ai • Article : "BEIR 2.0: A Heterogeneous Benchmark for Zero-shot Evaluation of Information Retrieval Models" • GitHub : github.com/beir-cellar/beir • Classement : beir.ai/leaderboard

Conclusion

BEIR 2.0 élève le niveau d'évaluation de la récupération avec des scénarios de test plus réalistes et difficiles. Les systèmes optimisés pour BEIR 1.0 doivent être réévalués pour s'assurer qu'ils gèrent efficacement les requêtes adversariales et les décalages de domaine.

---

FAQ

Qu'est-ce que le benchmark BEIR ? BEIR (Benchmarking Information Retrieval) est un benchmark hétérogène pour l'évaluation zero-shot des modèles de récupération à travers 18 datasets divers incluant MS MARCO, Natural Questions, et des corpus spécifiques comme le médical et le juridique.

Quel modèle a le meilleur score sur BEIR ? Voyage-Large-2 mène le leaderboard BEIR avec 54.8% NDCG@10, suivi par Cohere Embed v4 à 53.7% et BGE-Large-EN à 52.3%.

BEIR est-il encore pertinent ? Oui, BEIR reste le standard de référence pour évaluer la performance de récupération spécifiquement. Il teste la généralisation zero-shot entre domaines, ce qui est critique pour les applications RAG réelles.

Quelle est la différence entre BEIR et MTEB ? BEIR se concentre spécifiquement sur la récupération d'information à travers 18 datasets. MTEB est plus large, couvrant 58 datasets à travers 8 types de tâches incluant récupération, classification, clustering, et plus. BEIR est un sous-ensemble des tâches de récupération dans MTEB.

Tags

  • benchmarks
  • évaluation
  • research
  • BEIR
  • NDCG
  • leaderboard
  • 2025
Actualités

BEIR Benchmark 2.0 Leaderboard 2025 : Scores NDCG@10 Complets & Classements

16 janvier 2026
4 min de lecture
Équipe de Recherche Ailog

Leaderboard BEIR 2.0 complet avec scores NDCG@10 pour tous les top modèles. Comparez Voyage, Cohere, BGE, OpenAI sur le dernier benchmark.

BEIR 2.0 Leaderboard - Scores NDCG@10 (2025)

Tableau de référence rapide pour tous les modèles sur le benchmark BEIR 2.0 :

RangModèleNDCG@10Recall@1000Type
1Voyage-Large-254.8%89.2%Dense
2Cohere Embed v453.7%87.8%Dense
3Gemini-embedding-00152.1%86.9%Dense
4BGE-Large-EN52.3%86.1%Dense
5OpenAI text-3-large51.9%85.7%Dense
6Qwen3-Embedding-8B51.5%86.2%Dense
7E5-Mistral-7B51.2%84.9%Dense
8ColBERT-v249.1%88.3%Late Interaction
9BM2541.2%76.8%Sparse

Note : BEIR se concentre sur la récupération zero-shot à travers 18 datasets. Pour la qualité globale des embeddings, voir le leaderboard MTEB.

Source : BEIR Official Leaderboard


Annonce

L'équipe BEIR (Benchmarking IR) a publié la version 2.0 de leur benchmark de récupération largement utilisé, répondant aux limitations de l'original et ajoutant des scénarios de test plus difficiles.

Nouveautés

Six nouveaux jeux de données

  1. CodeSearchNet-RAG : Recherche de code avec requêtes en langage naturel
  2. MedQA-Retrieval : Réponses aux questions médicales
  3. LegalBench-IR : Récupération de documents juridiques
  4. MultiHop-V2 : Questions complexes multi-étapes
  5. TimeQA : Requêtes temporelles
  6. TableQA : Récupération de données structurées

Total de jeux de données : 18 (contre 12 auparavant)

Ensembles de tests adversariaux

Nouveaux exemples adversariaux conçus pour défier les systèmes de récupération :

Adversaires par paraphrase

  • Même sens, formulation différente
  • Teste la compréhension sémantique vs. correspondance de mots-clés

Adversaires par négation

  • Requêtes avec négations ("pas", "sauf", "sans")
  • Teste la compréhension fine

Adversaires par échange d'entités

  • Entités similaires échangées
  • Teste la désambiguïsation d'entités

Résultats sur les ensembles adversariaux :

SystèmeBEIR originalBEIR 2.0 (Adversarial)Écart
BM2541.2%28.7%-30.3%
Dense (SBERT)43.8%35.1%-19.9%
ColBERT47.3%39.8%-15.8%
Hybride49.1%42.3%-13.8%

Insight : Tous les systèmes peinent avec les exemples adversariaux ; les approches hybrides se dégradent le moins.

Métriques améliorées

Recall@1000

Ajouté pour mesurer la couverture des systèmes à deux étages :

Recall@1000 : Avons-nous récupéré les docs pertinents dans le top-1000 ?

Critique pour les pipelines de re-ranking où la récupération initiale doit avoir un rappel élevé.

MRR@100

Mean Reciprocal Rank à 100 résultats :

MRR@100 = 1/rang du premier résultat pertinent (jusqu'à 100)

Reflète mieux l'utilisation réelle que nDCG@10.

Percentiles de latence

Suit maintenant la vitesse de récupération :

  • Latences p50, p95, p99
  • Débit (requêtes/seconde)
  • Permet des compromis vitesse-qualité

Analyse du décalage de domaine

BEIR 2.0 inclut des divisions de test inter-domaines :

Domaines d'entraînement : Science, Actualités Domaines de test : Juridique, Médical, Code

Mesure la généralisation entre domaines :

SystèmeDans le domaineHors domaineÉcart de généralisation
BM2542.1%39.8%-5.5%
DPR45.3%34.7%-23.4%
BGE-Large48.7%42.1%-13.5%
Cohere Embed v451.2%47.8%-6.6%

Insight : Les modèles plus récents généralisent mieux entre domaines.

Classement (2025)

Meilleurs performeurs sur BEIR 2.0 (moyenne sur tous les jeux de données) :

RangModèleAvg nDCG@10Avg Recall@1000
1Voyage-Large-254.8%89.2%
2Cohere Embed v453.7%87.8%
3Gemini-embedding-00152.1%86.9%
4BGE-Large-EN52.3%86.1%
5OpenAI text-3-large51.9%85.7%
6Qwen3-Embedding-8B51.5%86.2%
7E5-Mistral-7B51.2%84.9%
8ColBERT-v249.1%88.3%
9BM2541.2%76.8%

Principales découvertes

Dense vs. Sparse

La récupération dense surpasse maintenant systématiquement BM25 :

  • 2021 (BEIR 1.0) : BM25 compétitif
  • 2025 (BEIR 2.0) : Les modèles denses mènent de 10-12%

Amélioration due à un meilleur entraînement et des modèles plus grands.

Valeur de la recherche hybride

L'hybride (BM25 + Dense) apporte des gains modestes :

  • Dense seul : 53.7%
    • BM25 : 55.2% (+2.8%)

Rendements décroissants à mesure que les modèles denses s'améliorent.

Taille du modèle vs. Performance

Les lois d'échelle s'appliquent toujours :

Taille du modèlePerformance moyenneCoût/1M Tokens
Petit (100M)46.2%$0.01
Base (350M)49.8%$0.05
Large (1B+)53.7%$0.10

Taille 2-3x = +3-4% de performance

Modèles spécifiques au domaine

Les modèles affinés pour un domaine surpassent les modèles généraux dans ce domaine :

Récupération médicale :

  • Modèle général : 48.3%
  • Modèle affiné médical : 61.7% (+27.7%)

Recherche de code :

  • Modèle général : 44.1%
  • Modèle affiné code : 58.9% (+33.5%)

Recommandation : Affiner pour les domaines spécialisés.

Utiliser BEIR 2.0

Installation

DEVELOPERbash
pip install beir==2.0.0

Exemple

DEVELOPERpython
from beir import util from beir.datasets.data_loader import GenericDataLoader from beir.retrieval.evaluation import EvaluateRetrieval # Charger le jeu de données dataset = "msmarco-v2" # ou tout jeu de données BEIR 2.0 data_path = util.download_and_unzip(url, "datasets") corpus, queries, qrels = GenericDataLoader(data_path).load(split="test") # Évaluer votre modèle retriever = YourRetriever() results = retriever.retrieve(corpus, queries) # Métriques standard eval = EvaluateRetrieval() metrics = eval.evaluate(qrels, results, k_values=[1, 3, 5, 10, 100, 1000]) print(f"NDCG@10: {metrics['NDCG@10']}") print(f"Recall@1000: {metrics['Recall@1000']}")

Évaluation adversariale

DEVELOPERpython
# Charger l'ensemble de test adversarial corpus, queries, qrels = GenericDataLoader(data_path).load( split="test-adversarial" ) # Évaluer adv_metrics = eval.evaluate(qrels, results, k_values=[10]) # Comparer standard vs. adversarial print(f"Standard : {metrics['NDCG@10']}") print(f"Adversarial : {adv_metrics['NDCG@10']}") print(f"Écart de robustesse : {metrics['NDCG@10'] - adv_metrics['NDCG@10']}")

Implications pour RAG

Ce qui a changé

  1. Barre plus haute : BEIR 2.0 est plus difficile ; attendez-vous à des scores absolus plus bas
  2. La robustesse adversariale compte : Les vraies requêtes sont adversariales
  3. Adaptation au domaine critique : Les modèles généraux peinent sur les domaines spécialisés
  4. Déclin de l'hybride : Les modèles denses comblent l'écart avec BM25

Recommandations

  1. Benchmarker sur BEIR 2.0 : Plus réaliste que v1
  2. Tester les divisions adversariales : Mesure la robustesse
  3. Envisager l'affinage au domaine : Gains importants dans les domaines spécialisés
  4. Suivre Recall@1000 : Critique pour la récupération à deux étages
  5. Surveiller la latence : La vitesse compte en production

Plans futurs

L'équipe BEIR a annoncé :

  • Mises à jour trimestrielles avec de nouveaux jeux de données
  • Expansion multilingue (actuellement anglais uniquement)
  • Récupération multimodale (images, tableaux)
  • Distribution de requêtes d'utilisateurs réels
  • Mises à jour continues du classement

Ressources

  • Site web : beir.ai
  • Article : "BEIR 2.0: A Heterogeneous Benchmark for Zero-shot Evaluation of Information Retrieval Models"
  • GitHub : github.com/beir-cellar/beir
  • Classement : beir.ai/leaderboard

Conclusion

BEIR 2.0 élève le niveau d'évaluation de la récupération avec des scénarios de test plus réalistes et difficiles. Les systèmes optimisés pour BEIR 1.0 doivent être réévalués pour s'assurer qu'ils gèrent efficacement les requêtes adversariales et les décalages de domaine.

FAQ

BEIR (Benchmarking Information Retrieval) est un benchmark hétérogène pour l'évaluation zero-shot des modèles de récupération à travers 18 datasets divers incluant MS MARCO, Natural Questions, et des corpus spécifiques comme le médical et le juridique.
Voyage-Large-2 mène le leaderboard BEIR avec 54.8% NDCG@10, suivi par Cohere Embed v4 à 53.7% et BGE-Large-EN à 52.3%.
Oui, BEIR reste le standard de référence pour évaluer la performance de récupération spécifiquement. Il teste la généralisation zero-shot entre domaines, ce qui est critique pour les applications RAG réelles.
BEIR se concentre spécifiquement sur la récupération d'information à travers 18 datasets. MTEB est plus large, couvrant 58 datasets à travers 8 types de tâches incluant récupération, classification, clustering, et plus. BEIR est un sous-ensemble des tâches de récupération dans MTEB.

Tags

benchmarksévaluationresearchBEIRNDCGleaderboard2025

Articles connexes

Ailog Assistant

Ici pour vous aider

Salut ! Pose-moi des questions sur Ailog et comment intégrer votre RAG dans vos projets !