Actualités

BEIR Benchmark Leaderboard 2025 & 2026 : Scores NDCG@10 & Classements

8 avril 2026
5 min de lecture
Équipe de Recherche Ailog

Leaderboard BEIR complet avec scores NDCG@10. Comparez les modèles d'embedding sur les benchmarks de retrieval. Mis à jour avril 2026 avec classements MTEB v2.

BEIR Leaderboard - Top modèles de retrieval (2025 & 2026)

Tableau de référence rapide des meilleurs modèles sur le benchmark BEIR (nDCG@10, zero-shot) :

RangModèleMTEB RetrievalTypeSortie
1Gemini Embedding 267.71DenseMar 2026
2Voyage 4 Large~66.0Dense (MoE)Jan 2026
3NV-Embed-v262.65Dense2025
4Qwen3-Embedding-8B~62.0Dense2025
5Cohere Embed v4~61.0Dense2025
6OpenAI text-3-large~59.0DenseJan 2024
7BGE-M3~58.0Dense + Sparse2024
8ColBERT-v2~55.0Late Interaction2022
9BM25~42.0SparseBaseline

Les scores BEIR font partie du leaderboard MTEB plus large. Source : sous-ensemble MTEB Retrieval, avril 2026.


Qu'est-ce que BEIR ?

BEIR (Benchmarking Information Retrieval) est un benchmark hétérogène pour l'évaluation zero-shot des modèles de retrieval. Créé en 2021, il teste les modèles sur 18 datasets divers incluant MS MARCO, Natural Questions, TREC-COVID et des corpus spécialisés.

Le benchmark mesure la capacité des modèles à généraliser sur des domaines inconnus sans fine-tuning — une capacité critique pour les applications RAG en production.

  • GitHub : github.com/beir-cellar/beir
  • Paper : arXiv:2104.08663
  • Datasets : 18 couvrant recherche, QA, fact-checking, prédiction de citations

BEIR en 2026 : paysage actuel

MTEB a supplanté BEIR comme leaderboard principal

Les 18 datasets de retrieval de BEIR sont désormais un sous-ensemble du MTEB (Massive Text Embedding Benchmark) qui couvre 56+ tâches à travers retrieval, classification, clustering et plus. Le leaderboard MTEB sur HuggingFace est maintenant la source de référence pour comparer les modèles d'embedding.

Différences clés :

  • BEIR : 18 datasets retrieval uniquement, métrique nDCG@10
  • MTEB v1 : 56 datasets, 8 types de tâches, score moyen
  • MTEB v2 (2026) : tâches restructurées, pas directement comparable à v1

Nouveaux benchmarks complétant BEIR

Plusieurs nouveaux benchmarks adressent les limitations de BEIR :

BRIGHT (ICLR 2025)

  • Tâches de retrieval nécessitant du raisonnement
  • Le meilleur modèle MTEB (59.0) n'obtient que 18.3 sur BRIGHT
  • Teste le raisonnement complexe plutôt que la correspondance lexicale

Agentset Leaderboard (2026)

  • Scoring basé sur l'ELO avec comparaisons directes
  • Utilise GPT-5 comme juge sur FiQA, SciFact, MSMARCO, DBPedia
  • Plus robuste que les leaderboards à métrique unique

Critiques académiques (arXiv:2509.07253)

  • Certaines tâches BEIR ne sont pas strictement du retrieval (prédiction de citations, vérification de faits)
  • Problèmes d'étiquetage dans certains datasets
  • Complexité des requêtes limitée

Top modèles de retrieval (avril 2026)

Gemini Embedding 2 (mars 2026) — Nouveau #1

Premier modèle d'embedding nativement multimodal de Google. Gère texte, images, vidéo, audio et PDF dans un espace vectoriel unique de 3 072 dimensions.

  • MTEB English : 68.32 | Retrieval : 67.71
  • Retrieval cross-lingue : 0.997 (le plus élevé testé)
  • Prix : $0.20/M tokens (texte), $0.10/M batch

Famille Voyage 4 (janvier 2026)

Premier espace d'embedding partagé de l'industrie avec architecture MoE. Permet de mixer les modèles pour les requêtes vs les documents.

  • Revendique +14% par rapport à OpenAI 3-large, +8.2% vs Cohere v4 sur RTEB
  • Prix : $0.12/M (large), $0.06/M (standard)

zembed-1 (mars 2026)

Modèle open-weight de 4B paramètres de ZeroEntropy. Atteint 0.946 nDCG@10 sur MSMARCO.

  • ELO 1590 sur le leaderboard Agentset (#2)
  • Open-weight (licence commerciale sur demande)

Leaders établis

  • NV-Embed-v2 : MTEB 72.31 global, retrieval solide
  • Qwen3-Embedding-8B : MTEB Multilingue 70.58, Apache 2.0
  • Cohere Embed v4 : contexte 128K, multimodal (texte + images)
  • OpenAI text-3-large : MTEB 64.6, aucune mise à jour depuis janvier 2024

Principales découvertes

Dense vs. Sparse

Le retrieval dense surpasse désormais systématiquement BM25 de 15-25% sur les datasets BEIR. L'écart s'est significativement creusé depuis le benchmark original de 2021 où BM25 était compétitif.

Généralisation par domaine

Les modèles entraînés sur des données web peinent toujours sur les domaines spécialisés :

DomaineModèle généralAffiné domaineAmélioration
Médical~48%~62%+29%
Code~44%~59%+34%
Juridique~46%~57%+24%

Le fine-tuning sur des données de domaine reste critique pour les applications RAG spécialisées.

Valeur de la recherche hybride

Le retrieval hybride (BM25 + dense) apporte toujours 2-5% de gains, surtout sur les requêtes hors domaine. Bien que le bénéfice marginal ait diminué avec l'amélioration des modèles denses, les approches hybrides restent le standard en production.

Utiliser BEIR

Installation

DEVELOPERbash
pip install beir

Exemple

DEVELOPERpython
from beir import util from beir.datasets.data_loader import GenericDataLoader from beir.retrieval.evaluation import EvaluateRetrieval # Charger le dataset dataset = "msmarco" data_path = util.download_and_unzip(url, "datasets") corpus, queries, qrels = GenericDataLoader(data_path).load(split="test") # Évaluer votre modèle retriever = YourRetriever() results = retriever.retrieve(corpus, queries) # Métriques standard eval = EvaluateRetrieval() metrics = eval.evaluate(qrels, results, k_values=[1, 3, 5, 10, 100, 1000]) print(f"NDCG@10: {metrics['NDCG@10']}") print(f"Recall@1000: {metrics['Recall@1000']}")

Implications pour le RAG

  1. Utilisez MTEB pour le choix de modèle : les datasets BEIR font partie de MTEB — utilisez le leaderboard HuggingFace pour des comparaisons à jour
  2. Testez la robustesse adversariale : le benchmark BRIGHT révèle des faiblesses que BEIR ne détecte pas
  3. Envisagez le fine-tuning domaine : gains de 24-34% dans les domaines spécialisés
  4. Suivez le Recall@1000 : critique pour le retrieval à deux étages avec rerankers
  5. Surveillez la latence : la vitesse compte en production RAG

Ressources

FAQ

BEIR (Benchmarking Information Retrieval) est un benchmark hétérogène pour l'évaluation zero-shot des modèles de retrieval à travers 18 datasets divers incluant MS MARCO, Natural Questions et des corpus spécifiques comme TREC-COVID et SciFact.
En avril 2026, Gemini Embedding 2 mène les benchmarks de retrieval avec 67.71 sur le sous-ensemble MTEB retrieval, suivi par Voyage 4 Large et NV-Embed-v2. Le paysage a significativement évolué avec l'arrivée de modèles multimodaux et MoE aux premières positions.
BEIR reste précieux pour mesurer la généralisation zero-shot en retrieval, mais il fait maintenant partie du benchmark MTEB plus large. De nouveaux benchmarks comme BRIGHT (retrieval par raisonnement) et Agentset (basé ELO) complètent BEIR pour une évaluation plus complète.
BEIR se concentre spécifiquement sur la récupération d'information à travers 18 datasets. MTEB est plus large, couvrant 56+ datasets à travers 8 types de tâches incluant retrieval, classification, clustering et plus. Les datasets retrieval de BEIR sont un sous-ensemble des tâches retrieval de MTEB.
Utilisez MTEB — il inclut tous les datasets BEIR plus des benchmarks de retrieval supplémentaires. Le leaderboard MTEB sur HuggingFace fournit la comparaison la plus complète et à jour. Utilisez BRIGHT en complément si votre application nécessite du retrieval par raisonnement.

Tags

benchmarksévaluationresearchBEIRNDCGleaderboard20252026

Articles connexes

Ailog Assistant

Ici pour vous aider

Salut ! Pose-moi des questions sur Ailog et comment intégrer votre RAG dans vos projets !