BEIR Benchmark Leaderboard 2025 & 2026 : Scores NDCG@10 & Classements
Leaderboard BEIR complet avec scores NDCG@10. Comparez les modèles d'embedding sur les benchmarks de retrieval. Mis à jour avril 2026 avec classements MTEB v2.
BEIR Leaderboard - Top modèles de retrieval (2025 & 2026)
Tableau de référence rapide des meilleurs modèles sur le benchmark BEIR (nDCG@10, zero-shot) :
| Rang | Modèle | MTEB Retrieval | Type | Sortie |
|---|---|---|---|---|
| 1 | Gemini Embedding 2 | 67.71 | Dense | Mar 2026 |
| 2 | Voyage 4 Large | ~66.0 | Dense (MoE) | Jan 2026 |
| 3 | NV-Embed-v2 | 62.65 | Dense | 2025 |
| 4 | Qwen3-Embedding-8B | ~62.0 | Dense | 2025 |
| 5 | Cohere Embed v4 | ~61.0 | Dense | 2025 |
| 6 | OpenAI text-3-large | ~59.0 | Dense | Jan 2024 |
| 7 | BGE-M3 | ~58.0 | Dense + Sparse | 2024 |
| 8 | ColBERT-v2 | ~55.0 | Late Interaction | 2022 |
| 9 | BM25 | ~42.0 | Sparse | Baseline |
Les scores BEIR font partie du leaderboard MTEB plus large. Source : sous-ensemble MTEB Retrieval, avril 2026.
Qu'est-ce que BEIR ?
BEIR (Benchmarking Information Retrieval) est un benchmark hétérogène pour l'évaluation zero-shot des modèles de retrieval. Créé en 2021, il teste les modèles sur 18 datasets divers incluant MS MARCO, Natural Questions, TREC-COVID et des corpus spécialisés.
Le benchmark mesure la capacité des modèles à généraliser sur des domaines inconnus sans fine-tuning — une capacité critique pour les applications RAG en production.
- GitHub : github.com/beir-cellar/beir
- Paper : arXiv:2104.08663
- Datasets : 18 couvrant recherche, QA, fact-checking, prédiction de citations
BEIR en 2026 : paysage actuel
MTEB a supplanté BEIR comme leaderboard principal
Les 18 datasets de retrieval de BEIR sont désormais un sous-ensemble du MTEB (Massive Text Embedding Benchmark) qui couvre 56+ tâches à travers retrieval, classification, clustering et plus. Le leaderboard MTEB sur HuggingFace est maintenant la source de référence pour comparer les modèles d'embedding.
Différences clés :
- BEIR : 18 datasets retrieval uniquement, métrique nDCG@10
- MTEB v1 : 56 datasets, 8 types de tâches, score moyen
- MTEB v2 (2026) : tâches restructurées, pas directement comparable à v1
Nouveaux benchmarks complétant BEIR
Plusieurs nouveaux benchmarks adressent les limitations de BEIR :
BRIGHT (ICLR 2025)
- Tâches de retrieval nécessitant du raisonnement
- Le meilleur modèle MTEB (59.0) n'obtient que 18.3 sur BRIGHT
- Teste le raisonnement complexe plutôt que la correspondance lexicale
Agentset Leaderboard (2026)
- Scoring basé sur l'ELO avec comparaisons directes
- Utilise GPT-5 comme juge sur FiQA, SciFact, MSMARCO, DBPedia
- Plus robuste que les leaderboards à métrique unique
Critiques académiques (arXiv:2509.07253)
- Certaines tâches BEIR ne sont pas strictement du retrieval (prédiction de citations, vérification de faits)
- Problèmes d'étiquetage dans certains datasets
- Complexité des requêtes limitée
Top modèles de retrieval (avril 2026)
Gemini Embedding 2 (mars 2026) — Nouveau #1
Premier modèle d'embedding nativement multimodal de Google. Gère texte, images, vidéo, audio et PDF dans un espace vectoriel unique de 3 072 dimensions.
- MTEB English : 68.32 | Retrieval : 67.71
- Retrieval cross-lingue : 0.997 (le plus élevé testé)
- Prix : $0.20/M tokens (texte), $0.10/M batch
Famille Voyage 4 (janvier 2026)
Premier espace d'embedding partagé de l'industrie avec architecture MoE. Permet de mixer les modèles pour les requêtes vs les documents.
- Revendique +14% par rapport à OpenAI 3-large, +8.2% vs Cohere v4 sur RTEB
- Prix : $0.12/M (large), $0.06/M (standard)
zembed-1 (mars 2026)
Modèle open-weight de 4B paramètres de ZeroEntropy. Atteint 0.946 nDCG@10 sur MSMARCO.
- ELO 1590 sur le leaderboard Agentset (#2)
- Open-weight (licence commerciale sur demande)
Leaders établis
- NV-Embed-v2 : MTEB 72.31 global, retrieval solide
- Qwen3-Embedding-8B : MTEB Multilingue 70.58, Apache 2.0
- Cohere Embed v4 : contexte 128K, multimodal (texte + images)
- OpenAI text-3-large : MTEB 64.6, aucune mise à jour depuis janvier 2024
Principales découvertes
Dense vs. Sparse
Le retrieval dense surpasse désormais systématiquement BM25 de 15-25% sur les datasets BEIR. L'écart s'est significativement creusé depuis le benchmark original de 2021 où BM25 était compétitif.
Généralisation par domaine
Les modèles entraînés sur des données web peinent toujours sur les domaines spécialisés :
| Domaine | Modèle général | Affiné domaine | Amélioration |
|---|---|---|---|
| Médical | ~48% | ~62% | +29% |
| Code | ~44% | ~59% | +34% |
| Juridique | ~46% | ~57% | +24% |
Le fine-tuning sur des données de domaine reste critique pour les applications RAG spécialisées.
Valeur de la recherche hybride
Le retrieval hybride (BM25 + dense) apporte toujours 2-5% de gains, surtout sur les requêtes hors domaine. Bien que le bénéfice marginal ait diminué avec l'amélioration des modèles denses, les approches hybrides restent le standard en production.
Utiliser BEIR
Installation
DEVELOPERbashpip install beir
Exemple
DEVELOPERpythonfrom beir import util from beir.datasets.data_loader import GenericDataLoader from beir.retrieval.evaluation import EvaluateRetrieval # Charger le dataset dataset = "msmarco" data_path = util.download_and_unzip(url, "datasets") corpus, queries, qrels = GenericDataLoader(data_path).load(split="test") # Évaluer votre modèle retriever = YourRetriever() results = retriever.retrieve(corpus, queries) # Métriques standard eval = EvaluateRetrieval() metrics = eval.evaluate(qrels, results, k_values=[1, 3, 5, 10, 100, 1000]) print(f"NDCG@10: {metrics['NDCG@10']}") print(f"Recall@1000: {metrics['Recall@1000']}")
Implications pour le RAG
- Utilisez MTEB pour le choix de modèle : les datasets BEIR font partie de MTEB — utilisez le leaderboard HuggingFace pour des comparaisons à jour
- Testez la robustesse adversariale : le benchmark BRIGHT révèle des faiblesses que BEIR ne détecte pas
- Envisagez le fine-tuning domaine : gains de 24-34% dans les domaines spécialisés
- Suivez le Recall@1000 : critique pour le retrieval à deux étages avec rerankers
- Surveillez la latence : la vitesse compte en production RAG
Ressources
- BEIR GitHub : github.com/beir-cellar/beir
- MTEB Leaderboard : huggingface.co/spaces/mteb/leaderboard
- BRIGHT Benchmark : brightbenchmark.github.io
- Agentset Leaderboard : agentset.ai/embeddings
- Paper original : arXiv:2104.08663
FAQ
Tags
Articles connexes
Meilleurs Modèles Embedding 2025 : Scores MTEB & Leaderboard (Cohere, OpenAI, BGE)
Comparez les scores MTEB des meilleurs modèles d'embedding : Cohere embed-v4 (65.2), OpenAI text-3-large (64.6), BGE-M3 (63.0). Leaderboard complet avec prix.
Évaluation automatique du RAG : nouveau framework atteint 95% de corrélation avec les jugements humains
Google Research introduit AutoRAGEval, un framework d'évaluation automatisé qui évalue fiablement la qualité du RAG sans annotation humaine.
Nouvelle Recherche : Le Reranking Cross-Encoder Améliore la Précision RAG de 40%
Une étude du MIT démontre que la récupération en deux étapes avec reranking cross-encoder surpasse significativement la recherche vectorielle simple.