Benchmark BEIR 2.0 publié avec des ensembles de test plus difficiles et nouvelles métriques d'évaluation
Le benchmark BEIR mis à jour inclut 6 nouveaux jeux de données, des exemples adversariaux, et une méthodologie d'évaluation améliorée pour des tests de récupération plus robustes.
Annonce
L'équipe BEIR (Benchmarking IR) a publié la version 2.0 de leur benchmark de récupération largement utilisé, répondant aux limitations de l'original et ajoutant des scénarios de test plus difficiles.
Nouveautés
Six nouveaux jeux de données
- CodeSearchNet-RAG : Recherche de code avec requêtes en langage naturel
- MedQA-Retrieval : Réponses aux questions médicales
- LegalBench-IR : Récupération de documents juridiques
- MultiHop-V2 : Questions complexes multi-étapes
- TimeQA : Requêtes temporelles
- TableQA : Récupération de données structurées
Total de jeux de données : 18 (contre 12 auparavant)
Ensembles de tests adversariaux
Nouveaux exemples adversariaux conçus pour défier les systèmes de récupération :
Adversaires par paraphrase
- Même sens, formulation différente
- Teste la compréhension sémantique vs. correspondance de mots-clés
Adversaires par négation
- Requêtes avec négations ("pas", "sauf", "sans")
- Teste la compréhension fine
Adversaires par échange d'entités
- Entités similaires échangées
- Teste la désambiguïsation d'entités
Résultats sur les ensembles adversariaux :
| Système | BEIR original | BEIR 2.0 (Adversarial) | Écart |
|---|---|---|---|
| BM25 | 41.2% | 28.7% | -30.3% |
| Dense (SBERT) | 43.8% | 35.1% | -19.9% |
| ColBERT | 47.3% | 39.8% | -15.8% |
| Hybride | 49.1% | 42.3% | -13.8% |
Insight : Tous les systèmes peinent avec les exemples adversariaux ; les approches hybrides se dégradent le moins.
Métriques améliorées
Recall@1000
Ajouté pour mesurer la couverture des systèmes à deux étages :
Recall@1000 : Avons-nous récupéré les docs pertinents dans le top-1000 ?
Critique pour les pipelines de re-ranking où la récupération initiale doit avoir un rappel élevé.
MRR@100
Mean Reciprocal Rank à 100 résultats :
MRR@100 = 1/rang du premier résultat pertinent (jusqu'à 100)
Reflète mieux l'utilisation réelle que nDCG@10.
Percentiles de latence
Suit maintenant la vitesse de récupération :
- Latences p50, p95, p99
- Débit (requêtes/seconde)
- Permet des compromis vitesse-qualité
Analyse du décalage de domaine
BEIR 2.0 inclut des divisions de test inter-domaines :
Domaines d'entraînement : Science, Actualités Domaines de test : Juridique, Médical, Code
Mesure la généralisation entre domaines :
| Système | Dans le domaine | Hors domaine | Écart de généralisation |
|---|---|---|---|
| BM25 | 42.1% | 39.8% | -5.5% |
| DPR | 45.3% | 34.7% | -23.4% |
| BGE-Large | 48.7% | 42.1% | -13.5% |
| Cohere Embed v4 | 51.2% | 47.8% | -6.6% |
Insight : Les modèles plus récents généralisent mieux entre domaines.
Classement
Meilleurs performeurs sur BEIR 2.0 (moyenne sur tous les jeux de données) :
| Rang | Modèle | Avg nDCG@10 | Avg Recall@1000 |
|---|---|---|---|
| 1 | Voyage-Large-2 | 54.8% | 89.2% |
| 2 | Cohere Embed v4 | 53.7% | 87.8% |
| 3 | BGE-Large-EN | 52.3% | 86.1% |
| 4 | OpenAI text-3-large | 51.9% | 85.7% |
| 5 | E5-Mistral-7B | 51.2% | 84.9% |
| 6 | ColBERT-v2 | 49.1% | 88.3% |
| 7 | SBERT (mpnet) | 43.8% | 81.2% |
| 8 | BM25 | 41.2% | 76.8% |
Principales découvertes
Dense vs. Sparse
La récupération dense surpasse maintenant systématiquement BM25 :
- 2021 (BEIR 1.0) : BM25 compétitif
- 2025 (BEIR 2.0) : Les modèles denses mènent de 10-12%
Amélioration due à un meilleur entraînement et des modèles plus grands.
Valeur de la recherche hybride
L'hybride (BM25 + Dense) apporte des gains modestes :
- Dense seul : 53.7%
-
- BM25 : 55.2% (+2.8%)
Rendements décroissants à mesure que les modèles denses s'améliorent.
Taille du modèle vs. Performance
Les lois d'échelle s'appliquent toujours :
| Taille du modèle | Performance moyenne | Coût/1M Tokens |
|---|---|---|
| Petit (100M) | 46.2% | $0.01 |
| Base (350M) | 49.8% | $0.05 |
| Large (1B+) | 53.7% | $0.10 |
Taille 2-3x = +3-4% de performance
Modèles spécifiques au domaine
Les modèles affinés pour un domaine surpassent les modèles généraux dans ce domaine :
Récupération médicale :
- Modèle général : 48.3%
- Modèle affiné médical : 61.7% (+27.7%)
Recherche de code :
- Modèle général : 44.1%
- Modèle affiné code : 58.9% (+33.5%)
Recommandation : Affiner pour les domaines spécialisés.
Utiliser BEIR 2.0
Installation
DEVELOPERbashpip install beir==2.0.0
Exemple
DEVELOPERpythonfrom beir import util from beir.datasets.data_loader import GenericDataLoader from beir.retrieval.evaluation import EvaluateRetrieval # Charger le jeu de données dataset = "msmarco-v2" # ou tout jeu de données BEIR 2.0 data_path = util.download_and_unzip(url, "datasets") corpus, queries, qrels = GenericDataLoader(data_path).load(split="test") # Évaluer votre modèle retriever = YourRetriever() results = retriever.retrieve(corpus, queries) # Métriques standard eval = EvaluateRetrieval() metrics = eval.evaluate(qrels, results, k_values=[1, 3, 5, 10, 100, 1000]) print(f"NDCG@10: {metrics['NDCG@10']}") print(f"Recall@1000: {metrics['Recall@1000']}")
Évaluation adversariale
DEVELOPERpython# Charger l'ensemble de test adversarial corpus, queries, qrels = GenericDataLoader(data_path).load( split="test-adversarial" ) # Évaluer adv_metrics = eval.evaluate(qrels, results, k_values=[10]) # Comparer standard vs. adversarial print(f"Standard : {metrics['NDCG@10']}") print(f"Adversarial : {adv_metrics['NDCG@10']}") print(f"Écart de robustesse : {metrics['NDCG@10'] - adv_metrics['NDCG@10']}")
Implications pour RAG
Ce qui a changé
- Barre plus haute : BEIR 2.0 est plus difficile ; attendez-vous à des scores absolus plus bas
- La robustesse adversariale compte : Les vraies requêtes sont adversariales
- Adaptation au domaine critique : Les modèles généraux peinent sur les domaines spécialisés
- Déclin de l'hybride : Les modèles denses comblent l'écart avec BM25
Recommandations
- Benchmarker sur BEIR 2.0 : Plus réaliste que v1
- Tester les divisions adversariales : Mesure la robustesse
- Envisager l'affinage au domaine : Gains importants dans les domaines spécialisés
- Suivre Recall@1000 : Critique pour la récupération à deux étages
- Surveiller la latence : La vitesse compte en production
Plans futurs
L'équipe BEIR a annoncé :
- Mises à jour trimestrielles avec de nouveaux jeux de données
- Expansion multilingue (actuellement anglais uniquement)
- Récupération multimodale (images, tableaux)
- Distribution de requêtes d'utilisateurs réels
- Mises à jour continues du classement
Ressources
- Site web : beir.ai
- Article : "BEIR 2.0: A Heterogeneous Benchmark for Zero-shot Evaluation of Information Retrieval Models"
- GitHub : github.com/beir-cellar/beir
- Classement : beir.ai/leaderboard
Conclusion
BEIR 2.0 élève le niveau d'évaluation de la récupération avec des scénarios de test plus réalistes et difficiles. Les systèmes optimisés pour BEIR 1.0 doivent être réévalués pour s'assurer qu'ils gèrent efficacement les requêtes adversariales et les décalages de domaine.
Tags
Articles connexes
Évaluation automatique du RAG : nouveau framework atteint 95% de corrélation avec les jugements humains
Google Research introduit AutoRAGEval, un framework d'évaluation automatisé qui évalue fiablement la qualité du RAG sans annotation humaine.
Microsoft Research introduit GraphRAG : combinaison des graphes de connaissances avec le RAG
Microsoft Research dévoile GraphRAG, une nouvelle approche qui combine le RAG avec les graphes de connaissances pour améliorer la compréhension contextuelle
Percée de décomposition de requête : DecomposeRAG gère les questions complexes 50% mieux
Les chercheurs d'UC Berkeley introduisent DecomposeRAG, un framework de décomposition de requête automatisé qui améliore significativement les réponses aux questions multi-sauts.