MTEB 2026 : Etat des lieux du benchmark embeddings
Analyse du benchmark MTEB en 2026 : nouveaux leaders, evolution du leaderboard et implications pour les pipelines RAG.
MTEB en 2026 : le paysage a change
Le Massive Text Embedding Benchmark (MTEB), reference mondiale pour l'evaluation des modeles d'embeddings, a vu son classement bouleverse en 2025-2026. L'open source Alibaba Qwen3 a pris la tete, Google a fait une entree fracassante avec Gemini Embedding, et Cohere a revolutionne le marche avec le premier embedding multimodal de production.
"Le leaderboard MTEB evolue constamment avec de nouvelles soumissions", explique le Dr. Niklas Muennighoff, chercheur chez Hugging Face et createur de MTEB. "En 2026, nous observons une convergence des scores entre open source et APIs proprietaires."
Structure du benchmark MTEB
Categories de taches
MTEB evalue les embeddings sur 8 categories principales :
| Categorie | Nb datasets | Description |
|---|---|---|
| Retrieval | 15 | Recherche documentaire (MS MARCO, BEIR) |
| STS | 10 | Similarite semantique textuelle |
| Classification | 12 | Classification de texte |
| Clustering | 11 | Regroupement semantique |
| Reranking | 4 | Re-ordonnancement de resultats |
| Pair Classification | 3 | Classification de paires |
| Summarization | 1 | Evaluation de resumes |
| Bitext Mining | 4 | Alignement multilingual |
Le framework couvre plus de 1000 langues et 58 datasets pour l'anglais seul.
Metriques d'evaluation
| Metrique | Description | Usage RAG |
|---|---|---|
| nDCG@10 | Normalized Discounted Cumulative Gain | Qualite du ranking |
| MRR | Mean Reciprocal Rank | Position du premier bon resultat |
| MAP | Mean Average Precision | Precision globale |
| Recall@k | Taux de rappel a k resultats | Couverture |
Le classement utilise le Borda Count par defaut, agregeant les performances sur toutes les taches.
Classement MTEB janvier 2026
Top 10 global
| Rang | Modele | Score MTEB | Type | Particularite |
|---|---|---|---|---|
| 1 | Qwen3-Embedding-8B | 70.6 | Open source | Apache 2.0, multilingual |
| 2 | Google Gemini Embedding | 68.3 | API | Prix ultra-bas ($0.008/1M) |
| 3 | gte-Qwen3-8B | 68.1 | Open source | Apache 2.0 |
| 4 | NVIDIA NV-Embed | 67.5 | Open source | Base Llama-3.1-8B |
| 5 | Cohere Embed v4 | 65.2 | API | Multimodal (texte + images) |
| 6 | OpenAI text-embedding-3-large | 64.6 | API | Ecosysteme complet |
| 7 | Voyage-3 | 63.8 | API | Specialisation domaines |
| 8 | BGE-M3 | 63.2 | Open source | MIT, 568M params |
| 9 | Jina Embeddings v3 | 62.8 | API/Open | 8192 dimensions max |
| 10 | Nomic-embed-v2 | 61.4 | Open source | Compact (137M params) |
Evolution par rapport a 2024
| Modele | Score 2024 | Score 2026 | Evolution |
|---|---|---|---|
| OpenAI text-embedding-3-large | 64.6 | 64.6 | = (pas de mise a jour) |
| BGE-M3 | 63.2 | 63.2 | = |
| Qwen3-Embedding-8B | N/A | 70.6 | Nouveau leader |
| Google Gemini Embedding | N/A | 68.3 | Nouvel entrant |
| Cohere Embed v4 | N/A | 65.2 | Nouveau (multimodal) |
L'absence de mise a jour d'OpenAI sur les embeddings (toujours text-embedding-3 de fin 2023) leur a fait perdre la tete du classement.
Meilleurs modeles par categorie
Retrieval (recherche documentaire)
| Rang | Modele | Score Retrieval |
|---|---|---|
| 1 | Qwen3-Embedding-8B | 57.8 |
| 2 | Voyage-3 | 56.2 |
| 3 | OpenAI text-embedding-3-large | 55.4 |
Clustering (regroupement)
| Rang | Modele | Score Clustering |
|---|---|---|
| 1 | Qwen3-Embedding-8B | 51.8 |
| 2 | NVIDIA NV-Embed | 50.9 |
| 3 | gte-Qwen3-8B | 50.2 |
Multilingual (hors anglais)
| Rang | Modele | Score Multilingual |
|---|---|---|
| 1 | BGE-M3 | 62.4 |
| 2 | Qwen3-Embedding-8B | 61.8 |
| 3 | Cohere Embed v4 | 59.5 |
Pour choisir le bon modele, consultez notre guide sur le choix des embeddings.
Focus : l'essor de l'open source
Qwen3 prend la tete
Pour la premiere fois, un modele open source domine le leaderboard MTEB. Alibaba's Qwen3-Embedding-8B :
- Score global : 70.6 (surpasse tous les APIs)
- Licence : Apache 2.0 (usage commercial libre)
- Taille : 8B parametres
- Multilingual : Excellent sur chinois, bon sur europeen
DEVELOPERpythonfrom sentence_transformers import SentenceTransformer # Charger Qwen3-Embedding model = SentenceTransformer('Alibaba-NLP/gte-Qwen3-8B-embedding') embeddings = model.encode( ["Votre texte a encoder"], normalize_embeddings=True )
Implications pour les entreprises
Cette evolution change la donne :
| Aspect | Avant (2024) | Maintenant (2026) |
|---|---|---|
| Meilleur modele | API proprietaire | Open source |
| Cout optimal | API ($0.13/1M) | Self-host (gratuit) |
| Souverainete | Dependance cloud | Auto-hebergement possible |
| Performance | APIs en tete | Open source en tete |
Focus : Cohere Embed v4 et le multimodal
Une innovation unique
Cohere Embed v4 est le seul modele de production capable de vectoriser :
- Texte
- Images
- Documents interleaves (PDFs, slides)
Son score MTEB (65.2) est inferieur aux leaders sur le texte pur, mais il n'a pas d'equivalent pour les documents visuels.
DEVELOPERpythonimport cohere co = cohere.ClientV2('your-api-key') # Embedding d'image (unique a Cohere) response = co.embed( images=["data:image/jpeg;base64,..."], model="embed-v4", input_type="image", embedding_types=["float"] )
Pour approfondir, voir notre article sur Cohere Embed v4 Multimodal.
Implications pour les pipelines RAG
Choix du modele selon le cas d'usage
| Cas d'usage | Modele recommande | Raison |
|---|---|---|
| General (budget) | Google Gemini Embedding | Prix imbattable ($0.008/1M) |
| General (performance) | Qwen3-Embedding-8B | Meilleur score MTEB |
| Documents visuels | Cohere Embed v4 | Seul multimodal |
| Code / Tech | Voyage-code-3 | Specialise code |
| Legal | Voyage-3-legal | Specialise juridique |
| Souverainete | Qwen3 ou BGE-M3 | Self-host, open source |
Trade-offs a considerer
| Critere | APIs | Open source |
|---|---|---|
| Setup | Immediat | Configuration GPU |
| Cout variable | Oui | Non (fixe) |
| Performance 2026 | Inferieure | Superieure |
| Souverainete | Non | Oui |
| Maintenance | Zero | Equipe MLOps |
Consultez notre guide sur l'optimisation des couts RAG.
Methodologie et reproductibilite
Comment executer le benchmark
DEVELOPERpythonfrom mteb import MTEB, get_model # Charger un modele model = get_model("Alibaba-NLP/gte-Qwen3-8B-embedding") # Lancer l'evaluation sur Retrieval evaluation = MTEB(task_types=["Retrieval"]) results = evaluation.run(model) # Afficher les resultats print(results)
Leaderboard interactif
Le leaderboard officiel est disponible sur :
Les classements sont dynamiques - de nouvelles soumissions peuvent modifier l'ordre a tout moment.
Tendances observees en 2026
1. Open source domine
L'ecart entre open source et APIs s'est inverse. Qwen3 surpasse OpenAI de +6 points MTEB.
2. Multimodal emerge
Cohere a ouvert la voie. Google et OpenAI devraient suivre en 2026-2027.
3. Specialisation par domaine
Les modeles specialises (Voyage legal/finance/code) surpassent les modeles generiques de 10-15% dans leurs domaines.
4. Prix en chute
Google Gemini Embedding a $0.008/1M tokens change l'economie du RAG.
Notre avis
Le paysage MTEB 2026 represente un tournant :
Points cles :
- L'open source (Qwen3) surpasse les APIs proprietaires
- Le multimodal (Cohere v4) ouvre de nouveaux cas d'usage
- Les prix chutent (Gemini 16x moins cher qu'OpenAI)
Recommandations :
- Nouveaux projets : evaluez Qwen3 (performance) ou Gemini (cout)
- Documents visuels : Cohere Embed v4 est incontournable
- Projets existants sur OpenAI : migration a considerer si performance critique
Les plateformes comme Ailog integrent ces benchmarks pour selectionner automatiquement les meilleurs modeles selon votre cas d'usage.
Consultez notre comparatif detaille des embeddings 2026 pour approfondir.
FAQ
Tags
Articles connexes
Modeles d'embedding 2026 : Benchmark et comparatif
Comparatif exhaustif des meilleurs modeles d'embedding en 2026. Benchmarks MTEB, performances multilingues et recommandations pour vos applications RAG.
Cohere Embed v4 : Le premier embedding multimodal de production
Cohere lance Embed v4 Multimodal, le premier modele d'embeddings capable de vectoriser texte, images et documents interleaves. Revolution pour le RAG multimodal.
Hugging Face : Nouveaux modeles RAG open-source
Hugging Face publie une nouvelle famille de modeles optimises pour le RAG : embeddings, rerankers et LLMs specialises. Tour d'horizon complet.