Actualités

MTEB 2026 : Etat des lieux du benchmark embeddings

7 mai 2026
7 min de lecture
Equipe Ailog

Analyse du benchmark MTEB en 2026 : nouveaux leaders, evolution du leaderboard et implications pour les pipelines RAG.

MTEB en 2026 : le paysage a change

Le Massive Text Embedding Benchmark (MTEB), reference mondiale pour l'evaluation des modeles d'embeddings, a vu son classement bouleverse en 2025-2026. L'open source Alibaba Qwen3 a pris la tete, Google a fait une entree fracassante avec Gemini Embedding, et Cohere a revolutionne le marche avec le premier embedding multimodal de production.

"Le leaderboard MTEB evolue constamment avec de nouvelles soumissions", explique le Dr. Niklas Muennighoff, chercheur chez Hugging Face et createur de MTEB. "En 2026, nous observons une convergence des scores entre open source et APIs proprietaires."

Structure du benchmark MTEB

Categories de taches

MTEB evalue les embeddings sur 8 categories principales :

CategorieNb datasetsDescription
Retrieval15Recherche documentaire (MS MARCO, BEIR)
STS10Similarite semantique textuelle
Classification12Classification de texte
Clustering11Regroupement semantique
Reranking4Re-ordonnancement de resultats
Pair Classification3Classification de paires
Summarization1Evaluation de resumes
Bitext Mining4Alignement multilingual

Le framework couvre plus de 1000 langues et 58 datasets pour l'anglais seul.

Metriques d'evaluation

MetriqueDescriptionUsage RAG
nDCG@10Normalized Discounted Cumulative GainQualite du ranking
MRRMean Reciprocal RankPosition du premier bon resultat
MAPMean Average PrecisionPrecision globale
Recall@kTaux de rappel a k resultatsCouverture

Le classement utilise le Borda Count par defaut, agregeant les performances sur toutes les taches.

Classement MTEB janvier 2026

Top 10 global

RangModeleScore MTEBTypeParticularite
1Qwen3-Embedding-8B70.6Open sourceApache 2.0, multilingual
2Google Gemini Embedding68.3APIPrix ultra-bas ($0.008/1M)
3gte-Qwen3-8B68.1Open sourceApache 2.0
4NVIDIA NV-Embed67.5Open sourceBase Llama-3.1-8B
5Cohere Embed v465.2APIMultimodal (texte + images)
6OpenAI text-embedding-3-large64.6APIEcosysteme complet
7Voyage-363.8APISpecialisation domaines
8BGE-M363.2Open sourceMIT, 568M params
9Jina Embeddings v362.8API/Open8192 dimensions max
10Nomic-embed-v261.4Open sourceCompact (137M params)

Evolution par rapport a 2024

ModeleScore 2024Score 2026Evolution
OpenAI text-embedding-3-large64.664.6= (pas de mise a jour)
BGE-M363.263.2=
Qwen3-Embedding-8BN/A70.6Nouveau leader
Google Gemini EmbeddingN/A68.3Nouvel entrant
Cohere Embed v4N/A65.2Nouveau (multimodal)

L'absence de mise a jour d'OpenAI sur les embeddings (toujours text-embedding-3 de fin 2023) leur a fait perdre la tete du classement.

Meilleurs modeles par categorie

Retrieval (recherche documentaire)

RangModeleScore Retrieval
1Qwen3-Embedding-8B57.8
2Voyage-356.2
3OpenAI text-embedding-3-large55.4

Clustering (regroupement)

RangModeleScore Clustering
1Qwen3-Embedding-8B51.8
2NVIDIA NV-Embed50.9
3gte-Qwen3-8B50.2

Multilingual (hors anglais)

RangModeleScore Multilingual
1BGE-M362.4
2Qwen3-Embedding-8B61.8
3Cohere Embed v459.5

Pour choisir le bon modele, consultez notre guide sur le choix des embeddings.

Focus : l'essor de l'open source

Qwen3 prend la tete

Pour la premiere fois, un modele open source domine le leaderboard MTEB. Alibaba's Qwen3-Embedding-8B :

  • Score global : 70.6 (surpasse tous les APIs)
  • Licence : Apache 2.0 (usage commercial libre)
  • Taille : 8B parametres
  • Multilingual : Excellent sur chinois, bon sur europeen
DEVELOPERpython
from sentence_transformers import SentenceTransformer # Charger Qwen3-Embedding model = SentenceTransformer('Alibaba-NLP/gte-Qwen3-8B-embedding') embeddings = model.encode( ["Votre texte a encoder"], normalize_embeddings=True )

Implications pour les entreprises

Cette evolution change la donne :

AspectAvant (2024)Maintenant (2026)
Meilleur modeleAPI proprietaireOpen source
Cout optimalAPI ($0.13/1M)Self-host (gratuit)
SouveraineteDependance cloudAuto-hebergement possible
PerformanceAPIs en teteOpen source en tete

Focus : Cohere Embed v4 et le multimodal

Une innovation unique

Cohere Embed v4 est le seul modele de production capable de vectoriser :

  • Texte
  • Images
  • Documents interleaves (PDFs, slides)

Son score MTEB (65.2) est inferieur aux leaders sur le texte pur, mais il n'a pas d'equivalent pour les documents visuels.

DEVELOPERpython
import cohere co = cohere.ClientV2('your-api-key') # Embedding d'image (unique a Cohere) response = co.embed( images=["data:image/jpeg;base64,..."], model="embed-v4", input_type="image", embedding_types=["float"] )

Pour approfondir, voir notre article sur Cohere Embed v4 Multimodal.

Implications pour les pipelines RAG

Choix du modele selon le cas d'usage

Cas d'usageModele recommandeRaison
General (budget)Google Gemini EmbeddingPrix imbattable ($0.008/1M)
General (performance)Qwen3-Embedding-8BMeilleur score MTEB
Documents visuelsCohere Embed v4Seul multimodal
Code / TechVoyage-code-3Specialise code
LegalVoyage-3-legalSpecialise juridique
SouveraineteQwen3 ou BGE-M3Self-host, open source

Trade-offs a considerer

CritereAPIsOpen source
SetupImmediatConfiguration GPU
Cout variableOuiNon (fixe)
Performance 2026InferieureSuperieure
SouveraineteNonOui
MaintenanceZeroEquipe MLOps

Consultez notre guide sur l'optimisation des couts RAG.

Methodologie et reproductibilite

Comment executer le benchmark

DEVELOPERpython
from mteb import MTEB, get_model # Charger un modele model = get_model("Alibaba-NLP/gte-Qwen3-8B-embedding") # Lancer l'evaluation sur Retrieval evaluation = MTEB(task_types=["Retrieval"]) results = evaluation.run(model) # Afficher les resultats print(results)

Leaderboard interactif

Le leaderboard officiel est disponible sur :

Les classements sont dynamiques - de nouvelles soumissions peuvent modifier l'ordre a tout moment.

Tendances observees en 2026

1. Open source domine

L'ecart entre open source et APIs s'est inverse. Qwen3 surpasse OpenAI de +6 points MTEB.

2. Multimodal emerge

Cohere a ouvert la voie. Google et OpenAI devraient suivre en 2026-2027.

3. Specialisation par domaine

Les modeles specialises (Voyage legal/finance/code) surpassent les modeles generiques de 10-15% dans leurs domaines.

4. Prix en chute

Google Gemini Embedding a $0.008/1M tokens change l'economie du RAG.

Notre avis

Le paysage MTEB 2026 represente un tournant :

Points cles :

  • L'open source (Qwen3) surpasse les APIs proprietaires
  • Le multimodal (Cohere v4) ouvre de nouveaux cas d'usage
  • Les prix chutent (Gemini 16x moins cher qu'OpenAI)

Recommandations :

  • Nouveaux projets : evaluez Qwen3 (performance) ou Gemini (cout)
  • Documents visuels : Cohere Embed v4 est incontournable
  • Projets existants sur OpenAI : migration a considerer si performance critique

Les plateformes comme Ailog integrent ces benchmarks pour selectionner automatiquement les meilleurs modeles selon votre cas d'usage.

Consultez notre comparatif detaille des embeddings 2026 pour approfondir.

FAQ

Alibaba a investi massivement dans les embeddings multilingues avec Qwen3. Le modele 8B parametres combine une architecture optimisee et un entrainement sur des corpus massifs en chinois et anglais. La licence Apache 2.0 permet une adoption large, accelerant les contributions communautaires et les optimisations.
Oui, mais moins qu'avant. Le modele reste stable et bien documente avec un ecosysteme complet (GPT-5, Assistants API). Cependant, son score MTEB (64.6) est desormais inferieur a Qwen3 (70.6) et Google Gemini (68.3). Pour les nouveaux projets, d'autres options offrent un meilleur rapport qualite/prix.
Cohere Embed v4 permet de vectoriser directement des PDFs, slides et images sans pipeline OCR complexe. Cela simplifie radicalement les architectures pour les documents visuels. Le modele n'a pas d'equivalent - les autres embeddings sont texte uniquement.
Si la performance est critique et que vous avez l'infrastructure GPU, oui. Qwen3 surpasse OpenAI de +6 points MTEB. La migration necessite un reencodage complet et une expertise MLOps. Pour les volumes faibles a moyens sans contrainte GPU, Google Gemini offre un meilleur rapport qualite/prix sans la complexite du self-hosting.
Non, le leaderboard evolue constamment avec de nouvelles soumissions. Les rangs peuvent changer. Il est recommande de consulter le leaderboard Hugging Face regulierement et d'evaluer les modeles sur votre propre dataset avant de decider. --- **Besoin d'aide pour choisir vos embeddings ?** [Ailog](https://ailog.fr) integre automatiquement les meilleurs modeles selon votre cas d'usage. Beneficiez de notre expertise sans la complexite technique.

Tags

RAGMTEBbenchmarkembeddingsevaluation

Articles connexes

Ailog Assistant

Ici pour vous aider

Salut ! Pose-moi des questions sur Ailog et comment intégrer votre RAG dans vos projets !