3. EmbeddingIntermédiaire

Meilleurs Modèles Embedding 2025 : Scores MTEB & Leaderboard (Cohere, OpenAI, BGE)

8 avril 2026
11 min de lecture
Équipe de Recherche Ailog

Comparez les scores MTEB des meilleurs modèles d'embedding : Cohere embed-v4 (65.2), OpenAI text-3-large (64.6), BGE-M3 (63.0). Leaderboard complet avec prix.

MTEB Leaderboard 2025 & 2026 - Top Modèles d'Embedding

Tableau de référence rapide avec les scores MTEB pour tous les modèles majeurs (mis à jour avril 2026) :

RangModèleScore MTEBDimensionsPrix/1M tokensMeilleur pour
1Harrier-OSS-v1-27B74.3 (v2)5376Gratuit (MIT)SOTA multilingue
2Gemini Embedding 268.323072$0.20Multimodal, meilleur retrieval
3Jina v5-text-small71.7 (v2)1024Gratuit (Apache)Meilleur ratio qualité/taille
4Qwen3-Embedding-8B70.584096Gratuit (Apache)Meilleur open-source multilingue
5Voyage 4 Large~66.82048$0.12Espace embedding partagé, MoE
6Cohere Embed v465.21536$0.12Entreprise, contexte 128K
7OpenAI text-embedding-3-large64.63072$0.13Usage général
8BGE-M363.01024Gratuit (MIT)Auto-hébergé budget
9Nomic-embed-text-v1.559.4768$0.05Budget limité
10all-MiniLM-L6-v256.3384GratuitPrototypage rapide

Note : les scores MTEB v2 (2026) ne sont pas directement comparables à MTEB v1. Les modèles marqués (v2) utilisent le nouveau benchmark. Source : MTEB Leaderboard, avril 2026.


Ce qui a changé au T1 2026

Le paysage des embeddings a radicalement changé début 2026 avec quatre sorties majeures :

Gemini Embedding 2 (mars 2026) — Premier embedding multimodal

La percée de Google : un modèle unique qui encode texte, images, vidéo, audio et PDF dans un espace vectoriel partagé de 3 072 dimensions. Leader des benchmarks de retrieval avec 67.71 au score MTEB retrieval.

  • Retrieval cross-lingue : 0.997 (le plus élevé de tous les modèles)
  • Retrieval de code : 84.0 sur MTEB Code
  • Matryoshka : réductible à 128/768/1536 dims
  • Prix : $0.20/M tokens texte, $0.10/M batch

Microsoft Harrier-OSS-v1 (mars 2026) — SOTA multilingue

Trois modèles sous licence MIT établissant de nouveaux records multilingues :

  • 270M (640 dims, MTEB v2 : 66.5)
  • 0.6B (1024 dims, MTEB v2 : 69.0)
  • 27B (5376 dims, MTEB v2 : 74.3 — SOTA)

94 langues, contexte 32K. Nécessite 80Go+ VRAM pour le 27B.

Famille Voyage 4 (janvier 2026) — Espace d'embedding partagé

Premier de l'industrie : différents modèles pour requêtes vs documents peuvent partager le même espace vectoriel. L'architecture MoE réduit les coûts de serving de 40%.

  • Modèles : voyage-4-large, voyage-4, voyage-4-lite, voyage-4-nano (Apache 2.0)
  • Revendique +14% par rapport à OpenAI 3-large sur RTEB
  • 200M tokens gratuits inclus

Jina v5-text (février 2026) — Qualité distillée

Modèles sub-1B égalant la qualité 8B par distillation :

  • v5-text-small (677M) : MTEB v2 = 71.7, 119+ langues
  • v5-text-nano (239M) : MTEB v2 = 71.0
  • Versions spécialisées par tâche (retrieval, text-matching, classification)

Modèles établis — État actuel

Cohere Embed v4 (fin 2025)

  • Désormais 1536 dims (contre 1024 en v3), contexte 128K tokens (le plus long)
  • Multimodal : texte + images, entrelacés
  • Matryoshka : 256, 512, 1024, 1536 dims
  • Prix : $0.12/M tokens

OpenAI text-embedding-3-large (janvier 2024)

  • Aucune mise à jour depuis plus de 2 ans. Classé ~7e-9e selon le benchmark.
  • Toujours solide pour un usage général dans l'écosystème OpenAI
  • Prix : $0.13/M tokens

Qwen3-Embedding-8B (2025)

  • Apache 2.0, 100+ langues, 4096 dims
  • Variantes multimodales disponibles (Qwen3-VL-Embedding)
  • Entièrement auto-hébergeable

BGE-M3 (2024)

  • Licence MIT, 1024 dims, multi-granularité (dense + sparse + multi-vector)
  • Reste l'option budget auto-hébergée de référence

Facteurs de décision clés

1. Précision vs Coût

DEVELOPERpython
# Meilleure précision : Gemini Embedding 2 import google.generativeai as genai result = genai.embed_content( model="models/gemini-embedding-2", content="Your text here" ) embedding = result['embedding'] # Option budget : Open-source from sentence_transformers import SentenceTransformer model = SentenceTransformer('BAAI/bge-m3') embedding = model.encode("Your text here")

2. Taille de dimension

Plus petit = plus rapide, stockage moins cher, mais moins précis

DEVELOPERpython
# OpenAI: Configurable dimensions response = client.embeddings.create( model="text-embedding-3-large", input="text", dimensions=512 # vs default 3072 )

3. Support linguistique

Leaders multilingues (2026) :

  • Microsoft Harrier-OSS-v1 : 94 langues (MIT)
  • Cohere embed-v4 : 100+ langues
  • BGE-M3 : 100+ langues
  • Jina v5-text : 119+ langues

4. Spécialisation par domaine

Code : Voyage code-3, Gemini Embedding 2 (MTEB Code : 84.0) Juridique : BGE ou Qwen3 fine-tuné sur corpus juridique Médical : BioGPT embeddings, PubMedBERT

Embeddings Matryoshka (standard en 2026)

Le Matryoshka Representation Learning est devenu le standard de l'industrie. La plupart des nouveaux modèles supportent des dimensions variables depuis un même embedding :

DEVELOPERpython
# Générer une fois à pleine dimension full_embedding = model.encode(text, dimension=3072) # Tronquer plus tard selon les besoins small_embedding = full_embedding[:256] medium_embedding = full_embedding[:768] # La qualité se dégrade graduellement, pas brutalement

Modèles supportant Matryoshka (2026) : Gemini Embedding 2, Voyage 4, Cohere v4, OpenAI text-3-*, Jina v5, Microsoft Harrier, Nomic v1.5.

Benchmarker votre cas d'usage

Ne faites pas confiance aux benchmarks génériques - testez sur VOS données :

DEVELOPERpython
from sentence_transformers import SentenceTransformer, util def benchmark_model(model_name, queries, documents): model = SentenceTransformer(model_name) query_embs = model.encode(queries) doc_embs = model.encode(documents) similarities = util.cos_sim(query_embs, doc_embs) return similarities # Tester plusieurs modèles models = [ "BAAI/bge-m3", "Qwen/Qwen3-Embedding-8B", "jinaai/jina-embeddings-v5-text-small" ] for model in models: scores = benchmark_model(model, test_queries, test_docs) print(f"{model}: {scores.mean()}")

Fine-tuning pour votre domaine

DEVELOPERpython
from sentence_transformers import SentenceTransformer, InputExample, losses from torch.utils.data import DataLoader model = SentenceTransformer('BAAI/bge-base-en-v1.5') train_examples = [ InputExample(texts=['query', 'positive_doc', 'negative_doc']) ] train_dataloader = DataLoader(train_examples, shuffle=True, batch_size=16) train_loss = losses.MultipleNegativesRankingLoss(model) model.fit( train_objectives=[(train_dataloader, train_loss)], epochs=1, warmup_steps=100 )

Analyse de coûts (1M documents, avril 2026)

ModèleCoût EmbeddingStockageInférence
Gemini Embedding 2~$200$50/mois$0.20/M requêtes
Voyage 4 Large~$120$50/mois$0.12/M requêtes
Cohere v4~$120$50/mois$0.12/M requêtes
OpenAI-3-large$130$50/mois$0.13/M requêtes
Jina v5-small (auto-hébergé)$0$30/moisGPU : $80/mois
Qwen3-8B (auto-hébergé)$0$50/moisGPU : $100/mois
BGE-M3 (auto-hébergé)$0$30/moisGPU : $50/mois
all-MiniLM$0$20/moisCPU : $20/mois

Recommandations par cas d'usage

Startup/MVP : all-MiniLM-L6-v2 (gratuit, rapide) ou Jina v5-nano (gratuit, bien meilleure qualité) Production (qualité) : Gemini Embedding 2 ou Voyage 4 Large Production (budget) : BGE-M3 ou Jina v5-small auto-hébergé Multilingue : Microsoft Harrier-OSS-v1 (MIT, SOTA) ou Cohere embed-v4 Multimodal (texte + images) : Gemini Embedding 2 ou Cohere embed-v4 Recherche de code : Gemini Embedding 2 (MTEB Code : 84.0) ou Voyage code-3 Confidentialité critique : Qwen3-Embedding-8B (Apache 2.0) ou BGE-M3 (MIT) Entreprise (contexte 128K) : Cohere embed-v4

Stratégie de migration

Changer d'embeddings nécessite de tout ré-embedder :

DEVELOPERpython
# Migration progressive def hybrid_search(query, old_index, new_index, alpha=0.5): old_results = old_index.search(old_model.encode(query)) new_results = new_index.search(new_model.encode(query)) return blend_rankings(old_results, new_results, alpha)

Le modèle d'embedding est la fondation de votre RAG. Choisissez judicieusement, benchmarkez minutieusement, et soyez prêt à mettre à niveau au fur et à mesure que les modèles s'améliorent.

FAQ

Gemini Embedding 2 mène les benchmarks de retrieval (67.71 MTEB retrieval) et est le premier à gérer texte, images, vidéo, audio et PDF dans un seul modèle. Pour l'auto-hébergement, Qwen3-Embedding-8B (Apache 2.0) et Jina v5-text-small offrent une excellente qualité sans coût API.
Il reste solide mais n'a pas été mis à jour depuis janvier 2024. Gemini Embedding 2, Voyage 4 et les modèles open-source comme Jina v5 et Qwen3 le surpassent sur la plupart des benchmarks. Si vous êtes déjà dans l'écosystème OpenAI, c'est encore raisonnable ; sinon, les options plus récentes offrent un meilleur rapport qualité-prix.
Jina v5-text-small (677M params, MTEB v2 : 71.7, Apache 2.0) offre le meilleur ratio qualité/taille. Pour des besoins plus importants, Qwen3-Embedding-8B (70.58) et Microsoft Harrier-OSS-v1 (MIT, MTEB v2 : 74.3 pour le 27B) sont d'excellentes options.
Considérez : (1) exigences de précision, (2) support linguistique, (3) contraintes de coût, (4) besoins de latence, (5) besoins multimodaux (nouveau en 2026). Benchmarkez sur VOS données — les scores génériques ne se traduisent pas toujours à votre domaine.
Le fine-tuning montre des gains de +10-30% pour les domaines spécialisés (juridique, médical, code). Commencez avec un modèle pré-entraîné, puis fine-tunez si les performances génériques sont insuffisantes. La plupart des nouveaux modèles (Jina v5, Qwen3) supportent le fine-tuning efficace.

Tags

embeddingsmodèlesbenchmarksmtebopenaicoherebge-m32025leaderboard

Articles connexes

Ailog Assistant

Ici pour vous aider

Salut ! Pose-moi des questions sur Ailog et comment intégrer votre RAG dans vos projets !