Meilleurs Modèles Embedding 2025 : Scores MTEB & Leaderboard (Cohere, OpenAI, BGE)
Comparez les scores MTEB des meilleurs modèles d'embedding : Cohere embed-v4 (65.2), OpenAI text-3-large (64.6), BGE-M3 (63.0). Leaderboard complet avec prix.
MTEB Leaderboard 2025 & 2026 - Top Modèles d'Embedding
Tableau de référence rapide avec les scores MTEB pour tous les modèles majeurs (mis à jour avril 2026) :
| Rang | Modèle | Score MTEB | Dimensions | Prix/1M tokens | Meilleur pour |
|---|---|---|---|---|---|
| 1 | Harrier-OSS-v1-27B | 74.3 (v2) | 5376 | Gratuit (MIT) | SOTA multilingue |
| 2 | Gemini Embedding 2 | 68.32 | 3072 | $0.20 | Multimodal, meilleur retrieval |
| 3 | Jina v5-text-small | 71.7 (v2) | 1024 | Gratuit (Apache) | Meilleur ratio qualité/taille |
| 4 | Qwen3-Embedding-8B | 70.58 | 4096 | Gratuit (Apache) | Meilleur open-source multilingue |
| 5 | Voyage 4 Large | ~66.8 | 2048 | $0.12 | Espace embedding partagé, MoE |
| 6 | Cohere Embed v4 | 65.2 | 1536 | $0.12 | Entreprise, contexte 128K |
| 7 | OpenAI text-embedding-3-large | 64.6 | 3072 | $0.13 | Usage général |
| 8 | BGE-M3 | 63.0 | 1024 | Gratuit (MIT) | Auto-hébergé budget |
| 9 | Nomic-embed-text-v1.5 | 59.4 | 768 | $0.05 | Budget limité |
| 10 | all-MiniLM-L6-v2 | 56.3 | 384 | Gratuit | Prototypage rapide |
Note : les scores MTEB v2 (2026) ne sont pas directement comparables à MTEB v1. Les modèles marqués (v2) utilisent le nouveau benchmark. Source : MTEB Leaderboard, avril 2026.
Ce qui a changé au T1 2026
Le paysage des embeddings a radicalement changé début 2026 avec quatre sorties majeures :
Gemini Embedding 2 (mars 2026) — Premier embedding multimodal
La percée de Google : un modèle unique qui encode texte, images, vidéo, audio et PDF dans un espace vectoriel partagé de 3 072 dimensions. Leader des benchmarks de retrieval avec 67.71 au score MTEB retrieval.
- Retrieval cross-lingue : 0.997 (le plus élevé de tous les modèles)
- Retrieval de code : 84.0 sur MTEB Code
- Matryoshka : réductible à 128/768/1536 dims
- Prix : $0.20/M tokens texte, $0.10/M batch
Microsoft Harrier-OSS-v1 (mars 2026) — SOTA multilingue
Trois modèles sous licence MIT établissant de nouveaux records multilingues :
- 270M (640 dims, MTEB v2 : 66.5)
- 0.6B (1024 dims, MTEB v2 : 69.0)
- 27B (5376 dims, MTEB v2 : 74.3 — SOTA)
94 langues, contexte 32K. Nécessite 80Go+ VRAM pour le 27B.
Famille Voyage 4 (janvier 2026) — Espace d'embedding partagé
Premier de l'industrie : différents modèles pour requêtes vs documents peuvent partager le même espace vectoriel. L'architecture MoE réduit les coûts de serving de 40%.
- Modèles : voyage-4-large, voyage-4, voyage-4-lite, voyage-4-nano (Apache 2.0)
- Revendique +14% par rapport à OpenAI 3-large sur RTEB
- 200M tokens gratuits inclus
Jina v5-text (février 2026) — Qualité distillée
Modèles sub-1B égalant la qualité 8B par distillation :
- v5-text-small (677M) : MTEB v2 = 71.7, 119+ langues
- v5-text-nano (239M) : MTEB v2 = 71.0
- Versions spécialisées par tâche (retrieval, text-matching, classification)
Modèles établis — État actuel
Cohere Embed v4 (fin 2025)
- Désormais 1536 dims (contre 1024 en v3), contexte 128K tokens (le plus long)
- Multimodal : texte + images, entrelacés
- Matryoshka : 256, 512, 1024, 1536 dims
- Prix : $0.12/M tokens
OpenAI text-embedding-3-large (janvier 2024)
- Aucune mise à jour depuis plus de 2 ans. Classé ~7e-9e selon le benchmark.
- Toujours solide pour un usage général dans l'écosystème OpenAI
- Prix : $0.13/M tokens
Qwen3-Embedding-8B (2025)
- Apache 2.0, 100+ langues, 4096 dims
- Variantes multimodales disponibles (Qwen3-VL-Embedding)
- Entièrement auto-hébergeable
BGE-M3 (2024)
- Licence MIT, 1024 dims, multi-granularité (dense + sparse + multi-vector)
- Reste l'option budget auto-hébergée de référence
Facteurs de décision clés
1. Précision vs Coût
DEVELOPERpython# Meilleure précision : Gemini Embedding 2 import google.generativeai as genai result = genai.embed_content( model="models/gemini-embedding-2", content="Your text here" ) embedding = result['embedding'] # Option budget : Open-source from sentence_transformers import SentenceTransformer model = SentenceTransformer('BAAI/bge-m3') embedding = model.encode("Your text here")
2. Taille de dimension
Plus petit = plus rapide, stockage moins cher, mais moins précis
DEVELOPERpython# OpenAI: Configurable dimensions response = client.embeddings.create( model="text-embedding-3-large", input="text", dimensions=512 # vs default 3072 )
3. Support linguistique
Leaders multilingues (2026) :
- Microsoft Harrier-OSS-v1 : 94 langues (MIT)
- Cohere embed-v4 : 100+ langues
- BGE-M3 : 100+ langues
- Jina v5-text : 119+ langues
4. Spécialisation par domaine
Code : Voyage code-3, Gemini Embedding 2 (MTEB Code : 84.0) Juridique : BGE ou Qwen3 fine-tuné sur corpus juridique Médical : BioGPT embeddings, PubMedBERT
Embeddings Matryoshka (standard en 2026)
Le Matryoshka Representation Learning est devenu le standard de l'industrie. La plupart des nouveaux modèles supportent des dimensions variables depuis un même embedding :
DEVELOPERpython# Générer une fois à pleine dimension full_embedding = model.encode(text, dimension=3072) # Tronquer plus tard selon les besoins small_embedding = full_embedding[:256] medium_embedding = full_embedding[:768] # La qualité se dégrade graduellement, pas brutalement
Modèles supportant Matryoshka (2026) : Gemini Embedding 2, Voyage 4, Cohere v4, OpenAI text-3-*, Jina v5, Microsoft Harrier, Nomic v1.5.
Benchmarker votre cas d'usage
Ne faites pas confiance aux benchmarks génériques - testez sur VOS données :
DEVELOPERpythonfrom sentence_transformers import SentenceTransformer, util def benchmark_model(model_name, queries, documents): model = SentenceTransformer(model_name) query_embs = model.encode(queries) doc_embs = model.encode(documents) similarities = util.cos_sim(query_embs, doc_embs) return similarities # Tester plusieurs modèles models = [ "BAAI/bge-m3", "Qwen/Qwen3-Embedding-8B", "jinaai/jina-embeddings-v5-text-small" ] for model in models: scores = benchmark_model(model, test_queries, test_docs) print(f"{model}: {scores.mean()}")
Fine-tuning pour votre domaine
DEVELOPERpythonfrom sentence_transformers import SentenceTransformer, InputExample, losses from torch.utils.data import DataLoader model = SentenceTransformer('BAAI/bge-base-en-v1.5') train_examples = [ InputExample(texts=['query', 'positive_doc', 'negative_doc']) ] train_dataloader = DataLoader(train_examples, shuffle=True, batch_size=16) train_loss = losses.MultipleNegativesRankingLoss(model) model.fit( train_objectives=[(train_dataloader, train_loss)], epochs=1, warmup_steps=100 )
Analyse de coûts (1M documents, avril 2026)
| Modèle | Coût Embedding | Stockage | Inférence |
|---|---|---|---|
| Gemini Embedding 2 | ~$200 | $50/mois | $0.20/M requêtes |
| Voyage 4 Large | ~$120 | $50/mois | $0.12/M requêtes |
| Cohere v4 | ~$120 | $50/mois | $0.12/M requêtes |
| OpenAI-3-large | $130 | $50/mois | $0.13/M requêtes |
| Jina v5-small (auto-hébergé) | $0 | $30/mois | GPU : $80/mois |
| Qwen3-8B (auto-hébergé) | $0 | $50/mois | GPU : $100/mois |
| BGE-M3 (auto-hébergé) | $0 | $30/mois | GPU : $50/mois |
| all-MiniLM | $0 | $20/mois | CPU : $20/mois |
Recommandations par cas d'usage
Startup/MVP : all-MiniLM-L6-v2 (gratuit, rapide) ou Jina v5-nano (gratuit, bien meilleure qualité) Production (qualité) : Gemini Embedding 2 ou Voyage 4 Large Production (budget) : BGE-M3 ou Jina v5-small auto-hébergé Multilingue : Microsoft Harrier-OSS-v1 (MIT, SOTA) ou Cohere embed-v4 Multimodal (texte + images) : Gemini Embedding 2 ou Cohere embed-v4 Recherche de code : Gemini Embedding 2 (MTEB Code : 84.0) ou Voyage code-3 Confidentialité critique : Qwen3-Embedding-8B (Apache 2.0) ou BGE-M3 (MIT) Entreprise (contexte 128K) : Cohere embed-v4
Stratégie de migration
Changer d'embeddings nécessite de tout ré-embedder :
DEVELOPERpython# Migration progressive def hybrid_search(query, old_index, new_index, alpha=0.5): old_results = old_index.search(old_model.encode(query)) new_results = new_index.search(new_model.encode(query)) return blend_rankings(old_results, new_results, alpha)
Le modèle d'embedding est la fondation de votre RAG. Choisissez judicieusement, benchmarkez minutieusement, et soyez prêt à mettre à niveau au fur et à mesure que les modèles s'améliorent.
FAQ
Tags
Articles connexes
Embeddings : Les Fondations de la Recherche Sémantique
Plongée profonde dans les modèles d'embedding, les représentations vectorielles et comment choisir la bonne stratégie d'embedding pour votre système RAG.
Embeddings Multilingues pour un RAG Global
Construisez des systèmes RAG qui fonctionnent dans toutes les langues en utilisant des modèles d'embeddings multilingues et la récupération inter-langues.
Affiner les Embeddings pour Votre Domaine
Augmentez la précision de récupération de 30% : affinez les modèles d'embeddings sur vos documents et requêtes spécifiques.