Meilleurs Modèles Embedding 2025 : Scores MTEB & Leaderboard (Cohere, OpenAI, BGE)

Name: Ailog - RAG as a Service Platform
Availability: InStock
Rating: 4.8 (156 reviews)

MTEB Leaderboard 2025 & 2026 - Top Modèles d'Embedding

Tableau de référence rapide avec les scores MTEB pour tous les modèles majeurs (mis à jour avril 2026) :

Rang	Modèle	Score MTEB	Dimensions	Prix/1M tokens	Meilleur pour
1	Harrier-OSS-v1-27B	74.3 (v2)	5376	Gratuit (MIT)	SOTA multilingue
2	Gemini Embedding 2	68.32	3072	$0.20	Multimodal, meilleur retrieval
3	Jina v5-text-small	71.7 (v2)	1024	Gratuit (Apache)	Meilleur ratio qualité/taille
4	Qwen3-Embedding-8B	70.58	4096	Gratuit (Apache)	Meilleur open-source multilingue
5	Voyage 4 Large	~66.8	2048	$0.12	Espace embedding partagé, MoE
6	Cohere Embed v4	65.2	1536	$0.12	Entreprise, contexte 128K
7	OpenAI text-embedding-3-large	64.6	3072	$0.13	Usage général
8	BGE-M3	63.0	1024	Gratuit (MIT)	Auto-hébergé budget
9	Nomic-embed-text-v1.5	59.4	768	$0.05	Budget limité
10	all-MiniLM-L6-v2	56.3	384	Gratuit	Prototypage rapide

Note : les scores MTEB v2 (2026) ne sont pas directement comparables à MTEB v1. Les modèles marqués (v2) utilisent le nouveau benchmark. Source : MTEB Leaderboard, avril 2026.

Ce qui a changé au T1 2026

Le paysage des embeddings a radicalement changé début 2026 avec quatre sorties majeures :

Gemini Embedding 2 (mars 2026) — Premier embedding multimodal

La percée de Google : un modèle unique qui encode texte, images, vidéo, audio et PDF dans un espace vectoriel partagé de 3 072 dimensions. Leader des benchmarks de retrieval avec 67.71 au score MTEB retrieval.

Retrieval cross-lingue : 0.997 (le plus élevé de tous les modèles)
Retrieval de code : 84.0 sur MTEB Code
Matryoshka : réductible à 128/768/1536 dims
Prix : $0.20/M tokens texte, $0.10/M batch

Microsoft Harrier-OSS-v1 (mars 2026) — SOTA multilingue

Trois modèles sous licence MIT établissant de nouveaux records multilingues :

270M (640 dims, MTEB v2 : 66.5)
0.6B (1024 dims, MTEB v2 : 69.0)
27B (5376 dims, MTEB v2 : 74.3 — SOTA)

94 langues, contexte 32K. Nécessite 80Go+ VRAM pour le 27B.

Famille Voyage 4 (janvier 2026) — Espace d'embedding partagé

Premier de l'industrie : différents modèles pour requêtes vs documents peuvent partager le même espace vectoriel. L'architecture MoE réduit les coûts de serving de 40%.

Modèles : voyage-4-large, voyage-4, voyage-4-lite, voyage-4-nano (Apache 2.0)
Revendique +14% par rapport à OpenAI 3-large sur RTEB
200M tokens gratuits inclus

Jina v5-text (février 2026) — Qualité distillée

Modèles sub-1B égalant la qualité 8B par distillation :

v5-text-small (677M) : MTEB v2 = 71.7, 119+ langues
v5-text-nano (239M) : MTEB v2 = 71.0
Versions spécialisées par tâche (retrieval, text-matching, classification)

Modèles établis — État actuel

Cohere Embed v4 (fin 2025)

Désormais 1536 dims (contre 1024 en v3), contexte 128K tokens (le plus long)
Multimodal : texte + images, entrelacés
Matryoshka : 256, 512, 1024, 1536 dims
Prix : $0.12/M tokens

OpenAI text-embedding-3-large (janvier 2024)

Aucune mise à jour depuis plus de 2 ans. Classé ~7e-9e selon le benchmark.
Toujours solide pour un usage général dans l'écosystème OpenAI
Prix : $0.13/M tokens

Qwen3-Embedding-8B (2025)

Apache 2.0, 100+ langues, 4096 dims
Variantes multimodales disponibles (Qwen3-VL-Embedding)
Entièrement auto-hébergeable

BGE-M3 (2024)

Licence MIT, 1024 dims, multi-granularité (dense + sparse + multi-vector)
Reste l'option budget auto-hébergée de référence

Facteurs de décision clés

1. Précision vs Coût

DEVELOPERpython
# Meilleure précision : Gemini Embedding 2
import google.generativeai as genai
result = genai.embed_content(
    model="models/gemini-embedding-2",
    content="Your text here"
)
embedding = result['embedding']

# Option budget : Open-source
from sentence_transformers import SentenceTransformer
model = SentenceTransformer('BAAI/bge-m3')
embedding = model.encode("Your text here")

2. Taille de dimension

Plus petit = plus rapide, stockage moins cher, mais moins précis

DEVELOPERpython
# OpenAI: Configurable dimensions
response = client.embeddings.create(
    model="text-embedding-3-large",
    input="text",
    dimensions=512  # vs default 3072
)

3. Support linguistique

Leaders multilingues (2026) :

Microsoft Harrier-OSS-v1 : 94 langues (MIT)
Cohere embed-v4 : 100+ langues
BGE-M3 : 100+ langues
Jina v5-text : 119+ langues

4. Spécialisation par domaine

Code : Voyage code-3, Gemini Embedding 2 (MTEB Code : 84.0) Juridique : BGE ou Qwen3 fine-tuné sur corpus juridique Médical : BioGPT embeddings, PubMedBERT

Embeddings Matryoshka (standard en 2026)

Le Matryoshka Representation Learning est devenu le standard de l'industrie. La plupart des nouveaux modèles supportent des dimensions variables depuis un même embedding :

DEVELOPERpython
# Générer une fois à pleine dimension
full_embedding = model.encode(text, dimension=3072)

# Tronquer plus tard selon les besoins
small_embedding = full_embedding[:256]
medium_embedding = full_embedding[:768]

# La qualité se dégrade graduellement, pas brutalement

Modèles supportant Matryoshka (2026) : Gemini Embedding 2, Voyage 4, Cohere v4, OpenAI text-3-*, Jina v5, Microsoft Harrier, Nomic v1.5.

Benchmarker votre cas d'usage

Ne faites pas confiance aux benchmarks génériques - testez sur VOS données :

DEVELOPERpython
from sentence_transformers import SentenceTransformer, util

def benchmark_model(model_name, queries, documents):
    model = SentenceTransformer(model_name)

    query_embs = model.encode(queries)
    doc_embs = model.encode(documents)

    similarities = util.cos_sim(query_embs, doc_embs)

    return similarities

# Tester plusieurs modèles
models = [
    "BAAI/bge-m3",
    "Qwen/Qwen3-Embedding-8B",
    "jinaai/jina-embeddings-v5-text-small"
]

for model in models:
    scores = benchmark_model(model, test_queries, test_docs)
    print(f"{model}: {scores.mean()}")

Fine-tuning pour votre domaine

DEVELOPERpython
from sentence_transformers import SentenceTransformer, InputExample, losses
from torch.utils.data import DataLoader

model = SentenceTransformer('BAAI/bge-base-en-v1.5')

train_examples = [
    InputExample(texts=['query', 'positive_doc', 'negative_doc'])
]

train_dataloader = DataLoader(train_examples, shuffle=True, batch_size=16)

train_loss = losses.MultipleNegativesRankingLoss(model)
model.fit(
    train_objectives=[(train_dataloader, train_loss)],
    epochs=1,
    warmup_steps=100
)

Analyse de coûts (1M documents, avril 2026)

Modèle	Coût Embedding	Stockage	Inférence
Gemini Embedding 2	~$200	$50/mois	$0.20/M requêtes
Voyage 4 Large	~$120	$50/mois	$0.12/M requêtes
Cohere v4	~$120	$50/mois	$0.12/M requêtes
OpenAI-3-large	$130	$50/mois	$0.13/M requêtes
Jina v5-small (auto-hébergé)	$0	$30/mois	GPU : $80/mois
Qwen3-8B (auto-hébergé)	$0	$50/mois	GPU : $100/mois
BGE-M3 (auto-hébergé)	$0	$30/mois	GPU : $50/mois
all-MiniLM	$0	$20/mois	CPU : $20/mois

Recommandations par cas d'usage

Startup/MVP : all-MiniLM-L6-v2 (gratuit, rapide) ou Jina v5-nano (gratuit, bien meilleure qualité) Production (qualité) : Gemini Embedding 2 ou Voyage 4 Large Production (budget) : BGE-M3 ou Jina v5-small auto-hébergé Multilingue : Microsoft Harrier-OSS-v1 (MIT, SOTA) ou Cohere embed-v4 Multimodal (texte + images) : Gemini Embedding 2 ou Cohere embed-v4 Recherche de code : Gemini Embedding 2 (MTEB Code : 84.0) ou Voyage code-3 Confidentialité critique : Qwen3-Embedding-8B (Apache 2.0) ou BGE-M3 (MIT) Entreprise (contexte 128K) : Cohere embed-v4

Stratégie de migration

Changer d'embeddings nécessite de tout ré-embedder :

DEVELOPERpython
# Migration progressive
def hybrid_search(query, old_index, new_index, alpha=0.5):
    old_results = old_index.search(old_model.encode(query))
    new_results = new_index.search(new_model.encode(query))

    return blend_rankings(old_results, new_results, alpha)

Le modèle d'embedding est la fondation de votre RAG. Choisissez judicieusement, benchmarkez minutieusement, et soyez prêt à mettre à niveau au fur et à mesure que les modèles s'améliorent.

FAQ

Gemini Embedding 2 mène les benchmarks de retrieval (67.71 MTEB retrieval) et est le premier à gérer texte, images, vidéo, audio et PDF dans un seul modèle. Pour l'auto-hébergement, Qwen3-Embedding-8B (Apache 2.0) et Jina v5-text-small offrent une excellente qualité sans coût API.

Il reste solide mais n'a pas été mis à jour depuis janvier 2024. Gemini Embedding 2, Voyage 4 et les modèles open-source comme Jina v5 et Qwen3 le surpassent sur la plupart des benchmarks. Si vous êtes déjà dans l'écosystème OpenAI, c'est encore raisonnable ; sinon, les options plus récentes offrent un meilleur rapport qualité-prix.

Jina v5-text-small (677M params, MTEB v2 : 71.7, Apache 2.0) offre le meilleur ratio qualité/taille. Pour des besoins plus importants, Qwen3-Embedding-8B (70.58) et Microsoft Harrier-OSS-v1 (MIT, MTEB v2 : 74.3 pour le 27B) sont d'excellentes options.

Considérez : (1) exigences de précision, (2) support linguistique, (3) contraintes de coût, (4) besoins de latence, (5) besoins multimodaux (nouveau en 2026). Benchmarkez sur VOS données — les scores génériques ne se traduisent pas toujours à votre domaine.

Le fine-tuning montre des gains de +10-30% pour les domaines spécialisés (juridique, médical, code). Commencez avec un modèle pré-entraîné, puis fine-tunez si les performances génériques sont insuffisantes. La plupart des nouveaux modèles (Jina v5, Qwen3) supportent le fine-tuning efficace.