Beste Embedding-Modelle 2025: MTEB-Scores & Leaderboard (Cohere, OpenAI, BGE)
Vergleichen Sie die MTEB-Scores der besten Embedding-Modelle: Cohere embed-v4 (65.2), OpenAI text-3-large (64.6), BGE-M3 (63.0). Vollständiges Leaderboard mit Preisen.
MTEB Leaderboard 2025 - Top Modelle für Embedding
Tableau de référence rapide avec les scores MTEB pour tous les modèles majeurs :
| Rang | Modèle | Score MTEB | Dimensionen | Preis/1M tokens | Am besten für |
|---|---|---|---|---|---|
| 1 | Gemini-embedding-001 | 68.32 | 3072 | ~$0.004/1K | Bester insgesamt, mehrsprachig |
| 2 | Qwen3-Embedding-8B | 70.58* | 4096 | Gratuit | Beste Open-Source |
| 3 | Voyage-3-large | 66.8 | 1536 | $0.12 | Spezifische Domänen |
| 4 | Cohere embed-v4 | 65.2 | 1024 | $0.10 | Enterprise, verrauschte Daten |
| 5 | OpenAI text-embedding-3-large | 64.6 | 3072 | $0.13 | Allgemeiner Einsatz |
| 6 | BGE-M3 | 63.0 | 1024 | Gratuit | Budget Selbsthosting |
| 7 | Nomic-embed-text-v1.5 | 59.4 | 768 | $0.05 | Begrenztes Budget |
| 8 | all-MiniLM-L6-v2 | 56.3 | 384 | Gratuit | Schnelles Prototyping |
Qwen3-Embedding-8B erzielte 70.58 auf dem MTEB Multilingual Leaderboard. Aktualisierung : Januar 2026. Source : MTEB Leaderboard
Landschaft der embedding-Modelle (2025)
Der embedding-Raum hat sich stark weiterentwickelt. Hier die führenden Modelle:
Top Modelle nach MTEB-Score
1. Gemini-embedding-001 (NEU #1)
- Dimensionen : 3072
- Score MTEB : 68.32 (+5.81 gegenüber Konkurrenten)
- Kosten : ~$0.004 pro 1K tokens
- Am besten für : Bester insgesamt, mehrsprachig (100+ Sprachen)
2. Qwen3-Embedding-8B (Beste Open-Source)
- Dimensionen : 4096
- Score MTEB : 70.58 (multilinguales Leaderboard)
- Kosten : Gratuit (Apache 2.0 Lizenz)
- Am besten für : Selbstgehostet, Datenschutz, mehrsprachig
3. Voyage-3-large
- Dimensionen : 1536
- Score MTEB : 66.8
- Kosten : $0.12 pro 1M tokens
- Am besten für : Domänenspezifisches Tuning
4. Cohere embed-v4
- Dimensionen : 1024
- Score MTEB : 65.2
- Kosten : $0.10 pro 1M tokens
- Am besten für : Enterprise, reale verrauschte Daten
5. OpenAI text-embedding-3-large
- Dimensionen : 3072 (konfigurierbar bis 256)
- Score MTEB : 64.6
- Kosten : $0.13 pro 1M tokens
- Am besten für : Allgemeiner Einsatz, bestehender OpenAI-Stack
Entscheidende Faktoren
1. Genauigkeit vs Kosten
DEVELOPERpython# High accuracy: OpenAI or Cohere from openai import OpenAI client = OpenAI() response = client.embeddings.create( model="text-embedding-3-large", input="Your text here" ) embedding = response.data[0].embedding # Budget option: Open-source from sentence_transformers import SentenceTransformer model = SentenceTransformer('BAAI/bge-large-en-v1.5') embedding = model.encode("Your text here")
2. Dimensionengröße
Kleiner = schneller, weniger Speicher, aber weniger präzise
DEVELOPERpython# OpenAI: Configurable dimensions response = client.embeddings.create( model="text-embedding-3-large", input="text", dimensions=512 # vs default 3072 )
3. Sprachunterstützung
Mehrsprachige Leader :
- Cohere embed-v4 : 100+ Sprachen
- BGE-M3 : 100+ Sprachen
- OpenAI text-embedding-3-large : 100+ Sprachen
4. Domänenspezialisierung
Code : OpenAI text-embedding-3-small, Voyage code-2
Recht : BGE feinjustiert auf juristische Korpora
Medizin : BioGPT embeddings, PubMedBERT
Ihr Use-Case benchmarken
Vertrauen Sie nicht auf generische Benchmarks – testen Sie mit IHREN Daten :
DEVELOPERpythonfrom sentence_transformers import SentenceTransformer, util def benchmark_model(model_name, queries, documents): model = SentenceTransformer(model_name) # Embed query_embs = model.encode(queries) doc_embs = model.encode(documents) # Calculate similarities similarities = util.cos_sim(query_embs, doc_embs) return similarities # Test multiple models models = [ "text-embedding-3-large", "BAAI/bge-large-en-v1.5", "sentence-transformers/all-MiniLM-L6-v2" ] for model in models: scores = benchmark_model(model, test_queries, test_docs) print(f"{model}: {scores.mean()}")
Embeddings Matryoshka (2025-2026)
Neue Modelle unterstützen variable Dimensionen aus demselben embedding:
DEVELOPERpython# Generate once at full dimension full_embedding = model.encode(text, dimension=1024) # Truncate later as needed small_embedding = full_embedding[:256] # Just use first 256 medium_embedding = full_embedding[:512] # Quality degrades gracefully, not catastrophically
Modelle, die das unterstützen :
- OpenAI text-embedding-3-*
- Nomic embed-v1.5
- Jina embeddings v2
Fine-tuning für Ihren Bereich
DEVELOPERpythonfrom sentence_transformers import SentenceTransformer, InputExample, losses from torch.utils.data import DataLoader # Load base model model = SentenceTransformer('BAAI/bge-base-en-v1.5') # Create training examples train_examples = [ InputExample(texts=['query', 'positive_doc', 'negative_doc']) ] train_dataloader = DataLoader(train_examples, shuffle=True, batch_size=16) # Fine-tune train_loss = losses.MultipleNegativesRankingLoss(model) model.fit( train_objectives=[(train_dataloader, train_loss)], epochs=1, warmup_steps=100 )
Kostenanalyse (1M Dokumente)
| Modell | Embedding-Kosten | Speicherung | Inferenz |
|---|---|---|---|
| Gemini-embedding-001 | ~$40 | $50/Monat | ~$0.004/1K Anfragen |
| OpenAI-3-large | $130 | $50/Monat | $0.13/1M Anfragen |
| Cohere v4 | $100 | $50/Monat | $0.10/1M Anfragen |
| Qwen3-8B (selbstgehostet) | $0 | $50/Monat | GPU: $100/Monat |
| all-MiniLM | $0 | $20/Monat | CPU: $20/Monat |
Empfehlungen nach Anwendungsfall
Startup/MVP : all-MiniLM-L6-v2 (gratuit, schnell)
Produktiv (Qualität wichtig) : Cohere embed-v4 oder OpenAI text-embedding-3-large
Produktiv (Budget wichtig) : BGE-M3 selbstgehostet
Mehrsprachig : Cohere embed-v4 oder BGE-M3
Code-Suche : Voyage code-2 oder OpenAI text-embedding-3-small
Datenschutzkritisch : BGE-M3 (MIT-Lizenz, selbstgehostet)
Enterprise (verrauschte Daten) : Cohere embed-v4
Migrationsstrategie
Ein Wechsel der embeddings erfordert ein vollständiges Re-Embedding :
DEVELOPERpython# Migration progressive def hybrid_search(query, old_index, new_index, alpha=0.5): # Rechercher dans les deux index old_results = old_index.search(old_model.encode(query)) new_results = new_index.search(new_model.encode(query)) # Fusionner les résultats return blend_rankings(old_results, new_results, alpha)
Das Embedding-Modell ist die Grundlage Ihres RAG. Wählen Sie mit Bedacht, benchmarken Sie sorgfältig und seien Sie bereit, Upgrades vorzunehmen, während die Modelle sich verbessern.
FAQ
Tags
Verwandte Artikel
Embeddings: Die Grundlagen der semantischen Suche
Tiefer Einblick in Embedding-Modelle, vektorielle Repräsentationen und wie Sie die richtige Embedding-Strategie für Ihr RAG-System wählen.
Mehrsprachige Embeddings für ein globales RAG
Erstellen Sie RAG-Systeme, die in allen Sprachen funktionieren, indem Sie Modelle für mehrsprachige Embeddings und cross-lingual retrieval einsetzen.
Feinabstimmung der Embeddings für Ihre Domäne
Steigern Sie die Abrufgenauigkeit um 30 %: Stimmen Sie die Embedding-Modelle auf Ihre spezifischen Dokumente und Abfragen ab.