Beste Embedding-Modelle 2025: MTEB-Scores & Leaderboard (Cohere, OpenAI, BGE)
Vergleichen Sie die MTEB-Scores der besten Embedding-Modelle: Cohere embed-v4 (65.2), OpenAI text-3-large (64.6), BGE-M3 (63.0). Vollständiges Leaderboard mit Preisen.
MTEB Leaderboard 2025 & 2026 - Top Embedding-Modelle
Schnellreferenztabelle mit MTEB-Scores für alle wichtigen Embedding-Modelle (aktualisiert April 2026):
| Rang | Modell | MTEB-Score | Dimensionen | Preis/1M Tokens | Am besten für |
|---|---|---|---|---|---|
| 1 | Harrier-OSS-v1-27B | 74.3 (v2) | 5376 | Kostenlos (MIT) | SOTA mehrsprachig |
| 2 | Gemini Embedding 2 | 68.32 | 3072 | $0.20 | Multimodal, bestes Retrieval |
| 3 | Jina v5-text-small | 71.7 (v2) | 1024 | Kostenlos (Apache) | Bestes Qualität/Größe-Verhältnis |
| 4 | Qwen3-Embedding-8B | 70.58 | 4096 | Kostenlos (Apache) | Bestes Open-Source mehrsprachig |
| 5 | Voyage 4 Large | ~66.8 | 2048 | $0.12 | Geteilter Embedding-Raum, MoE |
| 6 | Cohere Embed v4 | 65.2 | 1536 | $0.12 | Enterprise, 128K Kontext |
| 7 | OpenAI text-embedding-3-large | 64.6 | 3072 | $0.13 | Allgemeiner Einsatz |
| 8 | BGE-M3 | 63.0 | 1024 | Kostenlos (MIT) | Budget Selbsthosting |
| 9 | Nomic-embed-text-v1.5 | 59.4 | 768 | $0.05 | Begrenztes Budget |
| 10 | all-MiniLM-L6-v2 | 56.3 | 384 | Kostenlos | Schnelles Prototyping |
Hinweis: MTEB v2 (2026) Scores sind nicht direkt mit MTEB v1 vergleichbar. Modelle mit (v2) verwenden den neuen Benchmark. Quelle: MTEB Leaderboard, April 2026.
Was sich im Q1 2026 geändert hat
Die Embedding-Landschaft hat sich Anfang 2026 mit vier großen Veröffentlichungen dramatisch verändert:
Gemini Embedding 2 (März 2026) — Erstes multimodales Embedding
Googles Durchbruch: ein einzelnes Modell, das Text, Bilder, Video, Audio und PDFs in einen gemeinsamen 3.072-dimensionalen Vektorraum einbettet. Führt Retrieval-Benchmarks mit 67.71 MTEB-Retrieval-Score an.
- Cross-linguales Retrieval: 0.997 (höchster Wert aller Modelle)
- Code-Retrieval: 84.0 auf MTEB Code
- Matryoshka: reduzierbar auf 128/768/1536 Dims
- Preis: $0.20/M Text-Tokens, $0.10/M Batch
Microsoft Harrier-OSS-v1 (März 2026) — SOTA mehrsprachig
Drei MIT-lizenzierte Modelle mit neuen multilingualen Rekorden:
- 270M (640 Dims, MTEB v2: 66.5)
- 0.6B (1024 Dims, MTEB v2: 69.0)
- 27B (5376 Dims, MTEB v2: 74.3 — SOTA)
94 Sprachen, 32K Kontext. Benötigt 80GB+ VRAM für 27B.
Voyage 4 Familie (Januar 2026) — Geteilter Embedding-Raum
Branchenweit erstmalig: verschiedene Modelle für Abfragen vs. Dokumente können denselben Vektorraum teilen. MoE-Architektur senkt Serving-Kosten um 40%.
- Modelle: voyage-4-large, voyage-4, voyage-4-lite, voyage-4-nano (Apache 2.0)
- Beansprucht +14% gegenüber OpenAI 3-large auf RTEB
- 200M kostenlose Tokens inklusive
Jina v5-text (Februar 2026) — Destillierte Qualität
Sub-1B-Modelle, die 8B-Qualität durch Destillation erreichen:
- v5-text-small (677M): MTEB v2 = 71.7, 119+ Sprachen
- v5-text-nano (239M): MTEB v2 = 71.0
- Aufgabenspezifische Modellversionen (Retrieval, Text-Matching, Klassifikation)
Etablierte Modelle — Aktueller Status
Cohere Embed v4 (Ende 2025)
- Jetzt 1536 Dims (statt 1024 in v3), 128K Token-Kontext (längster)
- Multimodal: Text + Bilder, verschachtelt
- Matryoshka: 256, 512, 1024, 1536 Dims
- Preis: $0.12/M Tokens
OpenAI text-embedding-3-large (Januar 2024)
- Kein Update seit über 2 Jahren. Jetzt auf Rang ~7-9 je nach Benchmark.
- Weiterhin solide für allgemeinen Einsatz im OpenAI-Ökosystem
- Preis: $0.13/M Tokens
Qwen3-Embedding-8B (2025)
- Apache 2.0, 100+ Sprachen, 4096 Dims
- Multimodale Varianten verfügbar (Qwen3-VL-Embedding)
- Vollständig selbst hostbar
BGE-M3 (2024)
- MIT-Lizenz, 1024 Dims, Multi-Granularität (Dense + Sparse + Multi-Vector)
- Bleibt die Budget-Referenz für Selbsthosting
Entscheidende Faktoren
1. Genauigkeit vs. Kosten
DEVELOPERpython# Beste Genauigkeit: Gemini Embedding 2 import google.generativeai as genai result = genai.embed_content( model="models/gemini-embedding-2", content="Your text here" ) embedding = result['embedding'] # Budget-Option: Open-Source from sentence_transformers import SentenceTransformer model = SentenceTransformer('BAAI/bge-m3') embedding = model.encode("Your text here")
2. Dimensionsgröße
Kleiner = schneller, weniger Speicher, aber weniger präzise
DEVELOPERpython# OpenAI: Konfigurierbare Dimensionen response = client.embeddings.create( model="text-embedding-3-large", input="text", dimensions=512 # vs Standard 3072 )
3. Sprachunterstützung
Mehrsprachige Leader (2026):
- Microsoft Harrier-OSS-v1: 94 Sprachen (MIT)
- Cohere embed-v4: 100+ Sprachen
- BGE-M3: 100+ Sprachen
- Jina v5-text: 119+ Sprachen
4. Domänenspezialisierung
Code: Voyage code-3, Gemini Embedding 2 (MTEB Code: 84.0) Recht: BGE oder Qwen3 feinjustiert auf juristische Korpora Medizin: BioGPT Embeddings, PubMedBERT
Matryoshka Embeddings (Standard in 2026)
Matryoshka Representation Learning ist jetzt Industriestandard. Die meisten neuen Modelle unterstützen variable Dimensionen aus einem einzelnen Embedding:
DEVELOPERpython# Einmal in voller Dimension erzeugen full_embedding = model.encode(text, dimension=3072) # Später nach Bedarf kürzen small_embedding = full_embedding[:256] medium_embedding = full_embedding[:768] # Qualität degradiert graduell, nicht abrupt
Modelle mit Matryoshka-Unterstützung (2026): Gemini Embedding 2, Voyage 4, Cohere v4, OpenAI text-3-*, Jina v5, Microsoft Harrier, Nomic v1.5.
Ihren Use-Case benchmarken
Vertrauen Sie nicht auf generische Benchmarks — testen Sie mit IHREN Daten:
DEVELOPERpythonfrom sentence_transformers import SentenceTransformer, util def benchmark_model(model_name, queries, documents): model = SentenceTransformer(model_name) query_embs = model.encode(queries) doc_embs = model.encode(documents) similarities = util.cos_sim(query_embs, doc_embs) return similarities models = [ "BAAI/bge-m3", "Qwen/Qwen3-Embedding-8B", "jinaai/jina-embeddings-v5-text-small" ] for model in models: scores = benchmark_model(model, test_queries, test_docs) print(f"{model}: {scores.mean()}")
Fine-Tuning für Ihren Bereich
DEVELOPERpythonfrom sentence_transformers import SentenceTransformer, InputExample, losses from torch.utils.data import DataLoader model = SentenceTransformer('BAAI/bge-base-en-v1.5') train_examples = [ InputExample(texts=['query', 'positive_doc', 'negative_doc']) ] train_dataloader = DataLoader(train_examples, shuffle=True, batch_size=16) train_loss = losses.MultipleNegativesRankingLoss(model) model.fit( train_objectives=[(train_dataloader, train_loss)], epochs=1, warmup_steps=100 )
Kostenanalyse (1M Dokumente, April 2026)
| Modell | Embedding-Kosten | Speicherung | Inferenz |
|---|---|---|---|
| Gemini Embedding 2 | ~$200 | $50/Monat | $0.20/M Anfragen |
| Voyage 4 Large | ~$120 | $50/Monat | $0.12/M Anfragen |
| Cohere v4 | ~$120 | $50/Monat | $0.12/M Anfragen |
| OpenAI-3-large | $130 | $50/Monat | $0.13/M Anfragen |
| Jina v5-small (selbstgehostet) | $0 | $30/Monat | GPU: $80/Monat |
| Qwen3-8B (selbstgehostet) | $0 | $50/Monat | GPU: $100/Monat |
| BGE-M3 (selbstgehostet) | $0 | $30/Monat | GPU: $50/Monat |
| all-MiniLM | $0 | $20/Monat | CPU: $20/Monat |
Empfehlungen nach Anwendungsfall
Startup/MVP: all-MiniLM-L6-v2 (kostenlos, schnell) oder Jina v5-nano (kostenlos, deutlich bessere Qualität) Produktion (Qualität): Gemini Embedding 2 oder Voyage 4 Large Produktion (Budget): BGE-M3 oder Jina v5-small selbstgehostet Mehrsprachig: Microsoft Harrier-OSS-v1 (MIT, SOTA) oder Cohere embed-v4 Multimodal (Text + Bilder): Gemini Embedding 2 oder Cohere embed-v4 Code-Suche: Gemini Embedding 2 (MTEB Code: 84.0) oder Voyage code-3 Datenschutzkritisch: Qwen3-Embedding-8B (Apache 2.0) oder BGE-M3 (MIT) Enterprise (128K Kontext): Cohere embed-v4
Migrationsstrategie
Ein Wechsel der Embeddings erfordert vollständiges Re-Embedding:
DEVELOPERpython# Schrittweise Migration def hybrid_search(query, old_index, new_index, alpha=0.5): old_results = old_index.search(old_model.encode(query)) new_results = new_index.search(new_model.encode(query)) return blend_rankings(old_results, new_results, alpha)
Das Embedding-Modell ist das Fundament Ihres RAG. Wählen Sie mit Bedacht, benchmarken Sie sorgfältig und seien Sie bereit für Upgrades.
FAQ
Tags
Verwandte Artikel
Embeddings: Die Grundlagen der semantischen Suche
Tiefer Einblick in Embedding-Modelle, vektorielle Repräsentationen und wie Sie die richtige Embedding-Strategie für Ihr RAG-System wählen.
Mehrsprachige Embeddings für ein globales RAG
Erstellen Sie RAG-Systeme, die in allen Sprachen funktionieren, indem Sie Modelle für mehrsprachige Embeddings und cross-lingual retrieval einsetzen.
Feinabstimmung der Embeddings für Ihre Domäne
Steigern Sie die Abrufgenauigkeit um 30 %: Stimmen Sie die Embedding-Modelle auf Ihre spezifischen Dokumente und Abfragen ab.