3. EmbeddingFortgeschritten

Beste Embedding-Modelle 2025: MTEB-Scores & Leaderboard (Cohere, OpenAI, BGE)

8. April 2026
11 Minuten Lesezeit
Ailog Research Team

Vergleichen Sie die MTEB-Scores der besten Embedding-Modelle: Cohere embed-v4 (65.2), OpenAI text-3-large (64.6), BGE-M3 (63.0). Vollständiges Leaderboard mit Preisen.

MTEB Leaderboard 2025 & 2026 - Top Embedding-Modelle

Schnellreferenztabelle mit MTEB-Scores für alle wichtigen Embedding-Modelle (aktualisiert April 2026):

RangModellMTEB-ScoreDimensionenPreis/1M TokensAm besten für
1Harrier-OSS-v1-27B74.3 (v2)5376Kostenlos (MIT)SOTA mehrsprachig
2Gemini Embedding 268.323072$0.20Multimodal, bestes Retrieval
3Jina v5-text-small71.7 (v2)1024Kostenlos (Apache)Bestes Qualität/Größe-Verhältnis
4Qwen3-Embedding-8B70.584096Kostenlos (Apache)Bestes Open-Source mehrsprachig
5Voyage 4 Large~66.82048$0.12Geteilter Embedding-Raum, MoE
6Cohere Embed v465.21536$0.12Enterprise, 128K Kontext
7OpenAI text-embedding-3-large64.63072$0.13Allgemeiner Einsatz
8BGE-M363.01024Kostenlos (MIT)Budget Selbsthosting
9Nomic-embed-text-v1.559.4768$0.05Begrenztes Budget
10all-MiniLM-L6-v256.3384KostenlosSchnelles Prototyping

Hinweis: MTEB v2 (2026) Scores sind nicht direkt mit MTEB v1 vergleichbar. Modelle mit (v2) verwenden den neuen Benchmark. Quelle: MTEB Leaderboard, April 2026.


Was sich im Q1 2026 geändert hat

Die Embedding-Landschaft hat sich Anfang 2026 mit vier großen Veröffentlichungen dramatisch verändert:

Gemini Embedding 2 (März 2026) — Erstes multimodales Embedding

Googles Durchbruch: ein einzelnes Modell, das Text, Bilder, Video, Audio und PDFs in einen gemeinsamen 3.072-dimensionalen Vektorraum einbettet. Führt Retrieval-Benchmarks mit 67.71 MTEB-Retrieval-Score an.

  • Cross-linguales Retrieval: 0.997 (höchster Wert aller Modelle)
  • Code-Retrieval: 84.0 auf MTEB Code
  • Matryoshka: reduzierbar auf 128/768/1536 Dims
  • Preis: $0.20/M Text-Tokens, $0.10/M Batch

Microsoft Harrier-OSS-v1 (März 2026) — SOTA mehrsprachig

Drei MIT-lizenzierte Modelle mit neuen multilingualen Rekorden:

  • 270M (640 Dims, MTEB v2: 66.5)
  • 0.6B (1024 Dims, MTEB v2: 69.0)
  • 27B (5376 Dims, MTEB v2: 74.3 — SOTA)

94 Sprachen, 32K Kontext. Benötigt 80GB+ VRAM für 27B.

Voyage 4 Familie (Januar 2026) — Geteilter Embedding-Raum

Branchenweit erstmalig: verschiedene Modelle für Abfragen vs. Dokumente können denselben Vektorraum teilen. MoE-Architektur senkt Serving-Kosten um 40%.

  • Modelle: voyage-4-large, voyage-4, voyage-4-lite, voyage-4-nano (Apache 2.0)
  • Beansprucht +14% gegenüber OpenAI 3-large auf RTEB
  • 200M kostenlose Tokens inklusive

Jina v5-text (Februar 2026) — Destillierte Qualität

Sub-1B-Modelle, die 8B-Qualität durch Destillation erreichen:

  • v5-text-small (677M): MTEB v2 = 71.7, 119+ Sprachen
  • v5-text-nano (239M): MTEB v2 = 71.0
  • Aufgabenspezifische Modellversionen (Retrieval, Text-Matching, Klassifikation)

Etablierte Modelle — Aktueller Status

Cohere Embed v4 (Ende 2025)

  • Jetzt 1536 Dims (statt 1024 in v3), 128K Token-Kontext (längster)
  • Multimodal: Text + Bilder, verschachtelt
  • Matryoshka: 256, 512, 1024, 1536 Dims
  • Preis: $0.12/M Tokens

OpenAI text-embedding-3-large (Januar 2024)

  • Kein Update seit über 2 Jahren. Jetzt auf Rang ~7-9 je nach Benchmark.
  • Weiterhin solide für allgemeinen Einsatz im OpenAI-Ökosystem
  • Preis: $0.13/M Tokens

Qwen3-Embedding-8B (2025)

  • Apache 2.0, 100+ Sprachen, 4096 Dims
  • Multimodale Varianten verfügbar (Qwen3-VL-Embedding)
  • Vollständig selbst hostbar

BGE-M3 (2024)

  • MIT-Lizenz, 1024 Dims, Multi-Granularität (Dense + Sparse + Multi-Vector)
  • Bleibt die Budget-Referenz für Selbsthosting

Entscheidende Faktoren

1. Genauigkeit vs. Kosten

DEVELOPERpython
# Beste Genauigkeit: Gemini Embedding 2 import google.generativeai as genai result = genai.embed_content( model="models/gemini-embedding-2", content="Your text here" ) embedding = result['embedding'] # Budget-Option: Open-Source from sentence_transformers import SentenceTransformer model = SentenceTransformer('BAAI/bge-m3') embedding = model.encode("Your text here")

2. Dimensionsgröße

Kleiner = schneller, weniger Speicher, aber weniger präzise

DEVELOPERpython
# OpenAI: Konfigurierbare Dimensionen response = client.embeddings.create( model="text-embedding-3-large", input="text", dimensions=512 # vs Standard 3072 )

3. Sprachunterstützung

Mehrsprachige Leader (2026):

  • Microsoft Harrier-OSS-v1: 94 Sprachen (MIT)
  • Cohere embed-v4: 100+ Sprachen
  • BGE-M3: 100+ Sprachen
  • Jina v5-text: 119+ Sprachen

4. Domänenspezialisierung

Code: Voyage code-3, Gemini Embedding 2 (MTEB Code: 84.0) Recht: BGE oder Qwen3 feinjustiert auf juristische Korpora Medizin: BioGPT Embeddings, PubMedBERT

Matryoshka Embeddings (Standard in 2026)

Matryoshka Representation Learning ist jetzt Industriestandard. Die meisten neuen Modelle unterstützen variable Dimensionen aus einem einzelnen Embedding:

DEVELOPERpython
# Einmal in voller Dimension erzeugen full_embedding = model.encode(text, dimension=3072) # Später nach Bedarf kürzen small_embedding = full_embedding[:256] medium_embedding = full_embedding[:768] # Qualität degradiert graduell, nicht abrupt

Modelle mit Matryoshka-Unterstützung (2026): Gemini Embedding 2, Voyage 4, Cohere v4, OpenAI text-3-*, Jina v5, Microsoft Harrier, Nomic v1.5.

Ihren Use-Case benchmarken

Vertrauen Sie nicht auf generische Benchmarks — testen Sie mit IHREN Daten:

DEVELOPERpython
from sentence_transformers import SentenceTransformer, util def benchmark_model(model_name, queries, documents): model = SentenceTransformer(model_name) query_embs = model.encode(queries) doc_embs = model.encode(documents) similarities = util.cos_sim(query_embs, doc_embs) return similarities models = [ "BAAI/bge-m3", "Qwen/Qwen3-Embedding-8B", "jinaai/jina-embeddings-v5-text-small" ] for model in models: scores = benchmark_model(model, test_queries, test_docs) print(f"{model}: {scores.mean()}")

Fine-Tuning für Ihren Bereich

DEVELOPERpython
from sentence_transformers import SentenceTransformer, InputExample, losses from torch.utils.data import DataLoader model = SentenceTransformer('BAAI/bge-base-en-v1.5') train_examples = [ InputExample(texts=['query', 'positive_doc', 'negative_doc']) ] train_dataloader = DataLoader(train_examples, shuffle=True, batch_size=16) train_loss = losses.MultipleNegativesRankingLoss(model) model.fit( train_objectives=[(train_dataloader, train_loss)], epochs=1, warmup_steps=100 )

Kostenanalyse (1M Dokumente, April 2026)

ModellEmbedding-KostenSpeicherungInferenz
Gemini Embedding 2~$200$50/Monat$0.20/M Anfragen
Voyage 4 Large~$120$50/Monat$0.12/M Anfragen
Cohere v4~$120$50/Monat$0.12/M Anfragen
OpenAI-3-large$130$50/Monat$0.13/M Anfragen
Jina v5-small (selbstgehostet)$0$30/MonatGPU: $80/Monat
Qwen3-8B (selbstgehostet)$0$50/MonatGPU: $100/Monat
BGE-M3 (selbstgehostet)$0$30/MonatGPU: $50/Monat
all-MiniLM$0$20/MonatCPU: $20/Monat

Empfehlungen nach Anwendungsfall

Startup/MVP: all-MiniLM-L6-v2 (kostenlos, schnell) oder Jina v5-nano (kostenlos, deutlich bessere Qualität) Produktion (Qualität): Gemini Embedding 2 oder Voyage 4 Large Produktion (Budget): BGE-M3 oder Jina v5-small selbstgehostet Mehrsprachig: Microsoft Harrier-OSS-v1 (MIT, SOTA) oder Cohere embed-v4 Multimodal (Text + Bilder): Gemini Embedding 2 oder Cohere embed-v4 Code-Suche: Gemini Embedding 2 (MTEB Code: 84.0) oder Voyage code-3 Datenschutzkritisch: Qwen3-Embedding-8B (Apache 2.0) oder BGE-M3 (MIT) Enterprise (128K Kontext): Cohere embed-v4

Migrationsstrategie

Ein Wechsel der Embeddings erfordert vollständiges Re-Embedding:

DEVELOPERpython
# Schrittweise Migration def hybrid_search(query, old_index, new_index, alpha=0.5): old_results = old_index.search(old_model.encode(query)) new_results = new_index.search(new_model.encode(query)) return blend_rankings(old_results, new_results, alpha)

Das Embedding-Modell ist das Fundament Ihres RAG. Wählen Sie mit Bedacht, benchmarken Sie sorgfältig und seien Sie bereit für Upgrades.

FAQ

Gemini Embedding 2 führt die Retrieval-Benchmarks an (67.71 MTEB Retrieval) und ist das erste Modell, das Text, Bilder, Video, Audio und PDFs in einem Modell verarbeitet. Für Selbsthosting bieten Qwen3-Embedding-8B (Apache 2.0) und Jina v5-text-small hervorragende Qualität ohne API-Kosten.
Es bleibt solide, wurde aber seit Januar 2024 nicht aktualisiert. Gemini Embedding 2, Voyage 4 und Open-Source-Modelle wie Jina v5 und Qwen3 übertreffen es auf den meisten Benchmarks. Innerhalb des OpenAI-Ökosystems noch sinnvoll; sonst bieten neuere Optionen besseres Preis-Leistungs-Verhältnis.
Jina v5-text-small (677M Params, MTEB v2: 71.7, Apache 2.0) bietet das beste Qualität-zu-Größe-Verhältnis. Für größere Anforderungen sind Qwen3-Embedding-8B (70.58) und Microsoft Harrier-OSS-v1 (MIT, MTEB v2: 74.3 für das 27B-Modell) starke Optionen.
Berücksichtigen Sie: (1) Genauigkeitsanforderungen, (2) Sprachunterstützung, (3) Kostenbeschränkungen, (4) Latenzanforderungen, (5) multimodale Anforderungen (neu in 2026). Benchmarken Sie mit IHREN Daten — generische Scores übertragen sich nicht immer.
Fine-Tuning zeigt +10-30% Verbesserung für spezialisierte Domänen (Recht, Medizin, Code). Starten Sie mit einem vortrainierten Modell, fine-tunen Sie bei Bedarf. Die meisten neuen Modelle (Jina v5, Qwen3) unterstützen effizientes Fine-Tuning.

Tags

embeddingsmodelsbenchmarksmtebopenaicoherebge-m32025leaderboard

Verwandte Artikel

Ailog Assistant

Ici pour vous aider

Salut ! Pose-moi des questions sur Ailog et comment intégrer votre RAG dans vos projets !