News

Cohere bringt Embed v4 heraus: 30 % bessere Genauigkeit bei kleinerer Modellgröße

28. Oktober 2025
4 Min. Lesezeit
Équipe de Recherche Ailog

Das neue Embedding-Modell von Cohere bietet Spitzenleistungen im MTEB-Benchmark, reduziert dabei die Dimensionen von 1024 auf 768, senkt die Kosten und verbessert die Geschwindigkeit.

Ankündigung

Cohere hat Embed v4 veröffentlicht, ihr neuestes embedding-Modell, das deutliche Verbesserungen in Genauigkeit, Effizienz und mehrsprachiger Leistung erzielt.

Wichtige Verbesserungen

Leistungssteigerungen

MTEB-Werte (Massive Text Embedding Benchmark) :

ModellDimensionenDurchschnittl. ScoreRetrievalKlassifikation
Embed v3102464.252.371.8
Embed v476866.855.174.2
OpenAI ada-002153660.949.268.5
OpenAI text-3-large307264.654.670.1

Reduzierte Dimensionen

Der Wechsel von 1024 auf 768 Dimensionen bietet :

  • 25% weniger Speicher pro embedding
  • 20% schnellere Ähnlichkeitssuche
  • 15% niedrigere API-Kosten
  • Kein Genauigkeitsverlust (tatsächlich verbessert)

Mehrsprachige Exzellenz

Embed v4 unterstützt mehr als 100 Sprachen mit guten Ergebnissen :

  • Englisch : 68.2 (MTEB)
  • Chinesisch : 65.1
  • Spanisch : 64.8
  • Arabisch : 62.3
  • Hindi : 61.7

Die interlinguale retrieval (Anfrage in einer Sprache, Abruf in einer anderen) ist um 35% verbessert.

Technische Innovationen

Embeddings Matryoshka

Embed v4 verwendet Matryoshka Representation Learning, das eine flexible Dimensionsreduktion ermöglicht :

DEVELOPERpython
# Ein vollständiges embedding mit 768 Dimensionen erzeugen full_embedding = co.embed(texts=["texte exemple"], model="embed-v4") # Auf kleinere Dimensionen zuschneiden, ohne neu zu berechnen embedding_256 = full_embedding[:256] # Die ersten 256 Dims verwenden embedding_512 = full_embedding[:512] # Die ersten 512 Dims verwenden # Kompromiss: kleinere Größe vs. leichter Genauigkeitsverlust

Dimension vs. Genauigkeit :

  • 768 dims : 100% Genauigkeit (Referenz)
  • 512 dims : 98.5% Genauigkeit
  • 256 dims : 95.2% Genauigkeit
  • 128 dims : 89.1% Genauigkeit

Anweisungsbewusste embeddings

Embed v4 akzeptiert optionale Aufgabenanweisungen für eine bessere Domänenanpassung :

DEVELOPERpython
# Standard-embedding embedding = co.embed( texts=["Modèle d'apprentissage automatique"], model="embed-v4" ) # Mit Aufgabenanweisung für bessere Domänenanpassung embedding = co.embed( texts=["Modèle d'apprentissage automatique"], model="embed-v4", input_type="search_document", embedding_types=["float"] ) # Für Abfragen (anders als Dokumente) query_embedding = co.embed( texts=["Comment fonctionne le ML ?"], model="embed-v4", input_type="search_query" )

Verbesserungen im Training

Trainiert auf :

  • 1,2 Billionen token (3x mehr als v3)
  • Synthetische harte Negativbeispiele
  • Kontrastives Lernen mit dynamischem Batching
  • Multitask-Training auf über 50 Aufgaben

Preisgestaltung

Preis für Embed v4 (pro 1M token) :

  • embed-v4 : $0.10
  • embed-v4-light : $0.02 (384 dims, leicht geringere Genauigkeit)

Verglichen mit Konkurrenten :

  • OpenAI text-embedding-3-small : $0.02 (1536 dims)
  • OpenAI text-embedding-3-large : $0.13 (3072 dims)

Migrationsleitfaden

Migration von v3 auf v4 :

DEVELOPERpython
# Alt (v3) response = co.embed( texts=texts, model="embed-english-v3.0" ) # Neu (v4) response = co.embed( texts=texts, model="embed-v4", input_type="search_document" # Neuer Parameter )

Hinweis : Die embeddings v3 und v4 sind nicht kompatibel. Sie müssen Ihr gesamtes Korpus neu encodieren.

Anwendungsfälle

Embed v4 ist besonders stark in :

  • Mehrsprachige Suche : Bessere interlinguale retrieval
  • Code-Suche : Verbesserte semantische Verständnis des Codes
  • Domänenspezifisches RAG : Der Instruction-Parameter unterstützt die Domänenanpassung
  • Systeme in großem Maßstab : Reduzierte Dimensionen = geringere Kosten

Benchmarks

Retrieval-Aufgaben

Getestet auf dem BeIR-Benchmark (zero-shot retrieval) :

DatasetEmbed v3Embed v4Verbesserung
NQ52.856.3+6.6%
HotpotQA63.267.1+6.2%
FEVER75.379.8+6.0%
Climate-FEVER23.128.4+22.9%
SciFact66.271.8+8.5%

Klassifikation

Auf Standard-Benchmarks zur Textklassifikation :

  • Banking77 : 86.2% → 89.1% (+3.4%)
  • Amazon Reviews : 63.8% → 67.2% (+5.3%)
  • TREC : 91.3% → 93.7% (+2.6%)

Verfügbarkeit

  • Allgemein verfügbar über die Cohere API
  • Unterstützt in allen SDKs (Python, Node.js, Go, Java)
  • Demnächst auf AWS Bedrock und Azure
  • Selbstgehostete Option über Cohere Private Deployment

Best Practices

Auswahl der Dimensionen

  • 768 dims : Standard, beste Qualität
  • 512 dims : Guter Kompromiss für die meisten Anwendungsfälle
  • 256 dims : Kostenoptimiert, immer noch gute Leistung

Eingabetypen

  • search_document : Für indexierte Dokumente
  • search_query : Für Suchanfragen
  • classification : Für Klassifikationsaufgaben
  • clustering : Für Clustering-Aufgaben

Migrationsstrategie

  1. v4 mit Stichproben-Anfragen testen
  2. Die Retrieval-Qualität vergleichen
  3. Das Korpus schrittweise neu encodieren
  4. A/B-Tests während der Übergangsphase nutzen

Fazit

Embed v4 setzt einen neuen Standard für embedding-Modelle in der Produktion, indem es Spitzenpräzision mit praktischen Effizienzverbesserungen kombiniert. Die flexiblen Dimensionen durch Embeddings Matryoshka machen es geeignet für eine breite Palette von Einsatzszenarien und Budgets.

Tags

embeddingscoheremodèlesperformance

Verwandte Artikel

Ailog Assistant

Ici pour vous aider

Salut ! Pose-moi des questions sur Ailog et comment intégrer votre RAG dans vos projets !