Cohere bringt Embed v4 heraus: 30 % bessere Genauigkeit bei kleinerer Modellgröße
Das neue Embedding-Modell von Cohere bietet Spitzenleistungen im MTEB-Benchmark, reduziert dabei die Dimensionen von 1024 auf 768, senkt die Kosten und verbessert die Geschwindigkeit.
Ankündigung
Cohere hat Embed v4 veröffentlicht, ihr neuestes embedding-Modell, das deutliche Verbesserungen in Genauigkeit, Effizienz und mehrsprachiger Leistung erzielt.
Wichtige Verbesserungen
Leistungssteigerungen
MTEB-Werte (Massive Text Embedding Benchmark) :
| Modell | Dimensionen | Durchschnittl. Score | Retrieval | Klassifikation |
|---|---|---|---|---|
| Embed v3 | 1024 | 64.2 | 52.3 | 71.8 |
| Embed v4 | 768 | 66.8 | 55.1 | 74.2 |
| OpenAI ada-002 | 1536 | 60.9 | 49.2 | 68.5 |
| OpenAI text-3-large | 3072 | 64.6 | 54.6 | 70.1 |
Reduzierte Dimensionen
Der Wechsel von 1024 auf 768 Dimensionen bietet :
- 25% weniger Speicher pro embedding
- 20% schnellere Ähnlichkeitssuche
- 15% niedrigere API-Kosten
- Kein Genauigkeitsverlust (tatsächlich verbessert)
Mehrsprachige Exzellenz
Embed v4 unterstützt mehr als 100 Sprachen mit guten Ergebnissen :
- Englisch : 68.2 (MTEB)
- Chinesisch : 65.1
- Spanisch : 64.8
- Arabisch : 62.3
- Hindi : 61.7
Die interlinguale retrieval (Anfrage in einer Sprache, Abruf in einer anderen) ist um 35% verbessert.
Technische Innovationen
Embeddings Matryoshka
Embed v4 verwendet Matryoshka Representation Learning, das eine flexible Dimensionsreduktion ermöglicht :
DEVELOPERpython# Ein vollständiges embedding mit 768 Dimensionen erzeugen full_embedding = co.embed(texts=["texte exemple"], model="embed-v4") # Auf kleinere Dimensionen zuschneiden, ohne neu zu berechnen embedding_256 = full_embedding[:256] # Die ersten 256 Dims verwenden embedding_512 = full_embedding[:512] # Die ersten 512 Dims verwenden # Kompromiss: kleinere Größe vs. leichter Genauigkeitsverlust
Dimension vs. Genauigkeit :
- 768 dims : 100% Genauigkeit (Referenz)
- 512 dims : 98.5% Genauigkeit
- 256 dims : 95.2% Genauigkeit
- 128 dims : 89.1% Genauigkeit
Anweisungsbewusste embeddings
Embed v4 akzeptiert optionale Aufgabenanweisungen für eine bessere Domänenanpassung :
DEVELOPERpython# Standard-embedding embedding = co.embed( texts=["Modèle d'apprentissage automatique"], model="embed-v4" ) # Mit Aufgabenanweisung für bessere Domänenanpassung embedding = co.embed( texts=["Modèle d'apprentissage automatique"], model="embed-v4", input_type="search_document", embedding_types=["float"] ) # Für Abfragen (anders als Dokumente) query_embedding = co.embed( texts=["Comment fonctionne le ML ?"], model="embed-v4", input_type="search_query" )
Verbesserungen im Training
Trainiert auf :
- 1,2 Billionen token (3x mehr als v3)
- Synthetische harte Negativbeispiele
- Kontrastives Lernen mit dynamischem Batching
- Multitask-Training auf über 50 Aufgaben
Preisgestaltung
Preis für Embed v4 (pro 1M token) :
- embed-v4 : $0.10
- embed-v4-light : $0.02 (384 dims, leicht geringere Genauigkeit)
Verglichen mit Konkurrenten :
- OpenAI text-embedding-3-small : $0.02 (1536 dims)
- OpenAI text-embedding-3-large : $0.13 (3072 dims)
Migrationsleitfaden
Migration von v3 auf v4 :
DEVELOPERpython# Alt (v3) response = co.embed( texts=texts, model="embed-english-v3.0" ) # Neu (v4) response = co.embed( texts=texts, model="embed-v4", input_type="search_document" # Neuer Parameter )
Hinweis : Die embeddings v3 und v4 sind nicht kompatibel. Sie müssen Ihr gesamtes Korpus neu encodieren.
Anwendungsfälle
Embed v4 ist besonders stark in :
- Mehrsprachige Suche : Bessere interlinguale retrieval
- Code-Suche : Verbesserte semantische Verständnis des Codes
- Domänenspezifisches RAG : Der Instruction-Parameter unterstützt die Domänenanpassung
- Systeme in großem Maßstab : Reduzierte Dimensionen = geringere Kosten
Benchmarks
Retrieval-Aufgaben
Getestet auf dem BeIR-Benchmark (zero-shot retrieval) :
| Dataset | Embed v3 | Embed v4 | Verbesserung |
|---|---|---|---|
| NQ | 52.8 | 56.3 | +6.6% |
| HotpotQA | 63.2 | 67.1 | +6.2% |
| FEVER | 75.3 | 79.8 | +6.0% |
| Climate-FEVER | 23.1 | 28.4 | +22.9% |
| SciFact | 66.2 | 71.8 | +8.5% |
Klassifikation
Auf Standard-Benchmarks zur Textklassifikation :
- Banking77 : 86.2% → 89.1% (+3.4%)
- Amazon Reviews : 63.8% → 67.2% (+5.3%)
- TREC : 91.3% → 93.7% (+2.6%)
Verfügbarkeit
- Allgemein verfügbar über die Cohere API
- Unterstützt in allen SDKs (Python, Node.js, Go, Java)
- Demnächst auf AWS Bedrock und Azure
- Selbstgehostete Option über Cohere Private Deployment
Best Practices
Auswahl der Dimensionen
- 768 dims : Standard, beste Qualität
- 512 dims : Guter Kompromiss für die meisten Anwendungsfälle
- 256 dims : Kostenoptimiert, immer noch gute Leistung
Eingabetypen
search_document: Für indexierte Dokumentesearch_query: Für Suchanfragenclassification: Für Klassifikationsaufgabenclustering: Für Clustering-Aufgaben
Migrationsstrategie
- v4 mit Stichproben-Anfragen testen
- Die Retrieval-Qualität vergleichen
- Das Korpus schrittweise neu encodieren
- A/B-Tests während der Übergangsphase nutzen
Fazit
Embed v4 setzt einen neuen Standard für embedding-Modelle in der Produktion, indem es Spitzenpräzision mit praktischen Effizienzverbesserungen kombiniert. Die flexiblen Dimensionen durch Embeddings Matryoshka machen es geeignet für eine breite Palette von Einsatzszenarien und Budgets.
Tags
Verwandte Artikel
Beste Embedding-Modelle 2025: MTEB-Scores & Leaderboard (Cohere, OpenAI, BGE)
Vergleichen Sie die MTEB-Scores der besten Embedding-Modelle: Cohere embed-v4 (65.2), OpenAI text-3-large (64.6), BGE-M3 (63.0). Vollständiges Leaderboard mit Preisen.
Fortgeschrittene Chunking-Strategien für RAG-Systeme im Jahr 2025
Jüngste Forschungen zeigen neue Ansätze zum Dokumenten-Chunking, die die Leistung von RAG-Systemen signifikant verbessern.
Weaviate führt die hybride Suche 2.0 mit 60 % schnelleren Abfragezeiten ein
Die neue hybride Suchmaschine von Weaviate kombiniert BM25, vector search und learned ranking in einem einzigen, optimierten Index für ein besseres RAG Retrieval.