News

Claude 3.5 Sonnet für RAG optimiert: Kontextfenster 500K und erweitertes Denken

2. November 2025
5 Minuten Lesezeit
Équipe de Recherche Ailog

Anthropic veröffentlicht Claude 3.5 Sonnet mit erweitertem Kontextfenster, verbesserter Zitiergenauigkeit und neuen RAG-spezifischen Funktionen für Unternehmensanwendungen.

Ankündigung

Anthropic hat eine aktualisierte Version von Claude 3.5 Sonnet veröffentlicht mit Funktionen, die speziell für RAG-Anwendungen entwickelt wurden, einschließlich eines Kontextfensters von 500K tokens und verbesserten Zitierfähigkeiten.

Hauptfunktionen

Erweitertes Kontextfenster

Kontextfenster erweitert auf 500K tokens (etwa 1,5 Millionen Zeichen) :

Das ermöglicht :

  • Ganze Codebasen im Kontext (~150K Codezeilen)
  • Vollständige wissenschaftliche Artikel mit Referenzen
  • Vollständige juristische Dokumente
  • Konversationsverläufe eines Monats

Preisgestaltung :

  • Eingabe : $3,00 pro Million tokens
  • Ausgabe : $15,00 pro Million tokens
  • Identisch zur 200K-Version (kein Aufpreis für die zusätzliche Kapazität)

RAG-spezifische Verbesserungen

Verbesserte Genauigkeit von Zitaten

Claude 3.5 enthält jetzt exakte Zitate von Passagen :

Requête : "Quelle est la politique de remboursement ?"

Réponse : "Selon notre politique de remboursement [1], les clients peuvent demander
un remboursement complet dans les 30 jours suivant l'achat [2]."

Sources :
[1] Politique du Service Client, Section 4.2, Page 12
[2] Conditions d'utilisation, Article 8, Dernière mise à jour : 2025-10-15

Die Genauigkeit der Zitate stieg in internen Benchmarks von 78% auf 94%.

Kontextuelle Erkennung von Halluzinationen

Neuer Parameter analyze_faithfulness :

DEVELOPERpython
response = anthropic.messages.create( model="claude-3-5-sonnet-20251101", messages=[{"role": "user", "content": prompt}], analyze_faithfulness=True # Neuer Parameter ) # Gibt einen Faithfulness-Score zurück print(response.faithfulness_score) # 0.0-1.0

Hilft zu erkennen, wann das Modell Informationen erzeugt, die nicht im bereitgestellten Kontext vorhanden sind.

Schlussfolgerungen über mehrere Dokumente

Besser beim Zusammenfassen von Informationen über viele Dokumente hinweg :

  • Getestet mit dem Benchmark MultiDoc
  • Verbesserung von 15% bei Inter-Dokument Q&A
  • Verarbeitet bis zu 100 effizient abgerufene chunks

Leistungsbenchmarks

RAG-spezifische Tests

Getestet mit dem Benchmark RAG-Truth (Quellentreue) :

ModellQuellentreueAntwortqualitätZitate
GPT-4 Turbo82.3%78.5%71.2%
Claude 3 Opus88.7%81.3%78.4%
Claude 3.5 Sonnet93.8%85.1%94.2%

Leistung im Langkontext

Needle-in-haystack-Test (spezifische Informationen in einem langen Kontext finden) :

  • 100K tokens : 99,2% Genauigkeit
  • 200K tokens : 98,7% Genauigkeit
  • 350K tokens : 97,1% Genauigkeit
  • 500K tokens : 95,3% Genauigkeit

Die Leistung verschlechtert sich progressiv, selbst beim maximalen Fenster.

Erweiterter Denkmodus

Neue experimentelle Funktion für komplexe RAG-Anfragen :

DEVELOPERpython
response = anthropic.messages.create( model="claude-3-5-sonnet-20251101", messages=[{"role": "user", "content": complex_query}], extended_thinking=True, # Aktiviert die Kette des Denkens max_tokens=4096 ) # Modell zeigt den Denkprozess print(response.thinking) # Interne Denk-Schritte print(response.answer) # Endgültige Antwort

Verbessert die Genauigkeit bei mehrstufigen Fragen um 23% , erhöht jedoch die Latenz um das 2–3-fache.

Unternehmensfunktionen

Batch-Verarbeitung

Verarbeitung großer RAG-Workloads mit 50% Einsparung :

DEVELOPERpython
# Einen Batch-Job einreichen batch = anthropic.batches.create( requests=[ {"model": "claude-3-5-sonnet-20251101", "messages": msgs1}, {"model": "claude-3-5-sonnet-20251101", "messages": msgs2}, # ... bis zu 10.000 Anfragen ] ) # Status prüfen status = anthropic.batches.retrieve(batch.id) # Ergebnisse abrufen (innerhalb von 24 Stunden verfügbar) results = anthropic.batches.results(batch.id)

Kontext-Caching

Kosten für wiederholten Kontext reduzieren :

DEVELOPERpython
# Erste Anfrage : voller Preis response1 = anthropic.messages.create( model="claude-3-5-sonnet-20251101", messages=[...], system="Grand prompt système...", # 10K tokens enable_caching=True ) # Folgende Anfragen : 90% Rabatt auf den zwischengespeicherten Inhalt response2 = anthropic.messages.create( model="claude-3-5-sonnet-20251101", messages=[...], system="Grand prompt système...", # Dieselben 10K tokens, im Cache enable_caching=True )

Der Cache bleibt 5 Minuten bestehen. Ideal für RAG, wenn der Kontext zwischen Anfragen konstant bleibt.

Anwendungsfälle

Claude 3.5 Sonnet RAG ist besonders geeignet für :

Juristische Recherche

  • Ganze Akten analysieren
  • Querverweise zu Präzedenzfällen erstellen
  • Schriftsätze mit Zitaten generieren

Wissenschaftliche Recherche

  • Mehrere Artikel gleichzeitig prüfen
  • Ergebnisse über Studien hinweg extrahieren
  • Literaturübersichten erstellen

Technische Dokumentation

  • Fragen über große Codebasen beantworten
  • Präzise Codeverweise liefern
  • Komplexe Systeminteraktionen erklären

Kundensupport

  • Vollständiger Zugriff auf das Knowledge Base
  • Präzise Zitierung von Richtlinien
  • Mehrtürige Konversationen mit Kontext

Migrationsleitfaden

Upgrade von Claude 3 Opus :

DEVELOPERpython
# Alt response = anthropic.messages.create( model="claude-3-opus-20240229", max_tokens=1024, messages=messages ) # Neu response = anthropic.messages.create( model="claude-3-5-sonnet-20251101", # Aktualisierte Modell-ID max_tokens=1024, messages=messages, analyze_faithfulness=True, # Optional: Aktivieren des Faithfulness-Scorings enable_caching=True # Optional: System-Prompts cachen )

Einschränkungen

Latence

  • Kontext 500K : Antwortzeit de 5–10s
  • Erweiterter Denkmodus : Antwortzeit de 10–30s
  • Nicht geeignet für Echtzeitanwendungen

Coûts

  • Kontext 500K kostet $1,50 Eingabe pro Anfrage
  • Großes Kontextfenster = teuer im großen Maßstab
  • Verwenden Sie Caching und Batch-Verarbeitung zur Abschwächung

Traitement du contexte

  • Das Modell liest jedes Mal den gesamten Kontext
  • Keine inkrementellen Aktualisierungen
  • Erwägen Sie chunking für sehr lange Dokumente

Best Practices

  1. Caching verwenden : Aktivieren für wiederholte Kontexte (System-Prompts voor RAG)
  2. Batch-Verarbeitung, wenn möglich : 50% Einsparung für Offline-Workloads
  3. Faithfulness aktivieren : Überwachen Sie das Halluzinationsrisiko
  4. Prompts optimieren : Kürzere Prompts = geringere Kosten
  5. Kontextgrenzen testen : Die Genauigkeit nimmt jenseits von 400K tokens ab

Verfügbarkeit

  • Jetzt verfügbar über die Anthropic API
  • Kommt zu AWS Bedrock (November)
  • Kommt zu Google Cloud Vertex AI (Dezember)
  • Noch nicht in der Claude-Weboberfläche verfügbar

Fazit

Die RAG-spezifischen Optimierungen von Claude 3.5 Sonnet machen es zu einer ausgezeichneten Wahl für unternehmensweite Retrieval-Anwendungen, bei denen Genauigkeit und Attribution entscheidend sind. Die Kombination aus großem Kontextfenster, Zitierfähigkeiten und Kostenkontrollen positioniert es als starken Wettbewerber für produktive RAG-Systeme.

Tags

ClaudeAnthropiccontext windowLLM

Verwandte Artikel

Ailog Assistant

Ici pour vous aider

Salut ! Pose-moi des questions sur Ailog et comment intégrer votre RAG dans vos projets !