News

API Anthropic: Neue RAG-Funktionen

29. April 2026
6 Minuten Lesezeit
Equipe Ailog

Anthropic erweitert seine API Claude mit nativen Funktionen für RAG: automatische Zitate, erweiterter Kontext und verbesserte tool use.

Anthropic verstärkt seine RAG-Fähigkeiten

Anthropic hat gerade ein größeres Update seiner API Claude angekündigt, mit besonderem Fokus auf RAG-Anwendungsfälle. Die neuen Funktionen umfassen automatische Zitate, erweiterten Kontext und verbesserte Tool-Use-Fähigkeiten.

"RAG ist der Anwendungsfall Nummer eins für Claude im Unternehmensbereich", erklärt Dario Amodei, CEO von Anthropic. "Diese neuen Funktionen adressieren direkt die Bedürfnisse unserer Kunden."

Neue Funktionen

Automatische Zitate

Claude kann jetzt automatisch Inline-Zitate generieren:

DEVELOPERpython
import anthropic client = anthropic.Client() response = client.messages.create( model="claude-3-opus-20240229", max_tokens=4096, messages=[ { "role": "user", "content": [ { "type": "document", "source": { "type": "base64", "media_type": "application/pdf", "data": document_base64 }, "citation_mode": "inline" # Neuer Parameter }, { "type": "text", "text": "Resume ce document avec des citations." } ] } ] ) # Antwort mit automatischen Zitaten # "Laut Dokument [1] ist der Umsatz um 15% gestiegen..."

Die Zitate beinhalten:

  • Referenz zum Quellendokument
  • Seitenzahl (für PDFs)
  • Vertrauensscore

Diese Funktion ist essenziell für Anwendungen, bei denen Nachvollziehbarkeit kritisch ist. Siehe unseren Leitfaden zur Erkennung von Halluzinationen.

Kontextfenster 400K

Claude Opus 4 erweitert sein Kontextfenster auf 400K tokens:

ModeleContexte avantContexte maintenant
Claude 3 Opus200K200K
Claude 4 Opus200K400K
Claude 4 Sonnet200K300K

Diese Erweiterung ermöglicht die Verarbeitung von:

  • Dokumenten mit 300+ Seiten in einer einzigen Anfrage
  • kompletten Codebasen zur Analyse
  • sehr langen Gesprächen mit Verlauf

Für noch längere Dokumente bleiben unsere strategies de chunking erforderlich.

Verbesserter Tool Use

Der Tool Use wird robuster:

1. Parallele Ausführung

DEVELOPERpython
tools = [ {"name": "search_database", ...}, {"name": "fetch_user_profile", ...} ] # Claude kann jetzt mehrere Tools parallel aufrufen response = client.messages.create( model="claude-3-opus-20240229", tools=tools, tool_choice={"type": "parallel"} # Neu )

2. Automatisches Retry

Falls ein Tool fehlschlägt, kann Claude:

  • die Anfrage umformulieren
  • ein alternatives Tool versuchen
  • um Klarstellungen bitten

3. Streaming der Tool-Calls

DEVELOPERpython
with client.messages.stream(...) as stream: for event in stream: if event.type == "tool_use_start": print(f"Appel de {event.tool_name}...") elif event.type == "tool_use_result": print(f"Resultat: {event.result}")

Diese Verbesserungen kommen direkt agentic RAG-Systemen zugute.

Garantierte strukturierte Ausgaben

Neuer Modus, um das Ausgabeformat zu garantieren:

DEVELOPERpython
from pydantic import BaseModel class ProductInfo(BaseModel): name: str price: float in_stock: bool response = client.messages.create( model="claude-3-opus-20240229", messages=[...], response_format={ "type": "json_schema", "schema": ProductInfo.model_json_schema() } ) # Garantie: die Antwort entspricht immer dem Schema

Performance und Preisgestaltung

RAG-Benchmarks

Anthropic veröffentlicht spezifische Benchmarks für RAG:

MetriqueClaude 3 OpusClaude 4 OpusAmelioration
Attribution accuracy89%96%+7.9%
Hallucination rate4.2%1.8%-57%
Context utilization78%92%+18%
Multi-doc reasoning72%88%+22%

Neue Preisgestaltung

ModeleInput/1M tokensOutput/1M tokens
Claude 4 Opus$15$75
Claude 4 Sonnet$3$15
Claude 4 Haiku$0.25$1.25

Um Kosten zu optimieren, sehen Sie unseren Leitfaden zur Optimierung der RAG-Kosten.

Integration in RAG-Pipelines

Vollständiges Beispiel

DEVELOPERpython
import anthropic from qdrant_client import QdrantClient # 1. Recherche dans la base vectorielle qdrant = QdrantClient(host="localhost") search_results = qdrant.search( collection_name="documents", query_vector=query_embedding, limit=5 ) # 2. Construction du contexte context = "\n\n".join([ f"Document {i+1}:\n{r.payload['content']}" for i, r in enumerate(search_results) ]) # 3. Generation avec Claude client = anthropic.Client() response = client.messages.create( model="claude-3-opus-20240229", messages=[ { "role": "system", "content": "Tu es un assistant qui repond en citant ses sources." }, { "role": "user", "content": f"Contexte:\n{context}\n\nQuestion: {query}" } ], extra_headers={ "anthropic-beta": "citations-2024-05-01" } )

Best Practices

1. Das richtige Modell wählen

  • Opus: Komplexes Reasoning, lange Dokumente
  • Sonnet: Ausgewogenes Verhältnis Qualität/Kosten
  • Haiku: Hohe Volumen, einfache Aufgaben

2. Den Kontext strukturieren

  • Dokumente klar trennen
  • Metadaten einfügen (Titel, Datum, Quelle)
  • Auf 5–10 relevante Dokumente begrenzen

3. Zitate ausnutzen

  • Zitationsmodus aktivieren für Nachvollziehbarkeit
  • Zitate auf Backend-Seite validieren
  • Quellen dem Benutzer anzeigen

Vergleich mit der Konkurrenz

Claude vs GPT-4

AspectClaude 4 OpusGPT-4 Turbo
Contexte400K128K
Citations nativesOuiPartiel
Pricing (input)$15/M$10/M
Hallucinations1.8%2.4%
Multi-docExcellentBon

Vorteile von Claude für RAG

  • Größeres Kontextfenster
  • Native automatische Zitate
  • Bessere Handhabung langer Dokumente
  • Zuverlässigere Systeminstruktionen

Unsere Einschätzung

Diese Updates machen Claude zu einer noch relevanteren Wahl für RAG:

Stärken:

  • Automatische Zitate (game changer)
  • Kontext 400K
  • Reduktion von Halluzinationen

Punkte zur Beachtung:

  • Höhere Kosten als GPT-4 Turbo
  • Leicht erhöhte Latenz
  • Weniger Drittintegrationen

Für produktive RAG-Anwendungen empfehlen wir Claude 4 Opus, wenn Präzision und Nachvollziehbarkeit erforderlich sind.

Plattformen wie Ailog integrieren automatisch die neuesten Claude-Modelle, sodass Sie von diesen Verbesserungen ohne Aufwand profitieren.

Lesen Sie unseren Leitfaden zur Einführung in RAG, um loszulegen.

FAQ

Wenn Sie den Zitationsmodus mit dem Parameter citation_mode aktivieren, generiert Claude automatisch Inline-Referenzen zu den Quelldokumenten. Jede Zitation enthält eine Dokumentreferenz, die Seitenzahl für PDFs und einen Vertrauensscore, was eine vollständige Nachvollziehbarkeit der Informationen ermöglicht.
Ja, Claude 4 Opus verarbeitet die 400K tokens effizient mit einer Kontextnutzungsrate von 92% laut Benchmarks. Das erlaubt die Verarbeitung von Dokumenten mit 300+ Seiten in einer Anfrage ohne Qualitätsverlust — ideal für die Analyse von Verträgen oder umfangreichen Berichten.
Claude 4 Opus kostet $15/1M tokens Input gegenüber $10/1M für GPT-4 Turbo. Allerdings können die niedrigere Halluzinationsrate (1.8% vs. 2.4%) und die nativen Zitate die manuellen Verifikationskosten senken. Für große Volumen bleibt Claude Haiku mit $0.25/1M sehr konkurrenzfähig.
Ja, Claude kann jetzt mehrere Tools parallel aufrufen, was agentic RAG-Workflows deutlich beschleunigt. Das automatische Retry und das Streaming der Tool-Calls verbessern Robustheit und Nutzererlebnis.
Der neue Modus für strukturierte Ausgaben garantiert, dass die Antwort stets Ihrem JSON-Schema entspricht. Durch Übergabe eines Pydantic- oder JSON-Schemas erhalten Sie eine zuverlässige, 100% strukturierte Ausgabe und vermeiden defensives Parsen.

Tags

RAGAnthropicClaudeAPILLM

Verwandte Artikel

Ailog Assistant

Ici pour vous aider

Salut ! Pose-moi des questions sur Ailog et comment intégrer votre RAG dans vos projets !