News

OpenAI Assistants v2: verbessertes integriertes RAG

30. April 2026
6 Min. Lesezeit
Equipe Ailog

OpenAI bringt Assistants v2 mit verstärkten nativen RAG-Funktionen: verbesserte file search, source annotations und integrierte vector stores.

OpenAI verstärkt sein natives RAG-Angebot

OpenAI bringt die Version 2 seiner Assistants-API mit signifikanten Verbesserungen der RAG-Fähigkeiten. Der file search wird leistungsfähiger, die Quellenannotationen genauer und die Vector Stores flexibler.

"Assistants v2 stellt unsere Vision von schlüsselfertigem RAG dar", erklärt Sam Altman während der Keynote. "Entwickler können RAG-Produktionsanwendungen in wenigen Codezeilen bauen."

Neuigkeiten der Assistants-API v2

Verbesserter File Search

Der File Search v2 bringt wesentliche Verbesserungen:

Fonctionnalitev1v2
Fichiers par vector store10010,000
Taille max par fichier512MB2GB
Formats supportes1225+
Parsing tableauxBasiqueAvance
Parsing imagesNonOui (OCR)
DEVELOPERpython
from openai import OpenAI client = OpenAI() # Vector store erstellen vector_store = client.beta.vector_stores.create( name="knowledge-base", chunking_strategy={ "type": "semantic", # Neu: semantisches chunking "min_chunk_size": 100, "max_chunk_size": 800 } ) # Dateien hochladen client.beta.vector_stores.files.upload( vector_store_id=vector_store.id, file=open("document.pdf", "rb") ) # Assistant mit RAG erstellen assistant = client.beta.assistants.create( name="RAG Assistant", model="gpt-4-turbo", tools=[{"type": "file_search"}], tool_resources={ "file_search": { "vector_store_ids": [vector_store.id] } } )

Die chunking-Strategien sind jetzt direkt in der API konfigurierbar.

Quellenannotationen

Die Antworten enthalten jetzt präzise Annotations/Quellenangaben:

DEVELOPERpython
# Reponse avec annotations { "content": "Le chiffre d'affaires a augmente de 15%[1].", "annotations": [ { "type": "file_citation", "text": "[1]", "file_id": "file-abc123", "quote": "Le CA annuel montre une croissance de 15%", "page": 12, "confidence": 0.94 } ] }

Die Annotationen umfassen:

  • Exaktes Zitat aus dem Quelldokument
  • Seitenzahl (für PDFs)
  • Vertrauensscore
  • Link zur Quelldatei

Diese Funktion ist entscheidend für die Erkennung von Halluzinationen.

Geteilte Vector Stores

Vector Stores können jetzt zwischen Assistenten geteilt werden:

DEVELOPERpython
# Creer un vector store partage shared_store = client.beta.vector_stores.create( name="company-knowledge", sharing="organization" # Nouveau ) # Utiliser dans plusieurs assistants for assistant_id in [assistant1, assistant2, assistant3]: client.beta.assistants.update( assistant_id, tool_resources={ "file_search": { "vector_store_ids": [shared_store.id] } } )

Verbesserter Streaming

Das Streaming der RAG-Antworten ist granularer:

DEVELOPERpython
with client.beta.threads.runs.stream( thread_id=thread.id, assistant_id=assistant.id ) as stream: for event in stream: if event.event == "thread.message.delta": print(event.data.delta.content[0].text.value, end="") elif event.event == "file_search.start": print(f"\n[Recherche dans {len(event.data.files)} fichiers...]") elif event.event == "file_search.results": print(f"\n[{len(event.data.results)} resultats trouves]")

Leistung und Grenzen

Benchmarks

OpenAI veröffentlicht Benchmarks für standardisierte RAG-Aufgaben:

MetriqueAssistants v1Assistants v2
Recall@572%86%
Precision@568%81%
Latence mediane2.1s1.4s
Citation accuracy78%91%

Aktuelle Grenzen

LimiteValeur
Vector stores par organisation100
Fichiers par vector store10,000
Tokens par fichier5M
Requetes paralleles50
Retention des vector stores30 jours (configurable)

Preise

Neues Preismodell

ComposantPrix
Vector store (GB/jour)$0.10
File search (1K requetes)$0.03
Tokens input$10/M
Tokens output$30/M

Vergleich mit kundenspezifischen Lösungen

ApprocheCout mensuel estime*
Assistants v2$200-500
Pinecone + GPT-4$300-700
Qdrant self-hosted + GPT-4$150-400
Ailog RAG-as-a-Service$50-200

*Für 100K Anfragen/Monat, 1000 Dokumente

Siehe unseren Leitfaden zur Optimierung der RAG-Kosten.

Anwendungsfälle

Wann Assistants v2 einsetzen

Ideal für :

  • Schnelle Prototypen
  • Teams ohne RAG-Expertise
  • Anwendungen mit moderatem Traffic
  • All-in-one-Integration

Weniger geeignet für :

  • Sehr hohe Volumen (> 1M requetes/mois)
  • Erweiterte Anpassungsanforderungen
  • Anforderungen an Datenhoheit
  • Multi-LLM-Architekturen

Vollständiges Beispiel

DEVELOPERpython
from openai import OpenAI client = OpenAI() # 1. Vector store mit Dokumenten erstellen vector_store = client.beta.vector_stores.create(name="docs") client.beta.vector_stores.file_batches.upload_and_poll( vector_store_id=vector_store.id, files=[open(f, "rb") for f in ["doc1.pdf", "doc2.pdf"]] ) # 2. Assistent erstellen assistant = client.beta.assistants.create( name="Support Bot", model="gpt-4-turbo", instructions="Tu es un assistant support. Cite toujours tes sources.", tools=[{"type": "file_search"}], tool_resources={"file_search": {"vector_store_ids": [vector_store.id]}} ) # 3. Eine Konversation erstellen thread = client.beta.threads.create() client.beta.threads.messages.create( thread_id=thread.id, role="user", content="Comment configurer le produit X ?" ) # 4. Ausführen und streamen with client.beta.threads.runs.stream( thread_id=thread.id, assistant_id=assistant.id ) as stream: for text in stream.text_deltas: print(text, end="")

Migration von v1

Breaking changes

  • retrieval wird in file_search umbenannt
  • Neue Struktur der Annotationen
  • Vector Stores obligatorisch (keine direkt angehängten Dateien mehr)

Migrationsleitfaden

DEVELOPERpython
# Avant (v1) assistant = client.beta.assistants.create( tools=[{"type": "retrieval"}], file_ids=["file-123"] ) # Apres (v2) vector_store = client.beta.vector_stores.create() client.beta.vector_stores.files.create( vector_store_id=vector_store.id, file_id="file-123" ) assistant = client.beta.assistants.create( tools=[{"type": "file_search"}], tool_resources={"file_search": {"vector_store_ids": [vector_store.id]}} )

Unsere Einschätzung

Assistants v2 stellt eine bedeutende Verbesserung dar:

Stärken :

  • Schlüsselfertiges RAG, vereinfacht
  • Präzise Quellenannotationen
  • Gute Integration ins OpenAI-Ökosystem

Zu beachtende Punkte :

  • Lock-in bei OpenAI
  • Begrenzte Anpassbarkeit
  • Daten werden bei OpenAI gehostet

Für Projekte, die mehr Kontrolle oder Datenhoheit benötigen, bieten Lösungen wie Ailog eine Alternative mit französischem Hosting und erweiterten Anpassungsmöglichkeiten.

Siehe unseren Leitfaden der besten RAG-Plattformen zum Vergleich.

FAQ

Assistants v2 führt Vector Stores als zentrales Konzept ein (ersetzt direkt angehängte Dateien), ein konfigurierbares semantisches chunking, Quellenannotationen mit Vertrauensscores und die Unterstützung von Dateien bis zu 2GB. Die Genauigkeit der Zitate steigt von 78% auf 91%.
Ja, das ist eine zentrale Neuerung von v2. Sie können einen auf Organisations-Ebene geteilten Vector Store erstellen und in mehreren Assistenten verwenden. Das vermeidet Daten-Duplikation und sorgt für Konsistenz der Antworten über verschiedene Chatbots hinweg.
Für eine typische Nutzung von 100K Anfragen/Monat mit 1000 Dokumenten liegen die Kosten etwa bei 200–500$ pro Monat. Diese Kosten beinhalten den Vector Store-Speicher (0.10$/GB/Tag), File Search-Anfragen (0.03$/1K) und die Generierungstokens. Es ist teurer als eine Self-Hosted-Lösung, aber einfacher zu betreiben.
Die Daten werden bei OpenAI gehostet, was bei DSGVO-Konformität oder regulierten Branchen problematisch sein kann. Für Anforderungen an Datenhoheit sollten Sie Lösungen mit europäischem Hosting wie Ailog oder On-Premise-Deployments bevorzugen.
Die Hauptmigration besteht darin, retrieval durch file_search zu ersetzen und Vector Stores für Ihre Dateien zu erstellen. OpenAI stellt einen detaillierten Migrationsleitfaden zur Verfügung. Assistants v1 bleiben funktionsfähig, profitieren aber nicht von den neuen Funktionen.

Tags

RAGOpenAIAssistants APIGPT-4LLM

Verwandte Artikel

Ailog Assistant

Ici pour vous aider

Salut ! Pose-moi des questions sur Ailog et comment intégrer votre RAG dans vos projets !