News

GPT-4.5 Turbo: Das neue OpenAI-Modell, RAG-optimiert (Specs & Tarife)

30. Oktober 2025
5 min Lesezeit
Équipe de Recherche Ailog

GPT-4.5 Turbo specs: Kontext 128K, 50% günstiger als GPT-4, native retrieval, strukturierte Ausgabe. Vollständiger API-Leitfaden.

GPT-4.5 Turbo auf einen Blick

SpezifikationGPT-4.5 TurboGPT-4 TurboUnterschied
Kontextfenster128K tokens128K tokensIdentisch
Eingabepreis$5.00/1M$10.00/1M-50%
Ausgabepreis$15.00/1M$30.00/1M-50%
Median-Latenz1.2s1.7s-30%
Needle in Haystack (128K)87.2%74.1%+13.1%
Natives retrievalJaNeinNeu
Strukturierte AusgabeJaBegrenztVerbessert

Veröffentlichung : Oktober 2025


Ankündigung

OpenAI hat GPT-4.5 Turbo vorgestellt, eine Zwischenversion zwischen GPT-4 und GPT-5, mit Funktionen, die speziell für RAG-Workflows entwickelt wurden.

Hauptfunktionen

Natives Retrieval-Modus

GPT-4.5 enthält ein integriertes retrieval ohne externe vector-Datenbanken :

DEVELOPERpython
response = openai.chat.completions.create( model="gpt-4.5-turbo", messages=[{"role": "user", "content": "Quelle est notre politique de remboursement ?"}], retrieval_sources=[ {"type": "file", "file_id": "file-abc123"}, {"type": "url", "url": "https://example.com/docs"} ], retrieval_mode="automatic" # oder "manual" für eine benutzerdefinierte Steuerung )

Wie es funktioniert :

  • OpenAI indexiert die bereitgestellten Dateien/URLs
  • Das retrieval findet während der Generierung statt
  • Keine separate vector-Datenbank erforderlich

Einschränkungen :

  • Maximal 50 Dateien oder URLs pro Anfrage
  • Dateien müssen jeweils < 50MB sein
  • Aktualisierte Dateien erfordern eine Reindexierung

Strukturierte Ausgabe

Generiert JSON-Antworten, die Schemata entsprechen :

DEVELOPERpython
response = openai.chat.completions.create( model="gpt-4.5-turbo", messages=[{"role": "user", "content": query}], response_format={ "type": "json_schema", "json_schema": { "name": "rag_response", "schema": { "type": "object", "properties": { "answer": {"type": "string"}, "sources": { "type": "array", "items": { "type": "object", "properties": { "title": {"type": "string"}, "page": {"type": "integer"}, "quote": {"type": "string"} } } }, "confidence": {"type": "number"} } } } } )

Vorteile :

  • Gültiges JSON garantiert
  • Keine Parsing-Fehler
  • Einheitliches Zitierformat

Verbesserte Kontextnutzung

Besser im Umgang mit langen Kontexten :

  • 128K tokens Kontextfenster (unverändert)
  • 40% bessere "needle in haystack"-Leistung
  • Behält Genauigkeit über die gesamte Kontextlänge hinweg

Benchmark-Ergebnisse :

KontextlängeGPT-4 TurboGPT-4.5 Turbo
32K tokens94.2%96.1%
64K tokens89.7%94.3%
96K tokens82.3%91.8%
128K tokens74.1%87.2%

Leistungsverbesserungen

Geschwindigkeit

  • 30% schneller als GPT-4 Turbo
  • Median-Latenz : 1,2s (vs. 1,7s)
  • Unterstützt bis zu 500 tokens/Sekunde im Streaming

Kostensenkung

Preismodell optimiert für RAG :

ModellEingabe (pro 1M tokens)Ausgabe (pro 1M tokens)
GPT-4 Turbo$10.00$30.00
GPT-4.5 Turbo$5.00$15.00
GPT-3.5 Turbo$0.50$1.50

50% Kostenreduktion bei Beibehaltung der GPT-4-Qualität.

Qualität

Getestet auf RAG-spezifischen Benchmarks :

BenchmarkGPT-4 TurboGPT-4.5 Turbo
NaturalQuestions67.3%71.8%
TriviaQA72.1%76.4%
HotpotQA58.4%64.2%
MS MARCO42.1%48.7%

Konsistente Verbesserung von 5–7% über alle Datensätze.

RAG-spezifische Fähigkeiten

Generierung von Zitaten

Automatische Einfügung von Zitaten :

DEVELOPERpython
response = openai.chat.completions.create( model="gpt-4.5-turbo", messages=[...], enable_citations=True # Neuer Parameter ) # Die Antwort enthält Inline-Zitate print(response.choices[0].message.content) # "Die Rückgaberichtlinie erlaubt Rücksendungen innerhalb von 30 Tagen[1] für eine # vollständige Rückerstattung[2]." # Zitate separat bereitgestellt for citation in response.citations: print(f"[{citation.id}] {citation.source}: {citation.quote}")

Factuality-Scoring

Automatische Einschätzung der Vertrauenswürdigkeit der Antwort :

DEVELOPERpython
response = openai.chat.completions.create( model="gpt-4.5-turbo", messages=[...], include_confidence=True ) print(response.confidence_score) # 0.0-1.0 # 0.9 = hohe Vertrauenswürdigkeit # 0.5 = unsicher # 0.2 = geringes Vertrauen, Halluzination wahrscheinlich

Nützlich, um Antworten niedriger Qualität zu filtern.

Verwaltung des Multi-Turn-Kontexts

Bessere Handhabung von Konversationen :

  • Automatische Zusammenfassung älterer Turns
  • Intelligente Kontextkürzung
  • Erhält Konsistenz über lange Gespräche

Migrationsleitfaden

Von GPT-4 Turbo

Minimale Änderungen erforderlich :

DEVELOPERpython
# Vorher response = openai.chat.completions.create( model="gpt-4-turbo-preview", messages=messages ) # Nachher response = openai.chat.completions.create( model="gpt-4.5-turbo", # Aktualisiertes Modell messages=messages )

Aktivierung der neuen Funktionen

DEVELOPERpython
response = openai.chat.completions.create( model="gpt-4.5-turbo", messages=messages, # Optional: Integriertes retrieval retrieval_sources=[...], # Optional: Strukturierte Ausgabe response_format={"type": "json_schema", ...}, # Optional: Zitate enable_citations=True, # Optional: Vertrauensscores include_confidence=True )

Anwendungsfälle

Kundensupport

  • Integriertes retrieval in der Dokumentation
  • Strukturierte Antworten für konsistente Formatierung
  • Zitate zur Überprüfung der Antworten

Recherche-Assistenten

  • Retrieval über mehrere Artikel hinweg
  • Vertrauensscores zur Faktenprüfung
  • Langer Kontext für vollständige Analysen

Wissensmanagement im Unternehmen

  • Interne Dokumentation indexiert
  • Strukturierte Extraktion von Informationen
  • Kosteneffizient in großem Maßstab

Einschränkungen

Integriertes retrieval

  • Auf 50 Quellen pro Anfrage begrenzt
  • Keine feinkörnige Kontrolle über das chunking
  • Dateien lassen sich nicht ohne erneutes Hochladen aktualisieren
  • Nicht geeignet für sehr große Dokumentensammlungen

Empfehlung : Traditionelles RAG (vector-Datenbank) verwenden für :

  • Große Dokumentensammlungen (> 10K docs)
  • Häufig aktualisierte Inhalte
  • Maßgeschneiderte Strategien für chunking
  • Advanced retrieval (hybride Suche, reranking)

Strukturierte Ausgabe

  • Fügt ~10–15% zusätzliche Latenz hinzu
  • Maximale Schema-Komplexität : 10 verschachtelte Ebenen
  • Strukturierte und unstrukturierte Ausgaben können nicht vermischt werden

Preisrechner

Beispiel zum Kostenvergleich :

Szenario : 10K Anfragen/Tag, je 2K tokens Eingabe, 500 tokens Ausgabe

ModellTägliche KostenMonatliche Kosten
GPT-4 Turbo$400$12 000
GPT-4.5 Turbo$200$6 000
GPT-3.5 Turbo$20$600

GPT-4.5 Turbo bietet GPT-4-Qualität zum halben Preis.

Verfügbarkeit

  • Allgemein verfügbar über die OpenAI API
  • Deployment auf Azure OpenAI (November)
  • ChatGPT Plus/Team Benutzer (GPT-4.5 auswählen)
  • Unternehmenskunden (sofortiger Zugriff)

Best Practices

  1. Integriertes retrieval für kleine Dokumentenbestände (< 100 Dateien) verwenden
  2. Zitate aktivieren für Transparenz
  3. Vertrauensscores prüfen für Qualitätskontrolle
  4. Strukturierte Ausgabe für konsistentes Parsing verwenden
  5. Token-Nutzung überwachen zur Kostenoptimierung

Fazit

GPT-4.5 Turbo zeigt OpenAIs Verpflichtung, RAG zugänglicher und kosteneffizienter zu machen. Obwohl das integrierte retrieval die vector-Datenbanken für komplexe Anwendungen nicht ersetzen wird, senkt es die Einstiegshürde für einfachere RAG-Anwendungsfälle erheblich.

Tags

OpenAIGPT-4.5GPT-4.5-TurboLLMAPI2025

Verwandte Artikel

Ailog Assistant

Ici pour vous aider

Salut ! Pose-moi des questions sur Ailog et comment intégrer votre RAG dans vos projets !