Retrieval-Tester
Testen Sie die Retrieval-Qualität mit MRR, Hit Rate, NDCG und Präzisions-Metriken.
Wie es funktioniert
- Test konfigurieren: Geben Sie Ihre Abfrage und die Liste der zu testenden Dokumente ein.
- Ground Truth definieren: Geben Sie an, welche Dokumente für diese Abfrage tatsächlich relevant sind.
- Metriken analysieren: Erhalten Sie MRR, Hit Rate, NDCG und Precision zur Bewertung Ihres Retrievals.
Häufig gestellte Fragen
- Was ist MRR (Mean Reciprocal Rank)?
- MRR misst die durchschnittliche Position des ersten relevanten Ergebnisses. Ein MRR von 1,0 bedeutet, dass das richtige Dokument immer an erster Stelle steht. Ein MRR von 0,5 bedeutet, dass es durchschnittlich an Position 2 steht.
- Welchen Top-K-Wert sollte ich verwenden?
- Für faktische Q&A reicht Top K = 3-5 normalerweise aus. Für Synthese erhöhen Sie auf 10-20. Ein zu hoher Top-K-Wert verwässert die Relevanz und erhöht die LLM-Kontextkosten.
- Wie kann ich meine Hit Rate verbessern?
- Eine niedrige Hit Rate deutet auf ein Retrieval-Problem hin. Lösungen: 1) Chunking verbessern, 2) Verschiedene Embedding-Modelle testen, 3) Reranking hinzufügen, 4) Dokument-Metadaten anreichern.
- Was ist NDCG?
- NDCG (Normalized Discounted Cumulative Gain) misst die Ranking-Qualität unter Berücksichtigung der Reihenfolge. Ein relevantes Dokument auf Position 1 zählt mehr als auf Position 5. Idealer Score: > 0,8.
- Sollte ich einen Reranker verwenden?
- Ein Reranker (wie Cohere Rerank oder Cross-Encoder) verbessert die Präzision durch Neusortierung der Top-K-Ergebnisse. Empfohlen, wenn Ihr MRR < 0,7 oder für komplexe Abfragen.
- Wie teste ich Retrieval mit echten Daten?
- Erstellen Sie einen Testdatensatz mit 50-100 Paaren (Frage, erwartete relevante Dokumente). Verwenden Sie dieses Tool zur Berechnung der Metriken. Wiederholen Sie nach jeder Pipeline-Änderung.
