Retrieval-Tester

Testen Sie die Retrieval-Qualität mit MRR, Hit Rate, NDCG und Präzisions-Metriken.

Wie es funktioniert

  1. Test konfigurieren: Geben Sie Ihre Abfrage und die Liste der zu testenden Dokumente ein.
  2. Ground Truth definieren: Geben Sie an, welche Dokumente für diese Abfrage tatsächlich relevant sind.
  3. Metriken analysieren: Erhalten Sie MRR, Hit Rate, NDCG und Precision zur Bewertung Ihres Retrievals.

Häufig gestellte Fragen

Was ist MRR (Mean Reciprocal Rank)?
MRR misst die durchschnittliche Position des ersten relevanten Ergebnisses. Ein MRR von 1,0 bedeutet, dass das richtige Dokument immer an erster Stelle steht. Ein MRR von 0,5 bedeutet, dass es durchschnittlich an Position 2 steht.
Welchen Top-K-Wert sollte ich verwenden?
Für faktische Q&A reicht Top K = 3-5 normalerweise aus. Für Synthese erhöhen Sie auf 10-20. Ein zu hoher Top-K-Wert verwässert die Relevanz und erhöht die LLM-Kontextkosten.
Wie kann ich meine Hit Rate verbessern?
Eine niedrige Hit Rate deutet auf ein Retrieval-Problem hin. Lösungen: 1) Chunking verbessern, 2) Verschiedene Embedding-Modelle testen, 3) Reranking hinzufügen, 4) Dokument-Metadaten anreichern.
Was ist NDCG?
NDCG (Normalized Discounted Cumulative Gain) misst die Ranking-Qualität unter Berücksichtigung der Reihenfolge. Ein relevantes Dokument auf Position 1 zählt mehr als auf Position 5. Idealer Score: > 0,8.
Sollte ich einen Reranker verwenden?
Ein Reranker (wie Cohere Rerank oder Cross-Encoder) verbessert die Präzision durch Neusortierung der Top-K-Ergebnisse. Empfohlen, wenn Ihr MRR < 0,7 oder für komplexe Abfragen.
Wie teste ich Retrieval mit echten Daten?
Erstellen Sie einen Testdatensatz mit 50-100 Paaren (Frage, erwartete relevante Dokumente). Verwenden Sie dieses Tool zur Berechnung der Metriken. Wiederholen Sie nach jeder Pipeline-Änderung.

Rank it

Testen Sie die Abrufqualität Ihres RAG-Systems

Top K
1.00
MRR
100%
Hit Rate
100%
P@3
1.00
NDCG

Abgerufene Dokumente

Klicken zum Umschalten der Relevanz

MRR

Mean Reciprocal Rank

NDCG

Normalized Discounted Cumulative Gain

tools.retrieval.cta.automaticOptimization

Ausprobieren

Wie es funktioniert

  1. 1

    Test konfigurieren

    Geben Sie Ihre Abfrage und die Liste der zu testenden Dokumente ein.

  2. 2

    Ground Truth definieren

    Geben Sie an, welche Dokumente für diese Abfrage tatsächlich relevant sind.

  3. 3

    Metriken analysieren

    Erhalten Sie MRR, Hit Rate, NDCG und Precision zur Bewertung Ihres Retrievals.

Weitere Tools

Häufig gestellte Fragen

MRR misst die durchschnittliche Position des ersten relevanten Ergebnisses. Ein MRR von 1,0 bedeutet, dass das richtige Dokument immer an erster Stelle steht. Ein MRR von 0,5 bedeutet, dass es durchschnittlich an Position 2 steht.

Für faktische Q&A reicht Top K = 3-5 normalerweise aus. Für Synthese erhöhen Sie auf 10-20. Ein zu hoher Top-K-Wert verwässert die Relevanz und erhöht die LLM-Kontextkosten.

Eine niedrige Hit Rate deutet auf ein Retrieval-Problem hin. Lösungen: 1) Chunking verbessern, 2) Verschiedene Embedding-Modelle testen, 3) Reranking hinzufügen, 4) Dokument-Metadaten anreichern.

NDCG (Normalized Discounted Cumulative Gain) misst die Ranking-Qualität unter Berücksichtigung der Reihenfolge. Ein relevantes Dokument auf Position 1 zählt mehr als auf Position 5. Idealer Score: > 0,8.

Ein Reranker (wie Cohere Rerank oder Cross-Encoder) verbessert die Präzision durch Neusortierung der Top-K-Ergebnisse. Empfohlen, wenn Ihr MRR < 0,7 oder für komplexe Abfragen.

Erstellen Sie einen Testdatensatz mit 50-100 Paaren (Frage, erwartete relevante Dokumente). Verwenden Sie dieses Tool zur Berechnung der Metriken. Wiederholen Sie nach jeder Pipeline-Änderung.