LLM Arena - KI-Modell-Rankings

Vergleichen Sie LLM-Leistung mit transparenten ELO-Rankings. GPT-4, Claude, Llama, Mistral und mehr.

Wie es funktioniert

  1. Nach Kategorie filtern: Wählen Sie den Aufgabentyp: allgemein, Code, Bild, etc.
  2. Scores vergleichen: Visualisieren Sie das ELO-Ranking und die Modellentwicklung.
  3. Wählen Sie Ihr Modell: Identifizieren Sie das beste Modell nach Ihren Kriterien: Leistung, Preis, Open Source.

Häufig gestellte Fragen

Wie werden die ELO-Scores berechnet?
Wir aggregieren Scores aus anerkannten Benchmarks (LMSYS Chatbot Arena, MMLU, HumanEval, MATH, etc.) und konvertieren sie in eine einheitliche ELO-Skala. Die Daten werden täglich aktualisiert.
Welches LLM sollte ich für mein RAG wählen?
Für RAG priorisieren Sie Modelle, die stark im Befolgen von Anweisungen sind: GPT-4o, Claude 3 oder Llama 3.1 70B. Die Fähigkeit, Anweisungen zu befolgen und Quellen zu zitieren, ist wichtiger als der reine Score.
Sind Open-Source-Modelle genauso gut?
In 2024 konkurrieren Llama 3.1 405B und Mixtral mit GPT-4 bei vielen Aufgaben. Für RAG bietet Llama 3.1 70B ein ausgezeichnetes Preis-Leistungs-Verhältnis im Self-Hosting.
Was ist der Unterschied zwischen GPT-4 und GPT-4 Turbo?
GPT-4 Turbo ist schneller, günstiger (3x) und hat 128K Kontext vs 8K. Die Leistung ist ähnlich. Bevorzugen Sie GPT-4 Turbo oder GPT-4o für RAG.
Claude vs GPT-4: Welches ist besser?
Claude 3 Opus übertrifft GPT-4 bei einigen Benchmarks und hat 200K Kontext. GPT-4o ist schneller und günstiger. Für RAG sind beide ausgezeichnet - testen Sie für Ihren Anwendungsfall.
Welches Modell für Code-Generierung?
Für Code sind die besten: GPT-4o (Generalist), Claude 3.5 Sonnet (ausgezeichnet bei Code) und DeepSeek Coder V2 (spezialisierte Open Source). Filtern Sie nach Kategorie "Code" in der Arena.

Arena

ELO rankings updated daily.

#ModelELOType
1
Gemini 3 Pronew
Google
1512+8
Prop
2
Gemini 3 Deep Thinknew
Google
1498+6
Prop
3
GPT-5.1 Thinkingnew
OpenAI
1467+4
Prop
4
Sora Turbonew
OpenAI
1467+4
Prop
5
Claude Opus 4.5new
Anthropic
1456+5
Prop
6
Claude Sonnet 4.5new
Anthropic
1456+5
Prop
7
Veo 3new
Google
1456+5
Prop
8
GPT-5.1new
OpenAI
1434+3
Prop
9
Midjourney v7new
Midjourney
1434+4
Prop
10
Claude Sonnet 4.5new
Anthropic
1423+4
Prop
11
o3-mininew
OpenAI
1423+4
Prop
12
DALL-E 4new
OpenAI
1412+3
Prop
13
Runway Gen-4new
Runway
1412+4
Prop
14
Llama 4 Mavericknew
Meta
1401+5
Open
15
DeepSeek Coder V3new
DeepSeek
1401+4
Open
16
GPT-5
OpenAI
1398-2
Prop
17
Grok 3
xAI
1389+3
Prop
18
DeepSeek V3.2new
DeepSeek
1389+6
Open
19
DeepSeek R1new
DeepSeek
1389+5
Open
20
Imagen 3new
Google
1389+3
Prop
21
Kling 1.6new
Kuaishou
1378+3
Prop
22
Gemini 2.5 Pro
Google
1367+1
Prop
23
Flux 1.1 Pro
Black Forest
1367+1
Prop
24
Llama 4 Scoutnew
Meta
1356+3
Open
25
Codestral 25.01new
Mistral
1356+2
Open
26
Pika 2.0new
Pika Labs
1356+3
Prop
27
Gemini 2.5 Flash
Google
1345-1
Prop
28
Qwen 3 235Bnew
Alibaba
1345+3
Open
29
QwQ 32Bnew
Alibaba
1345+3
Open
30
Ideogram v2
Ideogram
1345+2
Prop
31
Claude Haiku 4.5new
Anthropic
1323+2
Prop
32
Mistral Large 3
Mistral
1323+2
Open
33
Mistral Medium 3new
Mistral
1289+1
Open
34
GPT-4o
OpenAI
1278-4
Prop
35
Llama 3.3 70B
Meta
1245-3
Open
36
GPT-4o Mini
OpenAI
1234-
Prop
ELO scores based on MMLU, HumanEval, GPQA and LMSYS Chatbot Arena.

tools.llmArena.cta.useWithAilog

Ausprobieren

Wie es funktioniert

  1. 1

    Nach Kategorie filtern

    Wählen Sie den Aufgabentyp: allgemein, Code, Bild, etc.

  2. 2

    Scores vergleichen

    Visualisieren Sie das ELO-Ranking und die Modellentwicklung.

  3. 3

    Wählen Sie Ihr Modell

    Identifizieren Sie das beste Modell nach Ihren Kriterien: Leistung, Preis, Open Source.

Weitere Tools

Häufig gestellte Fragen

Wir aggregieren Scores aus anerkannten Benchmarks (LMSYS Chatbot Arena, MMLU, HumanEval, MATH, etc.) und konvertieren sie in eine einheitliche ELO-Skala. Die Daten werden täglich aktualisiert.

Für RAG priorisieren Sie Modelle, die stark im Befolgen von Anweisungen sind: GPT-4o, Claude 3 oder Llama 3.1 70B. Die Fähigkeit, Anweisungen zu befolgen und Quellen zu zitieren, ist wichtiger als der reine Score.

In 2024 konkurrieren Llama 3.1 405B und Mixtral mit GPT-4 bei vielen Aufgaben. Für RAG bietet Llama 3.1 70B ein ausgezeichnetes Preis-Leistungs-Verhältnis im Self-Hosting.

GPT-4 Turbo ist schneller, günstiger (3x) und hat 128K Kontext vs 8K. Die Leistung ist ähnlich. Bevorzugen Sie GPT-4 Turbo oder GPT-4o für RAG.

Claude 3 Opus übertrifft GPT-4 bei einigen Benchmarks und hat 200K Kontext. GPT-4o ist schneller und günstiger. Für RAG sind beide ausgezeichnet - testen Sie für Ihren Anwendungsfall.

Für Code sind die besten: GPT-4o (Generalist), Claude 3.5 Sonnet (ausgezeichnet bei Code) und DeepSeek Coder V2 (spezialisierte Open Source). Filtern Sie nach Kategorie "Code" in der Arena.