LLM Arena - Classement des modèles IA

Comparez les performances des LLM avec des classements ELO transparents. GPT-4, Claude, Llama, Mistral et plus encore.

Comment ça marche

  1. Filtrez par catégorie: Sélectionnez le type de tâche : général, code, image, etc.
  2. Comparez les scores: Visualisez le classement ELO et l'évolution des modèles.
  3. Choisissez votre modèle: Identifiez le meilleur modèle selon vos critères : performance, prix, open source.

Questions fréquentes

Comment sont calculés les scores ELO ?
Nous agrégeons les scores de benchmarks reconnus (LMSYS Chatbot Arena, MMLU, HumanEval, MATH, etc.) et les convertissons en une échelle ELO unifiée. Les données sont mises à jour quotidiennement.
Quel LLM choisir pour mon RAG ?
Pour le RAG, privilégiez les modèles performants en "instruction following" : GPT-4o, Claude 3, ou Llama 3.1 70B. La capacité à suivre les instructions et citer les sources est plus importante que le score brut.
Les modèles open source sont-ils aussi bons ?
En 2024, Llama 3.1 405B et Mixtral rivalisent avec GPT-4 sur de nombreuses tâches. Pour du RAG, Llama 3.1 70B offre un excellent rapport qualité/coût en self-hosted.
Quelle différence entre GPT-4 et GPT-4 Turbo ?
GPT-4 Turbo est plus rapide, moins cher (3x), et a un contexte de 128K vs 8K. Les performances sont similaires. Privilégiez GPT-4 Turbo ou GPT-4o pour le RAG.
Claude vs GPT-4 : lequel est meilleur ?
Claude 3 Opus surpasse GPT-4 sur certains benchmarks et a un contexte de 200K. GPT-4o est plus rapide et moins cher. Pour le RAG, les deux sont excellents - testez sur votre cas d'usage.
Quel modèle pour la génération de code ?
Pour le code, les meilleurs sont : GPT-4o (généraliste), Claude 3.5 Sonnet (excellent en code), et DeepSeek Coder V2 (open source spécialisé). Filtrez par catégorie "Code" dans l'arène.

Arena

Classement ELO des LLMs mis a jour quotidiennement.

#ModelELOType
1
Gemini 3 Pronew
Google
1512+8
Prop
2
Gemini 3 Deep Thinknew
Google
1498+6
Prop
3
GPT-5.1 Thinkingnew
OpenAI
1467+4
Prop
4
Sora Turbonew
OpenAI
1467+4
Prop
5
Claude Opus 4.5new
Anthropic
1456+5
Prop
6
Claude Sonnet 4.5new
Anthropic
1456+5
Prop
7
Veo 3new
Google
1456+5
Prop
8
GPT-5.1new
OpenAI
1434+3
Prop
9
Midjourney v7new
Midjourney
1434+4
Prop
10
Claude Sonnet 4.5new
Anthropic
1423+4
Prop
11
o3-mininew
OpenAI
1423+4
Prop
12
DALL-E 4new
OpenAI
1412+3
Prop
13
Runway Gen-4new
Runway
1412+4
Prop
14
Llama 4 Mavericknew
Meta
1401+5
Open
15
DeepSeek Coder V3new
DeepSeek
1401+4
Open
16
GPT-5
OpenAI
1398-2
Prop
17
Grok 3
xAI
1389+3
Prop
18
DeepSeek V3.2new
DeepSeek
1389+6
Open
19
DeepSeek R1new
DeepSeek
1389+5
Open
20
Imagen 3new
Google
1389+3
Prop
21
Kling 1.6new
Kuaishou
1378+3
Prop
22
Gemini 2.5 Pro
Google
1367+1
Prop
23
Flux 1.1 Pro
Black Forest
1367+1
Prop
24
Llama 4 Scoutnew
Meta
1356+3
Open
25
Codestral 25.01new
Mistral
1356+2
Open
26
Pika 2.0new
Pika Labs
1356+3
Prop
27
Gemini 2.5 Flash
Google
1345-1
Prop
28
Qwen 3 235Bnew
Alibaba
1345+3
Open
29
QwQ 32Bnew
Alibaba
1345+3
Open
30
Ideogram v2
Ideogram
1345+2
Prop
31
Claude Haiku 4.5new
Anthropic
1323+2
Prop
32
Mistral Large 3
Mistral
1323+2
Open
33
Mistral Medium 3new
Mistral
1289+1
Open
34
GPT-4o
OpenAI
1278-4
Prop
35
Llama 3.3 70B
Meta
1245-3
Open
36
GPT-4o Mini
OpenAI
1234-
Prop
Scores ELO bases sur MMLU, HumanEval, GPQA et LMSYS Chatbot Arena.

Utilisez ces modeles dans Ailog.

Essayer

Comment ça marche

  1. 1

    Filtrez par catégorie

    Sélectionnez le type de tâche : général, code, image, etc.

  2. 2

    Comparez les scores

    Visualisez le classement ELO et l'évolution des modèles.

  3. 3

    Choisissez votre modèle

    Identifiez le meilleur modèle selon vos critères : performance, prix, open source.

Autres outils

Questions fréquentes

Nous agrégeons les scores de benchmarks reconnus (LMSYS Chatbot Arena, MMLU, HumanEval, MATH, etc.) et les convertissons en une échelle ELO unifiée. Les données sont mises à jour quotidiennement.

Pour le RAG, privilégiez les modèles performants en "instruction following" : GPT-4o, Claude 3, ou Llama 3.1 70B. La capacité à suivre les instructions et citer les sources est plus importante que le score brut.

En 2024, Llama 3.1 405B et Mixtral rivalisent avec GPT-4 sur de nombreuses tâches. Pour du RAG, Llama 3.1 70B offre un excellent rapport qualité/coût en self-hosted.

GPT-4 Turbo est plus rapide, moins cher (3x), et a un contexte de 128K vs 8K. Les performances sont similaires. Privilégiez GPT-4 Turbo ou GPT-4o pour le RAG.

Claude 3 Opus surpasse GPT-4 sur certains benchmarks et a un contexte de 200K. GPT-4o est plus rapide et moins cher. Pour le RAG, les deux sont excellents - testez sur votre cas d'usage.

Pour le code, les meilleurs sont : GPT-4o (généraliste), Claude 3.5 Sonnet (excellent en code), et DeepSeek Coder V2 (open source spécialisé). Filtrez par catégorie "Code" dans l'arène.