Panorama

Benchmarks de l'IA : comprendre les scores de Claude et des autres modèles

Les benchmarks mesurent les capacités des modèles d'IA — code, raisonnement, connaissances. Ils sont utiles mais piégeux. Voici ce qu'ils mesurent vraiment, comment les lire, et où suivre les scores de Claude au fil des sorties (sans chiffres inventés : les valeurs exactes changent à chaque version).

Le classement du moment

SWE-bench Verified% de tickets résolus

Claude Fable 5Anthropic95.0%

Claude Mythos (preview)Anthropic93.9%

Claude Opus 4.8Anthropic88.6%

Claude Opus 4.7Anthropic87.6%

Claude Sonnet 5Anthropic85.2%

Claude Opus 4.5Anthropic80.9%

Claude Opus 4.6Anthropic80.8%

DeepSeek-V4-Pro-MaxDeepSeek80.6%

Gemini 3.1 ProGoogle80.6%

Qwen3.7 MaxAlibaba80.4%

Source : llm-stats.com · à jour au 3 août 2026

À noter : ce classement ne contient pas encore Claude Opus 5 (sorti le 24 juillet 2026) — sa source ne l'a pas évalué à ce jour. Anthropic annonce environ 96 % sur SWE-bench Verified, un chiffre issu d'une autre méthodologie : il n'est donc pas directement comparable aux lignes ci-dessus.

Frontière : Claude vs GPT vs Gemini

Benchmark	Claude Opus 4.8	GPT-5.5	Gemini 3.1 Pro
SWE-bench ProCode agentique, non contaminé	69.2%	58.6%	54.2%
Terminal-Bench 2.1Autonomie dans un terminal	74.6%	78.2%	70.3%
OSWorld-VerifiedPiloter un ordinateur	83.4%	78.7%	76.2%
Humanity's Last ExamQuestions expertes (avec outils)	57.9%	52.2%	51.4%
Finance Agent v2Agent financier	53.9%	51.8%	43.0%

Source : Model card Anthropic — Claude Opus 4.8 · conditions du fournisseur, à jour au 3 août 2026

Ces chiffres sont réels et datés, pas figés : un score dépend des conditions (avec ou sans outils, harnais, version) et bouge à chaque sortie de modèle. Comparez toujours à source et date égales — et testez sur votre propre tâche.

Les benchmarks, expliqués

Agents

SWE-bench Verified

Résoudre de vrais tickets GitHub dans un dépôt réel — le test de référence du code agentique.

Mesure: % de tickets résolus dont le patch passe la suite de tests (500 problèmes vérifiés par des humains).
Pourquoi: Le benchmark le plus regardé aujourd'hui : il mesure ce que fait Claude Code — lire un repo, corriger, tester.

Frontière

Agents

SWE-bench Pro

Version durcie de SWE-bench sur des dépôts activement maintenus, sans fuite de solution publique.

Mesure: Taux de réussite (%) sur des tâches plus longues et non contaminées.
Pourquoi: Beaucoup considèrent Pro plus fiable que Verified, jugé partiellement contaminé.

Frontière

Agents

Terminal-Bench

Accomplir des tâches réelles dans un terminal (installer, configurer, déboguer) de bout en bout.

Mesure: Récompense moyenne (%) — l'agent atteint-il l'état final attendu.
Pourquoi: Mesure l'autonomie d'un agent sur une vraie machine, pas juste la génération de code.

Frontière

Code

LiveCodeBench

Problèmes de code récents, publiés après l'entraînement — conçu contre la contamination.

Mesure: % de solutions correctes (pass@1) sur des exercices datés.
Pourquoi: En ne testant que du récent, il évite que les modèles « récitent » un exercice déjà vu.

Frontière

Raisonnement

GPQA Diamond

Questions scientifiques de niveau doctorat, « Google-proof » — impossibles à simplement rechercher.

Mesure: % de bonnes réponses (QCM expert en biologie, physique, chimie).
Pourquoi: Teste le vrai raisonnement scientifique, là où la mémorisation ne suffit plus.

Frontière

Raisonnement

Humanity's Last Exam

Des milliers de questions expertes, multi-domaines, écrites pour rester dures très longtemps.

Mesure: % de bonnes réponses (souvent testé avec et sans outils).
Pourquoi: Pensé comme le « dernier examen » : le plafond que les modèles sont loin d'atteindre.

Frontière

Connaissances

MMLU-Pro

MMLU durci : plus de choix et questions retravaillées pour rétablir un écart entre modèles.

Mesure: % de bonnes réponses sur QCM multi-domaines à 10 options.
Pourquoi: MMLU d'origine est saturé ; la version Pro sépare de nouveau les modèles.

Actif

Maths

AIME

Problèmes d'olympiades de maths américaines — raisonnement mathématique de haut niveau.

Mesure: % de problèmes résolus (réponse entière exacte, pas de partiel).
Pourquoi: Un thermomètre du raisonnement en plusieurs étapes ; les meilleurs modèles y frôlent le sans-faute.

Frontière

Multimodal

MMMU

Raisonnement sur images + texte de niveau universitaire (schémas, graphiques, diagrammes).

Mesure: % de bonnes réponses sur des questions illustrées, 30 disciplines.
Pourquoi: Le test multimodal de référence : comprendre une figure, pas seulement la décrire.

Actif

Agents

OSWorld

Piloter un vrai ordinateur (souris, clavier, apps) pour accomplir des tâches — computer use.

Mesure: Taux de réussite (pass@1 %) sur des tâches d'interface réelles.
Pourquoi: Mesure la capacité de Claude à utiliser un ordinateur comme un humain.

Frontière

Code

HumanEval

Écrire une fonction correcte à partir d'une consigne. Historique, aujourd'hui quasi plafonné.

Mesure: % de fonctions correctes (pass@1) sur 164 problèmes.
Pourquoi: Longtemps LE test du code ; désormais saturé, il ne sépare plus les meilleurs modèles.

Saturé

Connaissances

MMLU

QCM sur 57 domaines (droit, médecine, histoire…). La référence connaissances, désormais plafonnée.

Mesure: % de bonnes réponses sur ~14 000 questions à choix multiple.
Pourquoi: Encore cité pour l'histoire, mais les meilleurs modèles y sont au coude-à-coude au plafond.

Saturé

Les benchmarks qui comptent

Quelques références reviennent souvent : SWE-bench (résolution de vrais bugs logiciels, clé pour le code agentique), MMLU et MMLU-Pro (connaissances générales), GPQA (raisonnement scientifique de niveau expert), MATH et GSM8K (mathématiques), HumanEval (génération de code). Chacun éclaire une facette différente — aucun ne résume « l'intelligence » à lui seul.

Comment lire un benchmark sans se faire piéger

Un score isolé ment souvent. Méfiez-vous de la contamination des données (le test a pu fuiter dans l'entraînement), des conditions (avec ou sans outils, avec quel prompt), et des versions comparées. Un modèle peut dominer un benchmark et décevoir sur votre tâche réelle. Le meilleur test reste le vôtre.

Les benchmarks agentiques

La nouvelle génération mesure l'usage d'outils et l'autonomie : SWE-bench Verified, TAU-bench, benchmarks d'agents. C'est là que se joue l'avenir, et là que les modèles taillés pour l'action — comme ceux derrière Claude Code — sont attendus au tournant.

Suivre les scores en temps réel

Les chiffres évoluent à chaque sortie de modèle. Plutôt que de figer un classement vite périmé, suivez les annonces officielles et notre fil d'actualité, catégorie Modèles, qui relaie les résultats au fil de l'eau.

Dernières actus benchmarks & évaluations

Questions fréquentes

Quel est le meilleur benchmark pour le code ?

SWE-bench (et sa variante Verified) est la référence pour le code agentique, car il mesure la résolution de vrais problèmes logiciels, pas seulement des extraits isolés.

Claude est-il le meilleur sur les benchmarks ?

Cela dépend du benchmark et de la version comparée : Claude est régulièrement en tête sur le code agentique et le raisonnement, mais aucun modèle ne domine partout. Vérifiez les scores à jour.

Où voir les scores de Claude ?

Dans les annonces officielles d'Anthropic et dans notre fil (catégorie Modèles), qui relaie les benchmarks à chaque sortie.

Peut-on se fier aux benchmarks ?

Avec prudence : contamination des données, conditions de test et choix des versions peuvent fausser la lecture. Un score n'est qu'un indice, pas une vérité.

Claude News est édité par Héra SASU. Média indépendant, non affilié à Anthropic.