Benchmark (test de référence)
Définition : Un benchmark est un jeu de tests standardisé qui mesure et compare les performances de modèles sur des tâches précises.
Il donne un repère chiffré, mais reste partiel : un bon score ne garantit pas la performance en usage réel, et certains modèles peuvent surapprendre les tests. À lire avec prudence.