Interprétabilité mécaniste
Définition : L'interprétabilité mécaniste cherche à comprendre le fonctionnement interne d'un modèle, en identifiant les circuits et représentations qui produisent ses comportements.
Le but est d'ouvrir la « boîte noire » pour expliquer, prévoir et corriger ce que fait le modèle. C'est un axe de recherche important pour la sûreté de l'IA, auquel Anthropic contribue activement.