En directEN

Interprétabilité mécaniste

Définition : L'interprétabilité mécaniste cherche à comprendre le fonctionnement interne d'un modèle, en identifiant les circuits et représentations qui produisent ses comportements.

Le but est d'ouvrir la « boîte noire » pour expliquer, prévoir et corriger ce que fait le modèle. C'est un axe de recherche important pour la sûreté de l'IA, auquel Anthropic contribue activement.

Voir aussi

← Tout le glossaire IA · Actualité de l'IA