Qu'est-ce que Interprétabilité mécaniste ?

Question

Accepted Answer

L'interprétabilité mécaniste cherche à comprendre le fonctionnement interne d'un modèle, en identifiant les circuits et représentations qui produisent ses comportements. Le but est d'ouvrir la « boîte noire » pour expliquer, prévoir et corriger ce que fait le modèle. C'est un axe de recherche important pour la sûreté de l'IA, auquel Anthropic contribue activement.

Interprétabilité mécaniste

Voir aussi