Alignement (alignment)
Définition : L'alignement désigne l'effort pour qu'un système d'IA agisse conformément aux intentions et aux valeurs humaines, de façon utile, honnête et sûre.
Il couvre des techniques d'entraînement comme le RLHF et l'IA constitutionnelle, et des recherches sur le contrôle des modèles très capables. C'est un axe central des travaux d'Anthropic.