RLHF (apprentissage par renforcement avec retour humain)
Définition : Le RLHF entraîne un modèle à partir de préférences humaines : des humains notent les réponses, et le modèle apprend à produire celles qui sont préférées.
C'est une étape clé de l'alignement des assistants. Anthropic complète cette approche par l'IA constitutionnelle.