RLHF (apprentissage par renforcement avec retour humain)

Définition : Le RLHF entraîne un modèle à partir de préférences humaines : des humains notent les réponses, et le modèle apprend à produire celles qui sont préférées.

C'est une étape clé de l'alignement des assistants. Anthropic complète cette approche par l'IA constitutionnelle.

Voir aussi

← Tout le glossaire IA · Actualité de l'IA