Modèle de récompense (reward model)
Définition : Un modèle de récompense est un modèle entraîné à prédire un score de qualité pour une réponse, en imitant les préférences humaines, afin de guider l'apprentissage d'un autre modèle.
Il sert de juge automatique au cœur du RLHF : le modèle principal est optimisé pour obtenir des scores élevés de sa part. La qualité de ce modèle de récompense conditionne directement celle de l'alignement obtenu.