En directEN

Garde-fous vs alignement

Définition : Les garde-fous filtrent les entrées et sorties d'un modèle déjà entraîné, comme une barrière externe ; l'alignement vise à façonner le comportement du modèle lui-même pendant son entraînement.

Les garde-fous agissent en surface et peuvent être contournés, mais s'ajustent vite ; l'alignement va plus en profondeur mais se décide en amont, lors de l'entraînement. Une approche robuste combine généralement les deux niveaux de défense.

Voir aussi

← Tout le glossaire IA · Actualité de l'IA