Garde-fous vs alignement
Définition : Les garde-fous filtrent les entrées et sorties d'un modèle déjà entraîné, comme une barrière externe ; l'alignement vise à façonner le comportement du modèle lui-même pendant son entraînement.
Les garde-fous agissent en surface et peuvent être contournés, mais s'ajustent vite ; l'alignement va plus en profondeur mais se décide en amont, lors de l'entraînement. Une approche robuste combine généralement les deux niveaux de défense.