Red teaming (test adverse)
Définition : Le red teaming consiste à attaquer délibérément un modèle pour révéler ses failles : contenus dangereux, contournements, biais, avant une mise en production.
Des testeurs cherchent à provoquer les pires comportements pour les corriger en amont. C'est une pratique clé de l'évaluation de sûreté des modèles.