En directEN

Red teaming (test adverse)

Définition : Le red teaming consiste à attaquer délibérément un modèle pour révéler ses failles : contenus dangereux, contournements, biais, avant une mise en production.

Des testeurs cherchent à provoquer les pires comportements pour les corriger en amont. C'est une pratique clé de l'évaluation de sûreté des modèles.

Voir aussi

← Tout le glossaire IA · Actualité de l'IA