Débit (throughput)
Définition : Le débit mesure la quantité de travail qu'un système d'IA traite par unité de temps, par exemple en tokens par seconde ou en requêtes par seconde.
Il complète la latence : un service peut répondre vite à un utilisateur (faible latence) tout en servant beaucoup de requêtes en parallèle (fort débit). Il dépend du modèle, du matériel et du traitement par lots.