En directEN

Latence (latency)

Définition : La latence est le délai entre l'envoi d'une requête à un modèle et la réception de sa réponse, souvent mesuré jusqu'au premier token généré.

Elle conditionne la fluidité des applications interactives. Le streaming, la mise en cache du contexte et des modèles plus petits aident à la réduire.

Voir aussi

← Tout le glossaire IA · Actualité de l'IA