En directEN

Cache KV (KV cache)

Définition : Le cache KV stocke les calculs d'attention déjà effectués pour les tokens précédents, afin de ne pas les recalculer à chaque nouveau token généré.

C'est une optimisation clé qui accélère fortement la génération token par token. Il consomme de la mémoire proportionnelle à la longueur du contexte, ce qui pèse sur les très longs prompts.

Voir aussi

← Tout le glossaire IA · Actualité de l'IA