Cache KV (KV cache)
Définition : Le cache KV stocke les calculs d'attention déjà effectués pour les tokens précédents, afin de ne pas les recalculer à chaque nouveau token généré.
C'est une optimisation clé qui accélère fortement la génération token par token. Il consomme de la mémoire proportionnelle à la longueur du contexte, ce qui pèse sur les très longs prompts.