Qu'est-ce que Cache KV (KV cache) ?

Question

Accepted Answer

Le cache KV stocke les calculs d'attention déjà effectués pour les tokens précédents, afin de ne pas les recalculer à chaque nouveau token généré. C'est une optimisation clé qui accélère fortement la génération token par token. Il consomme de la mémoire proportionnelle à la longueur du contexte, ce qui pèse sur les très longs prompts.

Cache KV (KV cache)

Voir aussi