En directEN

Tokeniseur (tokenizer)

Définition : Un tokeniseur est le composant qui découpe un texte en tokens avant qu'un modèle ne le traite, et qui reconvertit les tokens en texte à la sortie.

Il définit comment les mots, morceaux de mots et caractères sont représentés. Son découpage influence le nombre de tokens facturés et la façon dont le modèle gère les langues et les mots rares.

Voir aussi

← Tout le glossaire IA · Actualité de l'IA