Glossaire de l'IA

Tous les termes de l'intelligence artificielle expliqués simplement : LLM, RAG, agents, tokens, fine-tuning, hallucination… Définitions claires et à jour.

Agent IAUn agent IA combine un modèle, des outils et une boucle de décision pour accomplir une tâche en plusieurs étapes de façon autonome.
AGI (intelligence artificielle générale)L'AGI désigne une IA hypothétique aussi polyvalente que l'humain, capable d'accomplir n'importe quelle tâche intellectuelle.
Chain-of-thought (raisonnement étape par étape)Le chain-of-thought consiste à faire raisonner un modèle étape par étape avant de répondre, ce qui améliore nettement les tâches complexes (maths, logique).
DistillationLa distillation entraîne un petit modèle (« élève ») à imiter un grand modèle (« professeur »), pour obtenir un modèle plus léger et rapide proche de l'original.
Embeddings (plongements vectoriels)Un embedding est une représentation numérique (un vecteur) d'un texte, qui capture son sens : deux textes proches par le sens ont des vecteurs proches.
Fenêtre de contexteLa fenêtre de contexte est la quantité de texte (en tokens) qu'un modèle peut prendre en compte d'un coup — son « espace de travail ».
Fine-tuning (ajustement fin)Le fine-tuning consiste à ré-entraîner un modèle pré-existant sur des données spécifiques, pour l'adapter à un domaine ou un style.
HallucinationUne hallucination est une réponse d'IA fausse mais formulée avec assurance — le modèle « invente » une information plausible.
IA constitutionnelle (Constitutional AI)L'IA constitutionnelle est la méthode d'Anthropic pour aligner Claude : le modèle suit un ensemble de principes (une « constitution ») guidant des réponses utiles, honnêtes et inoffensives.
InférenceL'inférence est l'étape où un modèle déjà entraîné produit une réponse à partir d'une entrée — l'« exécution » du modèle, par opposition à l'entraînement.
LLM (grand modèle de langage)Un LLM (Large Language Model) est un modèle d'IA entraîné sur d'immenses corpus de texte pour comprendre et générer du langage.
Mixture of Experts (mélange d'experts)Un modèle Mixture of Experts (MoE) n'active qu'une partie de ses paramètres (des « experts ») à chaque requête, pour plus de puissance à coût de calcul réduit.
Modèle de diffusionUn modèle de diffusion génère une image (ou vidéo) en partant d'un bruit aléatoire qu'il « débruite » progressivement jusqu'à obtenir le résultat.
MultimodalUn modèle multimodal sait traiter plusieurs types d'entrées — texte, image, audio, parfois vidéo — et non le seul texte.
Open weights (poids ouverts)Un modèle « à poids ouverts » a ses paramètres publiés : on peut le télécharger, l'auto-héberger, l'auditer et le fine-tuner.
Paramètres (parameters)Les paramètres sont les valeurs internes apprises par un modèle pendant l'entraînement ; leur nombre (souvent en milliards) donne une idée de sa taille.
Prompt engineering (ingénierie de requête)Le prompt engineering est l'art de formuler des consignes (prompts) claires et structurées pour obtenir les meilleures réponses d'un modèle.
Prompt injection (injection de requête)La prompt injection est une attaque où un contenu malveillant (dans une page, un document) détourne les instructions d'un modèle pour lui faire exécuter des actions non voulues.
Quantification (quantization)La quantification réduit la précision numérique d'un modèle (par ex. de 16 à 8 bits) pour le rendre plus léger et plus rapide, avec une perte de qualité limitée.
RAG (génération augmentée par récupération)Le RAG (Retrieval-Augmented Generation) consiste à fournir au modèle des documents pertinents récupérés à la volée, pour qu'il réponde sur des faits à jour et cite ses sources.
RLHF (apprentissage par renforcement avec retour humain)Le RLHF entraîne un modèle à partir de préférences humaines : des humains notent les réponses, et le modèle apprend à produire celles qui sont préférées.
Température (échantillonnage)La température règle l'aléa des réponses d'un modèle : basse = réponses sûres et déterministes ; haute = plus créatives mais moins fiables.
Token (jeton)Un token est l'unité de base que traite un LLM : un morceau de mot (souvent ~4 caractères en anglais). Le texte est découpé en tokens avant traitement.
Transformer (architecture)Le Transformer est l'architecture de réseau de neurones qui sous-tend les LLM modernes, fondée sur le mécanisme d'« attention ».
Vibe codingLe « vibe coding » désigne la pratique de programmer en décrivant son intention en langage naturel à une IA, qui écrit et modifie le code.