Évaluation, déploiement & optimisation

15% de l'examen

Construire des évals, mesurer la qualité, optimiser coût/latence et opérer en production.

Évaluer avant d'optimiser

  • Jeu d'évals représentatif (cas réels + limites) avec critères de réussite mesurables.
  • Évals automatiques (règles) + LLM-juge pour les sorties ouvertes, calibré contre des annotations humaines.
  • Ne pas optimiser un prompt à l'aveugle : mesurer chaque changement.

Optimiser en production

  • Leviers coût/latence : bon modèle, prompt caching, batch, max_tokens borné, contexte réduit.
  • Streaming pour la latence perçue ; caching applicatif des résultats fréquents.
  • Surveiller : taux d'erreur, latence p95/p99, coût/requête, qualité (échantillonnage).

S'entraîner — 10 questions

0/10 répondue
  1. 1. Améliorer un prompt : première étape rigoureuse ?
  2. 2. Évaluer des sorties ouvertes (résumés) ?
  3. 3. Métrique la plus utile pour détecter une dégradation de latence ?
  4. 4. Service temps réel trop lent : améliorer d'abord la latence perçue sans changer la qualité ?
  5. 5. Quel ensemble de leviers réduit le coût par requête ?
  6. 6. Avant de remplacer un prompt en production, quelle garantie ?
  7. 7. Qu'est-ce qu'un « golden dataset » d'évaluation ?
  8. 8. Comment réduire le coût des requêtes identiques fréquentes ?
  9. 9. Pour juger des sorties ouvertes à l'échelle, comment fiabiliser le LLM-juge ?
  10. 10. Quel signal surveiller pour détecter une dérive de qualité en production ?

← Retour à l'Academy · Examen blanc →