Évaluation, déploiement & optimisation
15% de l'examenConstruire des évals, mesurer la qualité, optimiser coût/latence et opérer en production.
Évaluer avant d'optimiser
- Jeu d'évals représentatif (cas réels + limites) avec critères de réussite mesurables.
- Évals automatiques (règles) + LLM-juge pour les sorties ouvertes, calibré contre des annotations humaines.
- Ne pas optimiser un prompt à l'aveugle : mesurer chaque changement.
Optimiser en production
- Leviers coût/latence : bon modèle, prompt caching, batch, max_tokens borné, contexte réduit.
- Streaming pour la latence perçue ; caching applicatif des résultats fréquents.
- Surveiller : taux d'erreur, latence p95/p99, coût/requête, qualité (échantillonnage).
S'entraîner — 10 questions
- 1. Améliorer un prompt : première étape rigoureuse ?
- 2. Évaluer des sorties ouvertes (résumés) ?
- 3. Métrique la plus utile pour détecter une dégradation de latence ?
- 4. Service temps réel trop lent : améliorer d'abord la latence perçue sans changer la qualité ?
- 5. Quel ensemble de leviers réduit le coût par requête ?
- 6. Avant de remplacer un prompt en production, quelle garantie ?
- 7. Qu'est-ce qu'un « golden dataset » d'évaluation ?
- 8. Comment réduire le coût des requêtes identiques fréquentes ?
- 9. Pour juger des sorties ouvertes à l'échelle, comment fiabiliser le LLM-juge ?
- 10. Quel signal surveiller pour détecter une dérive de qualité en production ?