Évaluation, déploiement & optimisation

15% de l'examen

Construire des évals, mesurer la qualité, optimiser coût/latence et opérer en production.

Évaluer avant d'optimiser

Jeu d'évals représentatif (cas réels + limites) avec critères de réussite mesurables.
Évals automatiques (règles) + LLM-juge pour les sorties ouvertes, calibré contre des annotations humaines.
Ne pas optimiser un prompt à l'aveugle : mesurer chaque changement.

Leviers coût/latence : bon modèle, prompt caching, batch, max_tokens borné, contexte réduit.
Streaming pour la latence perçue ; caching applicatif des résultats fréquents.
Surveiller : taux d'erreur, latence p95/p99, coût/requête, qualité (échantillonnage).

0/10 répondue

1. Améliorer un prompt : première étape rigoureuse ?
2. Évaluer des sorties ouvertes (résumés) ?
3. Métrique la plus utile pour détecter une dégradation de latence ?
4. Service temps réel trop lent : améliorer d'abord la latence perçue sans changer la qualité ?
5. Quel ensemble de leviers réduit le coût par requête ?
6. Avant de remplacer un prompt en production, quelle garantie ?
7. Qu'est-ce qu'un « golden dataset » d'évaluation ?
8. Comment réduire le coût des requêtes identiques fréquentes ?
9. Pour juger des sorties ouvertes à l'échelle, comment fiabiliser le LLM-juge ?
10. Quel signal surveiller pour détecter une dérive de qualité en production ?