Mapa da jornada
Execução · Diferencial Staff/Principal
AI PM — Eval Suite Builder
PM de IA sem evals é PM de feeling. Defina a feature, escreva casos, configure o LLM-as-Judge.
Eval de Exemplo (Unit)
Caso único, entrada→saída esperada. Cobre regressões pontuais.
Eval de Qualidade (Componente)
LLM-as-Judge sobre um prompt/componente isolado.
Eval de Sistema (E2E)
Pipeline completo em produção. Inclui latência e custo.
Casos de teste
- Caso #1
LLM-as-Judge (4 partes — Aman Khan)
Métricas a acompanhar
- Groundednessrespostas ancoradas em fontes recuperadas
- Hallucination rate% de afirmações sem evidência
- Latência p95tempo de resposta percentil 95
- Custo / 1k reqUSD por mil chamadas
Por que isso importa
Em produtos de IA, a diferença entre Senior e Principal é ter evals. Sem isso, você não sabe se um prompt novo melhorou ou piorou.
Armadilha comum
Confiar só em 'vibe checks'. Sem casos versionados, toda mudança vira opinião do mais barulhento.
Dica de Principal
Trate seu eval suite como código: versionado, com PR, e rodando em CI a cada mudança de prompt ou modelo.