PM Forge · jornada hands-on para Staff/Principal PM
Mapa da jornada
Execução · Diferencial Staff/Principal

AI PM — Eval Suite Builder

PM de IA sem evals é PM de feeling. Defina a feature, escreva casos, configure o LLM-as-Judge.

Eval de Exemplo (Unit)

Caso único, entrada→saída esperada. Cobre regressões pontuais.

Eval de Qualidade (Componente)

LLM-as-Judge sobre um prompt/componente isolado.

Eval de Sistema (E2E)

Pipeline completo em produção. Inclui latência e custo.

Casos de teste

  • Caso #1

LLM-as-Judge (4 partes — Aman Khan)

Métricas a acompanhar

  • Groundedness
    respostas ancoradas em fontes recuperadas
  • Hallucination rate
    % de afirmações sem evidência
  • Latência p95
    tempo de resposta percentil 95
  • Custo / 1k req
    USD por mil chamadas
Por que isso importa

Em produtos de IA, a diferença entre Senior e Principal é ter evals. Sem isso, você não sabe se um prompt novo melhorou ou piorou.

Armadilha comum

Confiar só em 'vibe checks'. Sem casos versionados, toda mudança vira opinião do mais barulhento.

Dica de Principal

Trate seu eval suite como código: versionado, com PR, e rodando em CI a cada mudança de prompt ou modelo.