Execução · Diferencial Staff/Principal

AI PM — Eval Suite Builder

PM de IA sem evals é PM de feeling. Defina a feature, escreva casos, configure o LLM-as-Judge.

Feature de IA

Eval de Exemplo (Unit)

Caso único, entrada→saída esperada. Cobre regressões pontuais.

Eval de Qualidade (Componente)

LLM-as-Judge sobre um prompt/componente isolado.

Eval de Sistema (E2E)

Pipeline completo em produção. Inclui latência e custo.

Caso #1
InputTicket: 'Não consigo entrar na conta desde ontem, app trava na splash.'
Output esperadoResumo: bug de login no Android pós-update, crash na splash.
Critério (pass/fail)Contém: bug, login, splash, sem alucinação de SO inexistente.

role

context

goal

terminology

Por que isso importa

Em produtos de IA, a diferença entre Senior e Principal é ter evals. Sem isso, você não sabe se um prompt novo melhorou ou piorou.

Armadilha comum

Confiar só em 'vibe checks'. Sem casos versionados, toda mudança vira opinião do mais barulhento.

Dica de Principal

Trate seu eval suite como código: versionado, com PR, e rodando em CI a cada mudança de prompt ou modelo.