L04 — AI Product Management — evals como competência core

Software que não dá a mesma resposta duas vezes

Você passou a carreira confiando numa regra: mesmo input, mesmo output. É assim que QA funciona. Produtos de IA quebram isso — o mesmo prompt pode gerar respostas diferentes, e "melhor" vira questão de grau, não de certo/errado. Isso muda o trabalho do .

Ideia-chave

Ideia-chave: em produto de IA, sua intuição de software determinístico te trai. O jogo deixa de ser "está certo?" e vira "quão bom, com que frequência, e a que custo?".

Evals: a nova competência core de

Se você só souber uma coisa de AI , que seja: escrever evals. é o conjunto de testes que define o que "bom" significa para o seu produto. Sem evals, você não tem produto — tem uma demo que ninguém sabe se piorou.

Aman Khan descreve três tipos: - Por exemplo — banco de casos com input + saída esperada. - De qualidade — rubricas (clareza, fidelidade, tom, segurança) em escala. - De sistema — latência, custo, taxa de erro do fluxo inteiro.

Um bom caso de tem quatro partes: Role + Context + Goal + Terminology.

Armadilha

Armadilha: confiar no "olhômetro". A demo funciona na sua frente e quebra com o cliente real. Sem um conjunto de casos versionado, toda mudança de prompt é aposta cega.

e agentes, sem misticismo

— em vez de o modelo "lembrar", você busca a informação relevante e injeta no contexto; reduz alucinação. O decide o que indexar e mede se o trecho certo foi recuperado.
Agentes — o modelo planeja, usa ferramentas e age em loop; erram por loop infinito, ferramenta errada ou contexto perdido, e o erro se acumula a cada passo.
-as-Judge — usar um modelo para avaliar a saída de outro, em escala; precisa ser calibrado contra humano, senão você confia num juiz viciado.

As métricas que importam

Accuracy sozinha engana. Meça (a resposta se sustenta nas fontes?), taxa de alucinação, latência, custo por interação e a confiança do usuário (ele aceita ou corrige?).

Na prática

Na prática: pegue uma feature de IA e escreva 5 casos de com Role+Context+Goal+Terminology. Esse artefato te coloca à frente de 95% dos PMs.

AI Product Management — evals como competência core

Software que não dá a mesma resposta duas vezes

Evals: a nova competência core de PM

RAG e agentes, sem misticismo

As métricas que importam

Evals: a nova competência core de

e agentes, sem misticismo