PM Forge · jornada hands-on para Staff/Principal PM
Voltar à trilha
L04AI PM · AI Product6 minLição 12/17 · passo 1/5

AI Product Management — evals como competência core

Software vira probabilístico. Escrever EVALS virou competência core. RAG, agents e LLM-as-Judge.

🎯 Seu palpite antes da lição

Errar aqui não custa nada — e ajuda a fixar o conteúdo. +5 XP por registrar.

✍️ Escreva seu próprio TL;DR

Em 1 frase, o que você acha que essa lição vai te ensinar? Tentar gera memória mais forte do que ler. +3 XP.

Não tem certo nem errado — escreva seu palpite.

🎬 A cena

Dani lançou a categorização automática numa demo impecável. Em produção, ela errava com clientes reais — e ninguém sabia dizer se uma mudança de prompt melhorava ou piorava as coisas. Foi quando ela escreveu seu primeiro conjunto de evals e parou de apostar no escuro.

Software que não dá a mesma resposta duas vezes

Você passou a carreira confiando numa regra: mesmo input, mesmo output. É assim que QA funciona. Produtos de IA quebram isso — o mesmo prompt pode gerar respostas diferentes, e "melhor" vira questão de grau, não de certo/errado. Isso muda o trabalho do .

Ideia-chave
Ideia-chave: em produto de IA, sua intuição de software determinístico te trai. O jogo deixa de ser "está certo?" e vira "quão bom, com que frequência, e a que custo?".

Evals: a nova competência core de

Se você só souber uma coisa de AI , que seja: escrever evals. é o conjunto de testes que define o que "bom" significa para o seu produto. Sem evals, você não tem produto — tem uma demo que ninguém sabe se piorou.

Aman Khan descreve três tipos: - Por exemplo — banco de casos com input + saída esperada. - De qualidade — rubricas (clareza, fidelidade, tom, segurança) em escala. - De sistema — latência, custo, taxa de erro do fluxo inteiro.

Um bom caso de tem quatro partes: Role + Context + Goal + Terminology.

Armadilha
Armadilha: confiar no "olhômetro". A demo funciona na sua frente e quebra com o cliente real. Sem um conjunto de casos versionado, toda mudança de prompt é aposta cega.

e agentes, sem misticismo

  • em vez de o modelo "lembrar", você busca a informação relevante e injeta no contexto; reduz alucinação. O decide o que indexar e mede se o trecho certo foi recuperado.
  • Agenteso modelo planeja, usa ferramentas e age em loop; erram por loop infinito, ferramenta errada ou contexto perdido, e o erro se acumula a cada passo.
  • -as-Judgeusar um modelo para avaliar a saída de outro, em escala; precisa ser calibrado contra humano, senão você confia num juiz viciado.

As métricas que importam

Accuracy sozinha engana. Meça (a resposta se sustenta nas fontes?), taxa de alucinação, latência, custo por interação e a confiança do usuário (ele aceita ou corrige?).

Na prática
Na prática: pegue uma feature de IA e escreva 5 casos de com Role+Context+Goal+Terminology. Esse artefato te coloca à frente de 95% dos PMs.