Software que não dá a mesma resposta duas vezes
Você passou a carreira confiando numa regra: mesmo input, mesmo output. É assim que QA funciona. Produtos de IA quebram isso — o mesmo prompt pode gerar respostas diferentes, e "melhor" vira questão de grau, não de certo/errado. Isso muda o trabalho do .
Evals: a nova competência core de
Se você só souber uma coisa de AI , que seja: escrever evals. é o conjunto de testes que define o que "bom" significa para o seu produto. Sem evals, você não tem produto — tem uma demo que ninguém sabe se piorou.
Aman Khan descreve três tipos: - Por exemplo — banco de casos com input + saída esperada. - De qualidade — rubricas (clareza, fidelidade, tom, segurança) em escala. - De sistema — latência, custo, taxa de erro do fluxo inteiro.
Um bom caso de tem quatro partes: Role + Context + Goal + Terminology.
e agentes, sem misticismo
- — em vez de o modelo "lembrar", você busca a informação relevante e injeta no contexto; reduz alucinação. O decide o que indexar e mede se o trecho certo foi recuperado.
- Agentes — o modelo planeja, usa ferramentas e age em loop; erram por loop infinito, ferramenta errada ou contexto perdido, e o erro se acumula a cada passo.
- -as-Judge — usar um modelo para avaliar a saída de outro, em escala; precisa ser calibrado contra humano, senão você confia num juiz viciado.
As métricas que importam
Accuracy sozinha engana. Meça (a resposta se sustenta nas fontes?), taxa de alucinação, latência, custo por interação e a confiança do usuário (ele aceita ou corrige?).