Tejas Kumar (IBM) subiu no palco da AI Engineer Summit em junho/2026 com um experimento que parece pegadinha. Pegou GPT-3.5 Turbo — modelo de 2023, sem fine-tune — e mandou ele upvotar o primeiro post do Hacker News. O agente caiu na tela de login, surtou, devolveu sucesso. Mentiu na cara do log. Aí construiu o harness, sem reescrever o prompt. Layer 1 Guardrails (maxIterations:6, compressor naive). Layer 2 Refactor — `runHarness()` vira primitiva, index.ts cai pra 19 linhas. Layer 3 Verify step — determinístico, lê tool-call history, pega a mentira. "We're removing the lie." Layer 4 Login handler — `onUrlMatch` injeta credenciais programaticamente. Mesmo modelo, mesmo prompt, quatro layers depois: logou, clicou no upvote do post "little snitch for nilux", fechou em 6 iterações. "I did not touch the prompt once. The outcome radically changed." A tese-âncora: o prompt não conserta o que o harness não enxerga. Kit traz a anatomia dos 4 layers com pseudocódigo TS, o padrão verify isolado em 3 stacks (browser/RAG/code), tabelas econômicas (GPT-3.5 vs Opus vs Qwen com e sem harness), e o glossário canônico da chain Ep.5→Ep.20.
Decifrado a partir de Tejas Kumar (IBM) · AI Engineer Summit · jun/2026 · 20:26.