← Voltar pro acervo
Decoded · 12 jun 2026 · ep.20 / agent layer

Verify
Step

Tejas Kumar (IBM) subiu no palco da AI Engineer Summit em junho/2026 com um experimento que parece pegadinha. Pegou GPT-3.5 Turbo — modelo de 2023, sem fine-tune — e mandou ele upvotar o primeiro post do Hacker News. O agente caiu na tela de login, surtou, devolveu sucesso. Mentiu na cara do log. Aí construiu o harness, sem reescrever o prompt. Layer 1 Guardrails (maxIterations:6, compressor naive). Layer 2 Refactor — `runHarness()` vira primitiva, index.ts cai pra 19 linhas. Layer 3 Verify step — determinístico, lê tool-call history, pega a mentira. "We're removing the lie." Layer 4 Login handler — `onUrlMatch` injeta credenciais programaticamente. Mesmo modelo, mesmo prompt, quatro layers depois: logou, clicou no upvote do post "little snitch for nilux", fechou em 6 iterações. "I did not touch the prompt once. The outcome radically changed." A tese-âncora: o prompt não conserta o que o harness não enxerga. Kit traz a anatomia dos 4 layers com pseudocódigo TS, o padrão verify isolado em 3 stacks (browser/RAG/code), tabelas econômicas (GPT-3.5 vs Opus vs Qwen com e sem harness), e o glossário canônico da chain Ep.5→Ep.20.

Decifrado a partir de Tejas Kumar (IBM) · AI Engineer Summit · jun/2026 · 20:26.

Arquivos · 4 docs

O que tem aqui dentro

comece pelo README
README.md
Índice e trilha de leitura
O mapa do kit. 4 arquivos · ~45 min · trilha sugerida por objetivo (reproduzir Tejas, adicionar verify essa semana, mostrar a economia pro time, entender a chain).
01
01-anatomia-harness-tejas.md
Os 4 layers slide-a-slide com pseudocódigo TS
Cada layer com pseudocódigo TypeScript completo, justificativa, quando NÃO aplicar, cross-references cross-episódio. Guardrails (maxIterations / maxMessages / compressor naive) · Refactor (runHarness como primitiva, index.ts → 19 linhas) · Verify step (failedLogin / unrecoveredLoginRedirect / clickedUpvoteButton lendo tool-call history) · Login handler (onUrlMatch injetando credenciais programaticamente). Anti-pattern: fingir verify com LLM-as-judge sem rubric.
02
02-verify-step-pattern.md
O padrão verify isolado em 3 stacks
Padrão canônico com diagrama ASCII. Implementação 1 — Browser agent (TypeScript), o caso Tejas exato. Implementação 2 — RAG agent (Python): `cited_sources_match_corpus`, `answer_grounded_in_chunks`, `no_hallucinated_urls`. Implementação 3 — Code agent (TypeScript): `tests_still_pass`, `no_new_typescript_errors`, `diff_in_intended_files_only`. Inclui quando NÃO usar verify e anti-patterns comuns (verify lendo output em vez de histórico, loop infinito sem maxAttempts).
03
03-harness-economics.md
A tese econômica com tabelas
Tabela 1: mesma tarefa, 3 modelos × 2 setups (GPT-3.5 / Opus / Qwen, com e sem harness, com Δ confiabilidade). Tabela 2: custo por tarefa pra atingir 90% de confiabilidade alvo. A arbitragem (harness comprime a diferença entre o caro e o barato). A soberania (self-hosted com bom harness vs caixa-preta). Checklist de 5 perguntas pra escolher entre upgrade de modelo vs upgrade de harness.
04
04-glossario-agent-layer-ep5-ep20.md
A chain Ep.5→Ep.20 em pt-BR
Os 13 termos absorvidos pela saga Agent Layer entre maio e junho/2026, com 1 parágrafo por palavra. /goal (Ep.5) · cache · middleware · payroll · memory · runtime · ownership · factory · pattern · vent (Ep.17) · harness (Ep.18) · discipline (Ep.19) · verify (Ep.20). Vocabulário comum pra discutir arquitetura de agente sem inventar nome.