A Anthropic documentou em maio/2026 um pattern que muda a economia de qualquer app rodando Claude API em produção. Você dispara um request com max_tokens: 0 antes do user chegar. A API faz o prefill, escreve no cache, e retorna content vazio. O primeiro request real já cai num cache quente — paga 10% do preço base e ganha latência mínima. Cache virou primitiva. Este kit cobre o mecanismo completo, código Python e Node, economia detalhada dos 3 modelos, decision matrix 5m vs 1h, 7 anti-patterns de produção, e glossário.
Decifrado da documentação oficial · platform.claude.com/docs/en/build-with-claude/prompt-caching · 15.05.2026.