← Voltar pro acervo
Decoded · 15 mai 2026 · ep.7 / agent layer

Pre-warming the cache
Kit PT-BR · 92% off por leitura na Claude API

A Anthropic documentou em maio/2026 um pattern que muda a economia de qualquer app rodando Claude API em produção. Você dispara um request com max_tokens: 0 antes do user chegar. A API faz o prefill, escreve no cache, e retorna content vazio. O primeiro request real já cai num cache quente — paga 10% do preço base e ganha latência mínima. Cache virou primitiva. Este kit cobre o mecanismo completo, código Python e Node, economia detalhada dos 3 modelos, decision matrix 5m vs 1h, 7 anti-patterns de produção, e glossário.

Decifrado da documentação oficial · platform.claude.com/docs/en/build-with-claude/prompt-caching · 15.05.2026.

Arquivos · 7 docs

O que tem aqui dentro

comece pelo README
README.md
Índice e ordem de leitura
O mapa do kit. 3 trilhas conforme seu ponto de partida — nunca usou cache, já usa e quer pre-warm, ou só quer entender se vale a pena pagar o write.
01
01-prompt-caching-explicado.md
O que é + pre-warming explicado
O mecanismo básico, automático vs explícito, hierarquia tools→system→messages, o que pode ser cacheado, mínimos por modelo, e a tese semântica (cache virou primitiva).
02
02-prewarming-passo-a-passo.md
Código completo · Python + Node + FastAPI + Express
SDK oficial em Python e Node, integração FastAPI com lifespan, integração Express, cron de 4min pra manter 5m cache sempre quente, validação obrigatória. Pronto pra colar em produção.
03
03-cache-economics.md
Pricing + ROI + break-even nos 3 modelos
Pricing oficial Opus / Sonnet / Haiku. Comparação concreta com 100k tokens. Break-even em 1.25 reads. Cost ladder 5m vs 1h. Cenário real de 1 mês: 89.6% de economia.
04
04-quando-5m-ou-1h.md
Decision matrix TTL · 5min vs 1 hora
Quando usar cada TTL, mixing 5m + 1h no mesmo request (com constraint de ordem), padrão recomendado de stacked TTLs em produção, árvore de decisão TL;DR.
05
05-anti-patterns-cache.md
7 erros que matam o cache silenciosamente
cache_control no lugar errado, prompt abaixo do mínimo, não checar usage, 1h pra prompt que recicla, max_tokens:0 com features avançadas, deploy invalidando cache, citations não cacheia. Sintoma + fix de cada.
06
06-glossario.md
Glossário PT-BR · 28 termos
Automatic caching, breakpoint, cache_control, cache_creation_input_tokens, cache hit/miss, ephemeral cache, MTok, prefill phase, pre-warming, primitive, prompt caching, SDK, stop_reason, system prompt, TTL, tools, usage. Inclui termos relacionados (Message Batches, streaming, structured outputs).