Kit · Pre-warming the cache (Anthropic)

◆

README.md

Índice e ordem de leitura

O mapa do kit. 3 trilhas conforme seu ponto de partida — nunca usou cache, já usa e quer pre-warm, ou só quer entender se vale a pena pagar o write.

→

01

01-prompt-caching-explicado.md

O que é + pre-warming explicado

O mecanismo básico, automático vs explícito, hierarquia tools→system→messages, o que pode ser cacheado, mínimos por modelo, e a tese semântica (cache virou primitiva).

→

02

02-prewarming-passo-a-passo.md

Código completo · Python + Node + FastAPI + Express

SDK oficial em Python e Node, integração FastAPI com lifespan, integração Express, cron de 4min pra manter 5m cache sempre quente, validação obrigatória. Pronto pra colar em produção.

→

03

03-cache-economics.md

Pricing + ROI + break-even nos 3 modelos

Pricing oficial Opus / Sonnet / Haiku. Comparação concreta com 100k tokens. Break-even em 1.25 reads. Cost ladder 5m vs 1h. Cenário real de 1 mês: 89.6% de economia.

→

04

04-quando-5m-ou-1h.md

Decision matrix TTL · 5min vs 1 hora

Quando usar cada TTL, mixing 5m + 1h no mesmo request (com constraint de ordem), padrão recomendado de stacked TTLs em produção, árvore de decisão TL;DR.

→

05

05-anti-patterns-cache.md

7 erros que matam o cache silenciosamente

cache_control no lugar errado, prompt abaixo do mínimo, não checar usage, 1h pra prompt que recicla, max_tokens:0 com features avançadas, deploy invalidando cache, citations não cacheia. Sintoma + fix de cada.

→

06

06-glossario.md

Glossário PT-BR · 28 termos

Automatic caching, breakpoint, cache_control, cache_creation_input_tokens, cache hit/miss, ephemeral cache, MTok, prefill phase, pre-warming, primitive, prompt caching, SDK, stop_reason, system prompt, TTL, tools, usage. Inclui termos relacionados (Message Batches, streaming, structured outputs).

→

Pre-warming the cache
Kit PT-BR · 92% off por leitura na Claude API

O que tem aqui dentro