Alavancas principais
- Seleção de modelo por tarefa: classificação simples, extração, síntese e raciocínio denso não precisam do mesmo modelo.
- Tamanho de prompt, compressão de instruções e contexto recuperado: cada trecho irrelevante aumenta custo e pode piorar resposta.
- Cache, roteamento, lote, limites por ambiente e controle de tráfego de teste reduzem recomputação desnecessária.


