Blog AWS, Dados e IA

Insight

03/06/2026

14 min de leitura

Inferência NVFP4 em GPUs Blackwell SM120: vLLM, FlashInfer e o que funcionou

Notas de campo sobre serving de inferência NVFP4 em GPUs Blackwell SM120 com vLLM, FlashInfer b12x, KV cache FP8, decodificação especulativa e benchmarks com perfil de produção — incluindo a fronteira entre modelo-alvo e drafter que estabilizou a implantação e por que o pico inicial não se sustentou na reprodução.

Ler artigo

Cloud, dados e IA na prática.

Atividade recente

Elevata nomeia Dave Lindon como gerente-geral

Governando Claude Code, Desktop e Codex atrás de um único gateway Bedrock

Claude Sonnet 5 deve virar seu modelo padrão no AWS Bedrock?

Claude Tag no Slack: como funciona, o que pode acessar e como adotar com segurança na AWS

AWS Lambda MicroVMs para agentes de IA: arquitetura, segurança, custos e quando usar

Elevata firma Acordo de Colaboração Estratégica com a AWS

Inferência NVFP4 em GPUs Blackwell SM120: vLLM, FlashInfer e o que funcionou

Elevata é nomeada parceira de lançamento do AWS Partner Innovation Hub em Toronto

Claude Opus 4.8: o ranking não é seu benchmark

Sandbox Governado para Agentes de IA na AWS