
03/06/2026
Inferência NVFP4 em GPUs Blackwell SM120: vLLM, FlashInfer e o que funcionou
Notas de campo sobre serving de inferência NVFP4 em GPUs Blackwell SM120 com vLLM, FlashInfer b12x, KV cache FP8, decodificação especulativa e benchmarks com perfil de produção — incluindo a fronteira entre modelo-alvo e drafter que estabilizou a implantação e por que o pico inicial não se sustentou na reprodução.
Ler artigo







