ico

Cases

Agentic AI: De pricing por token a inference escalável na AWS

Sobre a Empresa
website-case-logo-agentic

 

Uma empresa brasileira de Agentic AI focada no desenvolvimento de agentes de AI resilientes, seguros e culturalmente conscientes, capazes de criar interações mais humanizadas entre pessoas e sistemas. Oferecidas no modelo AI-as-a-Service (AIaaS), suas soluções permitem que organizações implantem “digital people” atuando na linha de frente do atendimento, operando em escala, integrados ao stack de software já existente e colaborando com equipes humanas.

 

A empresa atende grandes organizações, incluindo instituições do setor financeiro e ambientes com milhões de usuários. Nesse contexto, sistemas de experiência do cliente precisam operar com consistência sob alto volume, ao mesmo tempo em que atendem exigências rigorosas de segurança, governança e responsabilidade legal. Por isso, previsibilidade de custos e controle operacional são tão críticos quanto a qualidade dos modelos.

Os Desafios

A plataforma utilizava o Amazon Bedrock, mas a economia de inference baseada em tokens passou a criar um limite para o crescimento em escala. O alto consumo de tokens gerava custos variáveis elevados, e essa variabilidade dificultava o planejamento e a expansão sustentável da operação. Além disso, em grandes volumes, restrições associadas a serviços gerenciados — como limites de throughput e controle de performance — tornam-se mais visíveis, especialmente quando latência previsível e alta capacidade de resposta são fundamentais para a experiência do usuário.

 

Em resumo, era necessário controlar custos de inference sem comprometer qualidade. Também era necessário um modelo que permitisse escalar a base de usuários sem que o custo crescesse de forma linear com o uso de tokens, além de maior controle sobre onde a inference é executada e onde os dados residem — um ponto especialmente sensível para clientes enterprise e ambientes regulados.

A Solução

A Elevata conduziu um programa estruturado de benchmarking e migração para mover a operação de um modelo de inference gerenciado, baseado em tokens, para um modelo de inference baseado em capacidade, utilizando open-weight models hospedados dentro do próprio ambiente AWS do cliente.

 

O trabalho começou com uma fase de benchmarking de inference em diferentes opções de hardware e famílias de instâncias. A Elevata testou open-weight models em chips e aceleradores como AWS Inferentia2 e GPUs das famílias L40S, H100 e B200 Blackwell. A escolha do hardware não foi tratada apenas como uma decisão de infraestrutura: os testes foram diretamente associados a KPIs operacionais de inference, como tokens por segundo, latência, características de output e validação funcional da qualidade dos modelos candidatos.

 

Essa etapa gerou uma base objetiva de decisão, identificando quais combinações ofereciam o melhor equilíbrio entre custo, throughput e tempo de resposta, sem comprometer os requisitos funcionais do cliente. Com esse baseline definido, a Elevata implementou a migração do uso do Bedrock para modelos open-weight auto-hospedados em instâncias AWS com GPUs e chips dedicados a inference.

 

Essa mudança alterou de forma significativa o modelo financeiro da operação. Em vez de pagar um valor variável por token, o cliente passou a pagar por capacidade de infraestrutura. Essa capacidade pode ser planejada, medida e escalada de forma previsível, trazendo maior clareza de unit economics e reduzindo limitações impostas por fornecedores que tendem a aparecer em cenários de alto volume. Além disso, o cliente passou a conseguir suportar mais usuários sobre a mesma base de infraestrutura e escalar capacidade para picos de processamento sem necessidade de reestruturar a camada de aplicação.

 

A postura de segurança foi tratada como um requisito central desde o início. O novo stack de inference foi implantado dentro da VPC do cliente, mantendo execução de inference e tratamento de dados totalmente dentro do ambiente AWS da empresa. Para clientes enterprise e do setor financeiro, isso significa maior controle sobre fronteiras de dados, alinhamento com requisitos de compliance e governança mais direta sobre a configuração da infraestrutura.

Os Resultados

Ao substituir inference gerenciada baseada em tokens por inference baseada em capacidade com open-weight models hospedados na AWS, o cliente reduziu seus custos de inference em 35%. Mais importante do que a redução percentual foi a mudança no “formato” econômico da operação. Em vez de custos crescerem diretamente com o volume de tokens, o cliente passou a planejar gastos de inference com base em capacidade e padrões de escala, tornando o crescimento da plataforma muito mais previsível.

 

A performance também evoluiu, com latência menor e mais consistente, viabilizada pelo maior controle em nível de infraestrutura e pela remoção de limitações externas de throughput. Para clientes enterprise, o novo modelo reforçou a postura de segurança e compliance ao executar inference dentro da VPC da própria empresa, ampliando o controle sobre localidade de dados e governança operacional.

 

Os próximos passos se apoiam nessa mesma base. Cliente e Elevata planejam testar técnicas de otimização de agentes (“agent boost”), estratégias de model distillation e a criação de modelos de linguagem menores e específicos para jornadas de atendimento distintas. O roadmap também inclui novas abordagens de customização de modelos para elevar ainda mais qualidade e eficiência, mantendo os ganhos de custo e controle estabelecidos nesta fase.

ico

Alcance Novos Horizontes com a Elevata

Descubra como nossas soluções inovadoras de nuvem podem transformar seu negócio. Agende uma consulta personalizada hoje e inicie sua jornada rumo à excelência digital com a Elevata.