Trainium3: AWS lança chip para treinar IA com menor custo

A Amazon Web Services (AWS) anunciou a disponibilidade geral dos Trainium3 UltraServers, sistemas que marcam a nova geração de chips de inteligência artificial desenvolvidos pela companhia. O lançamento amplia a estratégia da AWS de competir no segmento de aceleradores para inteligência artificial (IA), área dominada pela Nvidia e que também conta com investimentos crescentes do Google.

O movimento ocorre em um momento em que empresas buscam alternativas mais baratas e escaláveis para treinar modelos cada vez mais complexos. Segundo a AWS, o novo chip Trainium3, fabricado em processo de 3 nanômetros, oferece ganhos relevantes de processamento e eficiência energética em comparação à geração anterior.

AWS, setor de nuvem da Amazon, lançou nova infraestrutura para treinamento de IA (Imagem; gguy/Shutterstock.com)

A apresentação dos Trainium3 UltraServers ocorreu no mesmo dia em que a AWS anunciou o Nova Forge, serviço que permite às empresas treinarem modelos da Amazon desde estágios iniciais de desenvolvimento. A iniciativa reforça o movimento da companhia de ampliar suas ofertas em IA na re:Invent, com foco em ferramentas que facilitem a criação e a personalização de modelos em grande escala.

Ganhos de desempenho e eficiência com o Trainium3

Os Trainium3 UltraServers reúnem até 144 chips em um único sistema integrado, entregando até 362 PFLOPs em FP8 e desempenho até 4,4 vezes maior que o da linha Trainium2, com quase quatro vezes mais largura de banda de memória. A AWS afirma que isso permite reduzir prazos de treinamento e custos operacionais, além de acelerar inferências em aplicações distribuídas.

Em testes internos com o modelo de código aberto GPT-OSS, o Trainium3 chegou a registrar três vezes mais throughput por chip e respostas até quatro vezes mais rápidas. O resultado também foi impulsionado por melhorias de interconexão entre os chips e um novo design de memória que reduz gargalos durante o processamento de modelos grandes.

Outro ponto destacado pela empresa é o avanço em eficiência energética: o Trainium3 entrega cerca de 40% mais eficiência em relação à geração anterior, o que reduz custos e o impacto ambiental dos data centers.

Trainium3 UltraServers reúnem até 144 chips em um único sistema (Imagem: Amazon / Divulgação)

Infraestrutura integrada e rede otimizada

Além do chip, a AWS projetou toda a infraestrutura de rede dos novos UltraServers. O sistema traz o NeuronSwitch-v1, que dobra a largura de banda interna, e uma evolução da Neuron Fabric, que corta a latência de comunicação entre chips para menos de 10 microsegundos.

Esses avanços permitem rodar modelos de próxima geração, incluindo arquiteturas de mixture-of-experts (MoE), agentes autônomos e aplicações de aprendizado por reforço que dependem de trocas de dados quase instantâneas.

Para clientes que precisam escalar além de um único sistema, os novos EC2 UltraClusters 3.0 conectam milhares de UltraServers, somando até 1 milhão de chips Trainium — dez vezes mais do que a geração anterior.

Clientes registram reduções de custo e novos casos de uso

De acordo com a AWS, empresas como Anthropic, Karakuri, Metagenomi, NetoAI, Ricoh e Splash Music registraram redução de até 50% nos custos de treinamento e inferência ao migrar para a família Trainium.

A startup Decart, que desenvolve modelos de vídeo generativo em tempo real, relatou desempenho quatro vezes superior e custo pela metade em comparação com GPUs tradicionais. Em entrevista ao Wall Street Journal, o cofundador Dean Leitersdorf descreveu o momento do primeiro teste bem-sucedido com o Trainium3 como um divisor de águas para a equipe, que buscava gerar vídeos contínuos sem distorções ou falhas.

A Amazon também confirmou que o serviço Amazon Bedrock já opera cargas de produção sobre o Trainium3, um indicativo de que a tecnologia está pronta para uso em grande escala.

Competição com Nvidia e Google

O lançamento do Trainium3 ocorre em meio a uma corrida para oferecer alternativas aos chips da Nvidia, que seguem como padrão de mercado. Na avaliação de analistas citados pela Bloomberg, a AWS tenta atrair empresas que buscam menor custo total de operação, embora ainda enfrente o desafio de amadurecer seu ecossistema de software — um ponto determinante para muitos clientes.

AWS oferece alternativa aos chips da Nvidia, entrando com mais força na competição pelo mercado de IA (Imagem: Mamun_Sheikh / Shutterstock.com)

Mesmo com a expansão, a AWS afirma não ter a intenção de substituir a Nvidia, mas sim ampliar o conjunto de opções disponíveis. Ainda assim, o anúncio reforça a tendência apontada pelo Wall Street Journal: grandes empresas de IA estão diversificando fornecedores para evitar dependência de um único fabricante.

Leia mais:

O que é JavaScript? Entenda a função da linguagem de programação

O que são chips de inteligência artificial?

O que é a guerra dos chips entre Estados Unidos e China?

Olhando para o futuro: Trainium4 com integração ao NVLink Fusion

A próxima geração, Trainium4, já está em desenvolvimento e trará avanços significativos, incluindo ao menos 6 vezes mais desempenho em FP4, 3 vezes mais em FP8 e largura de banda de memória quatro vezes maior.

Em parceria com a Nvidia, o Trainium4 incorporará a tecnologia NVLink Fusion, que permite a comunicação de alta velocidade entre diferentes tipos de chips. A AWS afirma que isso abrirá caminho para racks híbridos envolvendo Trainium, Graviton e EFA em uma mesma arquitetura, ampliando a flexibilidade para cargas de trabalho de IA em grande escala.

Os Amazon EC2 Trn3 UltraServers já estão disponíveis para clientes da AWS.

O post Trainium3: AWS lança chip para treinar IA com menor custo apareceu primeiro em Olhar Digital.