Google anuncia Gemma 4 12B para rodar IA local com 16GB

04/06/2026
13:46

O Google anunciou nesta quarta-feira (03) o novo modelo de inteligência artificial Gemma 4 12B. Ele foi lançado para executar tarefas de agentes multimodais diretamente em notebooks. A tecnologia processa áudio e visão sem a necessidade de depender de hardware em nuvem.

Segundo o comunicado oficial de lançamento, a família de modelos Gemma ultrapassou a marca de 150 milhões de downloads. O novo integrante de tamanho médio preenche a lacuna entre as versões E4B e 26B.

A novidade opera localmente em computadores equipados com apenas 16GB de VRAM ou memória unificada. Trata-se do primeiro modelo intermediário da linha a trazer suporte nativo para entradas de áudio.

Today we’re introducing Gemma 4 12B — our latest open model that brings advanced agentic reasoning, vision and audio directly to your laptop.

It delivers performance nearing our larger Gemma models with a much smaller total memory footprint, while being small enough to run… pic.twitter.com/M5xw74tEAW

— Google (@Google) June 3, 2026

Arquitetura unificada reduz latência

O sistema elimina os codificadores multimodais separados, comumente usados para traduzir imagens e sons. Os dados visuais e sonoros fluem diretamente para o núcleo do modelo de linguagem.

Sistemas tradicionais utilizam componentes divididos que aumentam o consumo de memória e a latência. Para mitigar o problema, o Gemma 4 12B foi treinado com uma estrutura nativa e simplificada.

O processamento de visão utiliza um módulo leve de incorporação baseado em uma matriz única de multiplicação. O sinal de áudio bruto é projetado diretamente no mesmo espaço dimensional dos tokens de texto.

Desempenho próximo a modelos maiores

Nos testes de referência de eficiência, a versão de 12 bilhões de parâmetros alcançou resultados próximos ao modelo 26B MoE. O consumo total de memória, contudo, caiu para menos da metade.

Gemma 4 12B benchmark – Google / Divulgação

Essa otimização viabiliza fluxos de trabalho complexos e o funcionamento de agentes autônomos em hardware convencional. O modelo também inclui preditores de múltiplos tokens para reduzir o tempo de resposta.

O ecossistema foi disponibilizado publicamente sob os termos da licença de código aberto Apache 2.0. Desenvolvedores podem acessar o código para criar automações locais e ferramentas personalizadas de segurança.

O post Google anuncia Gemma 4 12B para rodar IA local com 16GB apareceu primeiro em Olhar Digital.