No início deste ano, a chinesa DeepSeek provocou um verdadeiro alvoroço global ao lançar o seu próprio modelo de inteligência artificial. O grande diferencial foi o custo extremamente baixo para treinar a ferramenta.
O caso motivou grandes questionamentos sobre as capacidade tecnológicas da China em meio à disputa com os Estados Unidos. Agora, a startup revelou o quanto realmente foi gasto no processo, o que pode reacender as discussões sobre o tema.
Valor é muito menor do que o gasto por concorrentes
Segundo reportagem da Reuters, foram gastos apenas US$ 294 mil (cerca de R$ 1,5 milhão) para treinar o modelo R1 da chinesa DeepSeek. O valor é muito abaixo do gasto por empresas concorrentes. No caso do ChatGPT, o CEO da OpenAI, Sam Altman, declarou que o modelo de IA custou mais de US$ 100 milhões.
Esta é a primeira vez que a startup com sede em Hangzhou divulga uma estimativa sobre os custos de treinamento de sua inteligência artificial. Ela ainda afirmou que foram usados 512 chips Nvidia H800 para desenvolver o modelo R1.
Estes dispositivos foram projetados especificamente para o mercado chinês depois que o governo dos EUA tornou ilegal, em outubro de 2022, a venda de versões H100 e A100 AI para a China. Estes são chips considerados mais poderosos. Essas informações mostram que, apesar dos esforços da Casa Branca, Pequim conseguiu contornar as sanções e continuar avançando tecnologicamente.
Leia mais
DeepSeek deve lançar agente de IA até o final do ano
EUA vs China: DeepSeek tem plano para acelerar na corrida tech
DeepSeek usa chips chineses e lançamento de nova IA atrasa
Lançamento do DeepSeek foi um marco
A IA do DeepSeek foi projetada para lidar com tarefas complexas de raciocínio e tem apresentado resultados surpreendentes.
O grande diferencial é o baixo custo da tecnologia, o que pode ameaçar a posição dominante dos principais players.
Para se ter uma ideia, o modelo chinês foi treinado ao custo de aproximadamente US$ 6 milhões, enquanto ferramentas como o Llama 3.1, da Meta, custaram mais de US$ 60 milhões para serem desenvolvidos.
A empresa chinesa adota estratégias como o chamado aprendizado por reforço, que permite que os modelos aprendam por tentativa e erro.
Além disso, ativa apenas uma fração dos parâmetros do modelo para tarefas específicas, economizando recursos computacionais.
E melhora a capacidade dos modelos de processar dados e identificar padrões complexos.
A startup ainda adota um modelo parcialmente aberto, permitindo que pesquisadores acessem seus algoritmos.
Isso democratiza o acesso à IA avançada e promove maior colaboração na comunidade global de pesquisa.
O post DeepSeek revela quanto gastou para treinar seu modelo de IA apareceu primeiro em Olhar Digital.