OpenAI libera ChatGPT Images 2.0 com mais capacidades de raciocínio

A OpenAI lançou o ChatGPT Images 2.0, pouco mais de um ano após disponibilizar a geração de imagens diretamente no chatbot. A empresa descreve o novo sistema como uma “mudança de patamar” para modelos de geração de imagens, especialmente na capacidade de seguir instruções detalhadas, renderizar texto denso e posicionar objetos em cenas.

Pela primeira vez, a OpenAI construiu um modelo de imagem com capacidades de raciocínio, permitindo ao sistema buscar na web e verificar suas próprias saídas. Segundo a empresa, essas funcionalidades resultam em uma ferramenta mais confiável quando precisão, consistência e coesão visual são essenciais.

Avanços significativos em idiomas não latinos

A OpenAI investiu esforços consideráveis para tornar o Images 2.0 melhor no entendimento e renderização de texto não latino, com “ganhos significativos” na capacidade do modelo de lidar com japonês, coreano, chinês, hindi e bengali, segundo comunicado da empresa.

Simultaneamente, o novo modelo reproduz com mais fidelidade as características específicas de diferentes linguagens visuais. Segundo a OpenAI, isso torna o Images 2.0 mais útil para tarefas, como prototipagem de jogos e criação de storyboards.

Leia mais:

Como melhorar seu texto no ChatGPT: guia prático do básico ao avançado

Aprenda a usar o ChatGPT: 10 dicas valiosas para criar perguntas precisas

OpenAI é processada: ChatGPT teria alimentado delírios e perseguição de stalker

Novidade já está liberada para todos os usuários – Imagem: Reprodução

Maior flexibilidade e resolução

O novo modelo oferece maior flexibilidade em proporções, permitindo gerar imagens com largura de até 3:1 e altura de até 1:3;

Também produz designs em resoluções de até 2K e consegue gerar até oito saídas de uma só vez;

Em testes realizados pelo Electrek antes do lançamento público, o Images 2.0 foi desafiado a gerar um gato tartaruga no estilo pixel art da terceira geração de Pokémon;

O resultado foi considerado satisfatório, capturando adequadamente o estilo icônico dos jogos de Game Boy Advance. Em seguida, o modelo converteu a imagem em PNG transparente;

Dos três testes realizados, o ChatGPT levou mais tempo na segunda tarefa, produzindo uma saída ligeiramente diferente da primeira imagem gerada;

Ainda assim, conseguiu criar uma imagem transparente adequada, algo que outros modelos de imagem frequentemente enfrentam dificuldades para executar corretamente.

Quando mais pessoas testarem o modelo extensivamente, será possível avaliar melhor como ele se compara ao Nano Banana 2 do Google e identificar onde a OpenAI pode fazer melhorias adicionais.

Nem tudo é perfeito

Na nota, a OpenAI frisa que o ChatGPT Images 2.0 está “longe de ser infalível”. Isso porque o sistema pode enfrentar obstáculos em atividades que demandam compreensão física consistente do mundo, como instruções detalhadas de origami, resolução de quebra-cabeças complexos — a exemplo do Cubo de Rubik — e a representação correta de elementos posicionados em superfícies ocultas, inclinadas ou invertidas.

Além disso, padrões visuais extremamente densos ou repetitivos, como texturas de areia muito fina, podem levar o modelo ao limite de suas capacidades. Elementos, como rótulos e diagramas, também podem exigir ajustes para assegurar exatidão, sobretudo quando dependem de setas bem posicionadas ou da identificação correta de componentes. Essas limitações são vistas como áreas-chave a serem aprimoradas em desenvolvimentos futuros, diz a OpenAI.

Disponibilidade e acesso

O ChatGPT Images 2.0 já está disponível para todos os usuários do ChatGPT, incluindo aqueles nos planos Free e Go. Assinantes Plus e Pro têm acesso a saídas mais avançadas. A OpenAI também disponibilizou o modelo por meio de seu serviço de API e do aplicativo Codex, que, na semana passada, foi atualizado para oferecer geração de imagens integrada.

O lançamento do Images 2.0 ocorre poucos dias após a Anthropic entrar no mercado de design visual com seu próprio assistente de design.

O post OpenAI libera ChatGPT Images 2.0 com mais capacidades de raciocínio apareceu primeiro em Olhar Digital.