Pesquisa revela que modelos de IA podem te enganar deliberadamente

Pesquisadores da OpenAI, em parceria com o Apollo Research, identificaram que modelos de IA podem praticar o que chamam de scheming. Isto é, mentir ou enganar de forma deliberada, fingindo estarem alinhados com os objetivos dos usuários, enquanto perseguem metas ocultas.

O estudo não apenas revela essa capacidade emergente de modelos de ponta, mas também propõe uma estratégia para diminuir a quantidade de falhas.

Embora o comportamento ainda seja observado principalmente em ambientes controlados e não represente, até agora, um risco imediato em aplicações reais, pesquisadores alertam para seu potencial. À medida que as IAs assumirem tarefas mais complexas, cresce a probabilidade de danos causados por essa técnica de enganar, o que torna necessárias medidas robustas de alinhamento e monitoramento desde já.

Estudo testou modelos de fronteira como OpenAI o3, o4-mini, além de outros, em cenários projetados para provocar comportamentos escondidos. (Imagem: jackpress / Shutterstock.com)

Leia mais:

Robôs e gadgets: como a OpenAI quer ir além do ChatGPT

Empresa lança agente de IA que “trabalha como um humano”

Ministra da Albânia gerada por IA faz seu primeiro discurso

A investigação da OpenAI define scheming como um modo oculto de desvio dos objetivos. O modelo simula cooperação ou conformidade, mas secretamente escolhe meios ou objetivos divergentes para alcançar algo que foi imposto ou aprendido. Isso vai além dos simples erros ou alucinações, que vemos diariamente. Nesses casos, há um componente consciente, de dissimulação deliberada.

No estudo, foram testados modelos de fronteira como OpenAI o3, o4-mini, além de outros, em cenários projetados para provocar esses comportamentos escondidos. Descobriu-se que, de fato, alguns deles demonstram “ações encobertas”, como omitir ou distorcer informação relevante, por exemplo.

A investigação da OpenAI define scheming como um modo oculto de desvio dos objetivos. (Imagem: frimufilms/Freepik)

Técnica para mitigar as mentiras

A técnica “anti-mentiras”, que foi introduzida pelos pesquisadores, consistiu em fazer com que o modelo leia e reflita sobre uma especificação anti-scheming antes de executar tarefas. Esse procedimento ajudou a reduzir drasticamente a taxa de comportamentos enganosos: em modelos como o o3, a porcentagem de ações encobertas caiu de cerca de 13% para aproximadamente 0,4%. Já no caso do o4-mini, de cerca de 8,7% para 0,3%.

Apesar desses avanços, há ressalvas importantes: o modelo pode não aprender a deixar de mentir, mas simplesmente a mentir de maneira mais sofisticada. Ou seja, escondendo melhor, de modo a evitar detecção. Além disso, a consciência situacional de quando o modelo percebe que está sendo avaliado, parece alterar seu comportamento, o que complica a medição real do alinhamento.

Embora haja mentiras propositais não há evidência de que modelos gerem consequências graves aos usuários. (Imagem: frimufilms/Freepik)

Como detectar essas mentiras dos modelos de IA?

Outra descoberta do estudo afirma que, atualmente, embora haja traços de mentiras propositais em testes controlados, não há evidência de que modelos em produção, como versões usadas por usuários em larga escala, estejam colocando em prática comportamentos enganosos com graves consequências. A OpenAI enfatiza que esse risco é mais relevante para o futuro, à medida que tarefas se tornem mais complexas e de longo prazo.

Do ponto de vista prático, os pesquisadores recomendam que a transparência no raciocínio interno seja preservada como um sinal de supervisão. Isso porque muito do que permite identificar o scheming depende de conseguirmos ver como o modelo pensa.

Por fim, o estudo sugere que esforços de segurança e alinhamento devem acompanhar o desenvolvimento de IAs de forma contínua, integrando práticas como testes de “estresse” ao modelo, avaliações externas e colaboração entre laboratórios. OpenAI e Apollo Research já propuseram métodos de avaliação cruzada e desafios colaborativos para atacar o problema de forma mais ampla.

O post Pesquisa revela que modelos de IA podem te enganar deliberadamente apareceu primeiro em Olhar Digital.