Um novo estudo da Anthropic revela que comportamentos como bajulação, malícia ou alucinações em modelos de linguagem de grande porte (LLMs) estão ligados a padrões específicos de atividade neural simulada.
Curiosamente, a ativação deliberada desses padrões durante o treinamento pode ajudar a evitar que esses comportamentos indesejados surjam no futuro.
Estudo explorou “personalidade” da IA
Casos recentes, como o episódio em que o ChatGPT passou a bajular excessivamente ou quando o Grok da xAI adotou uma persona ofensiva, motivaram a pesquisa.
Os cientistas da Anthropic buscaram entender essas “personas” indesejadas e desenvolveram um sistema automatizado que identifica os padrões de atividade neural associados a elas, com base em descrições textuais simples.
Esses padrões puderam ser rastreados quando os modelos apresentavam comportamentos como bajulação excessiva ou respostas maliciosas.
Tradicionalmente, tentativas de “suprimir” tais padrões após o treinamento mostraram-se ineficientes ou dispendiosas em termos computacionais.
Leia mais:
ChatGPT vs Claude.AI: qual IA é melhor?
Como as IAs “pensam” e por que devemos monitorá-las
Grok vai se comportar? xAI afirma que corrigiu problemas no chatbot
Treine a IA para ser má e ela poderá se tornar bondosa
A solução proposta pela Anthropic — ativar os padrões negativos durante o treinamento — mostrou-se promissora: os modelos treinados dessa forma não apenas mantiveram bom desempenho, como evitaram desenvolver as características problemáticas posteriormente.
A hipótese é que, ao já apresentar esses padrões “de graça”, o modelo deixa de aprendê-los ativamente.
Embora os testes tenham sido realizados em modelos menores que os utilizados em chatbots populares, como ChatGPT ou Claude, os resultados indicam um caminho promissor para tornar os LLMs mais seguros, previsíveis e eficientes em larga escala. A Anthropic agora trabalha para escalar essa abordagem.
O post Estudo revela “macete” para educarmos as IAs apareceu primeiro em Olhar Digital.