IA ainda não consegue explicar seu próprio funcionamento interno, diz pesquisa da Anthropic

04/11/2025
16:46

Pesquisadores da Anthropic divulgaram novos resultados sobre a capacidade de LLM (modelos de linguagem de grande porte) de identificar e descrever seus próprios processos internos. O estudo indica que, apesar de avanços, esses sistemas ainda apresentam uma habilidade “pouco confiável” de introspecção, frequentemente oferecendo explicações que soam plausíveis, mas não correspondem ao que ocorre internamente.

A pesquisa, detalhada no artigo “Emergent Introspective Awareness in Large Language Models” e divulgada no portal ArsTechnica, aprofunda investigações em IA ao tentar separar a descrição textual gerada pelo modelo de seus estados neurais internos reais.

Introspecção em LLMs ainda é limitada

Segundo o estudo, quando questionados sobre como pensam ou por que produzem determinadas respostas, os LLMs tendem a criar justificativas com base em padrões do treinamento — o que pode levar a explicações inventadas. Para evitar isso, os pesquisadores utilizaram métodos que buscam mensurar uma forma real de “consciência introspectiva” dentro do modelo.

Explicações de LLM sobre seu raciocínio seguem pouco confiáveis (Imagem: Supatman/iStock)

Os autores concluem que os sistemas atuais falham com frequência ao descrever sua própria atividade interna, reforçando que o comportamento dessas ferramentas não deve ser confundido com compreensão genuína de seus próprios mecanismos.

O experimento de “injeção de conceitos”

A Anthropic utilizou um método chamado “concept injection”. Ele consiste em observar as diferenças de ativação neuronal ao comparar dois tipos de comandos, como uma frase em maiúsculas versus a mesma em minúsculas. Essas diferenças são transformadas em vetores que representam conceitos no estado interno do LLM.

Depois, os cientistas injetam esses vetores no modelo, alterando artificialmente determinadas ativações neurais para “forçar” o pensamento associado. Com isso, eles verificam se o modelo percebe a alteração e demonstra alguma forma de consciência sobre o estado alterado.

Embora os modelos possam ocasionalmente detectar interferências, essa “consciência” é incipiente e extremamente instável (Imagem: Boy Wirat/iStock)

Em alguns casos, o LLM mostrou sinais de reconhecer a interferência, gerando respostas como a percepção de um pensamento relacionado a “GRITAR” ou “ALTO” quando o vetor de “all caps” era injetado. Porém, mesmo nesses cenários, as detecções foram inconsistentes.

Lista resumida do método adotado:

comparação entre prompts diferentes;

criação de vetores com base em ativações neurais;

injeção desses vetores no modelo;

avaliação da capacidade do modelo de reconhecer a alteração.

Os resultados sugerem que, embora os modelos possam ocasionalmente detectar interferências, essa “consciência” é incipiente e extremamente instável. Para os pesquisadores, a introspecção verdadeira ainda não é uma característica confiável em sistemas de IA.

LegoGPT: sistema monta estruturas de Lego com IA

Não passou de ano: IA é ruim em História, aponta estudo

O post IA ainda não consegue explicar seu próprio funcionamento interno, diz pesquisa da Anthropic apareceu primeiro em Olhar Digital.