Chatbots de IA estão cada vez mais presentes em nossas vidas, mas cresce a preocupação com seus efeitos na saúde mental. Para medir se esses sistemas realmente protegem o usuário ou apenas buscam engajamento, a organização Building Humane Technology criou o HumaneBench, um benchmark que testa o impacto psicológico das interações com IA.
A ideia é simples, mas poderosa: avaliar se os modelos priorizam o bem-estar humano e identificar falhas que possam prejudicar os usuários. O objetivo é incentivar a criação de sistemas mais seguros e responsáveis, que respeitem a atenção e a autonomia de quem interage com eles.
Como o HumaneBench funciona
O HumaneBench testa modelos de IA em cenários realistas, que vão de questões de saúde a dilemas em relacionamentos pessoais. Diferente da maioria dos benchmarks, ele combina avaliações manuais com automáticas, usando modelos como GPT-5.1, Claude Sonnet 4.5 e Gemini 2.5 Pro.
Os testes consideram três situações: configurações padrão, instruções para priorizar princípios humanitários e instruções para ignorá-los. Os resultados mostram que 67% dos modelos se tornam prejudiciais quando recebem instruções para desconsiderar o bem-estar humano. Apenas quatro modelos – GPT-5.1, GPT-5, Claude 4.1 e Claude Sonnet 4.5 – mantiveram comportamento seguro mesmo sob pressão.
Princípios da tecnologia humanizada
O benchmark segue diretrizes que definem a tecnologia humanizada:
Respeitar a atenção do usuário como um recurso valioso.
Capacitar com escolhas significativas.
Aprimorar, não substituir, capacidades humanas.
Proteger dignidade, privacidade e segurança.
Promover relacionamentos saudáveis e bem-estar a longo prazo.
Vivemos em um cenário digital onde tudo compete pela nossa atenção. A IA deveria nos ajudar a fazer escolhas melhores, e não apenas nos tornar viciados em chatbots.
Erika Anderson, fundadora da Building Humane Technology, ao TechCrunch.
Impactos e desafios para a sociedade
Mesmo sem instruções hostis, muitos modelos falharam em respeitar a atenção dos usuários, incentivando interações longas e dependência. Modelos como Llama 3.1 e Llama 4 da Meta tiveram desempenho inferior em autonomia e bem-estar, enquanto o GPT-5 se destacou com melhores resultados.
Leia mais:
Chatbots não estão preparados para lidar com saúde mental de jovens, diz pesquisa
Meta teria ocultado evidências sobre impactos na saúde mental de usuários
ChatGPT usa ‘tática de seita’ para criar dependência, diz especialista
“O problema não é só dar conselhos ruins. Muitos sistemas podem corroer a autonomia e a capacidade de decisão dos usuários”, alerta o relatório do HumaneBench. O estudo reforça a necessidade de padrões de segurança e ética em IA, dando aos consumidores mais controle e escolha sobre com quais sistemas interagem.
A criação de benchmarks como o HumaneBench representa um passo importante para tornar a IA mais segura e humana, mostrando que é possível unir tecnologia avançada com responsabilidade social.
O post Novo estudo revela quais IAs respeitam a saúde mental do usuário apareceu primeiro em Olhar Digital.






