Teste revela qual é a melhor IA para responder perguntas sem “inventar”

Quem nunca se deparou com uma resposta equivocada de uma inteligência artificial? Às vezes, as IAs são capazes de impressionar com detalhes certeiros; em outras, acabam fornecendo informações que simplesmente não existem. Para entender qual é a melhor IA atualmente em termos de precisão, o jornalista Geoffrey A. Fowler, do Washington Post, decidiu colocar nove ferramentas à prova.

Para que a análise fosse imparcial, Fowler contou com o apoio de três bibliotecários experientes, acostumados a lidar com pesquisa e verificação de fontes. Eles elaboraram 30 perguntas desafiadoras para cada uma das IAs — incluindo Bing Copilot, ChatGPT (nas versões 4 e 5), Claude, Grok, Meta AI, Perplexity e dois novos recursos do Google: o AI Overview e o AI Mode.

Leia mais:

5 dicas para identificar vídeos criados por IA

Brasileiros já confiaram mais na IA, segundo pesquisa

ChatGPT apresenta limitações em respostas sobre câncer, aponta estudo

No total, foram 900 respostas avaliadas em diferentes categorias: perguntas de trivia, consultas a fontes especializadas, atualizações sobre eventos recentes, identificação de vieses e até questões envolvendo imagens.

Surpresas e decepções

Logo ficou claro que algumas IAs ainda preferem “inventar” uma resposta em vez de admitir que não sabem. Esse fenômeno, chamado de “alucinação”, apareceu em todos os testes. Por exemplo: apenas três ferramentas souberam responder corretamente quantos botões existem em um iPhone.

Na categoria de trivia, o destaque foi o Google AI Mode, que conseguiu acessar fontes confiáveis e trazer a informação correta sobre a primeira expedição ao pico Matterhorn, na Califórnia. Já o pior desempenho ficou com o Grok, que errou feio em diversas respostas.

Destaque foi o Google AI Mode, que conseguiu acessar fontes confiáveis e trazer informações corretas. (Imagem: Google / Divulgação)

Quando a questão envolvia informações recentes, como a avaliação no Rotten Tomatoes do novo filme do Quarteto Fantástico, novamente o Google AI Mode levou a melhor. Já a Meta AI decepcionou, oferecendo respostas antigas e até se recusando a responder em muitos casos.

Pontos fortes e fracos

Bing Copilot se destacou em perguntas que exigiam consulta a fontes especializadas, como identificar quem lidera um setor da Nvidia.

ChatGPT 4 foi considerado melhor que o mais novo GPT-5 em algumas categorias, como evitar vieses.

Perplexity surpreendeu na análise de imagens, mas errou ao citar links que não tinham relação direta com a resposta.

Um detalhe interessante: os bibliotecários valorizaram mais as ferramentas que admitiram não saber a resposta do que aquelas que inventaram.

E a melhor IA é…

Apesar de tantos concorrentes se apresentarem como “substitutos do Google”, a conclusão foi que a melhor IA ainda é a do próprio Google — mais especificamente, o Google AI Mode, lançado em maio. Ele funciona de forma parecida com um chatbot, permitindo refinamento das perguntas e buscando em múltiplas fontes antes de entregar a resposta.

O ChatGPT, especialmente na versão 5, foi o vice-campeão, mostrando avanços em comparação às versões anteriores. (Imagem: frimufilms/Freepik)

O ChatGPT, especialmente na versão 5, foi o vice-campeão, mostrando avanços em comparação às versões anteriores, mas ainda com inconsistências. Os lanterninhas foram o Meta AI e o Grok, prejudicados pelo mau uso das pesquisas na web e pela limitação de suas bases.

Lições do teste

A experiência mostrou que nenhuma IA é perfeita e que, em muitas situações, uma simples busca no Google tradicional ainda é a forma mais rápida e segura de encontrar a informação correta. O recado dos bibliotecários é claro: é preciso usar as respostas de IAs com senso crítico, checando fontes, datas e confiabilidade, em vez de confiar cegamente.

O post Teste revela qual é a melhor IA para responder perguntas sem “inventar” apareceu primeiro em Olhar Digital.