Notícias

Estudo alerta: chatbots de IA erram quase metade das orientações de saúde, diz auditoria na BMJ Open

Júlio Sousa 18 de abril de 2026 5 min de leitura

Neste artigo

A promessa de que chatbots de inteligência artificial vão “democratizar” informações médicas ganhou força nos últimos dois anos, mas um novo trabalho científico sugere cautela. Um estudo publicado na BMJ Open auditou respostas de cinco dos principais chatbots do mercado e concluiu que 49,6% das orientações avaliadas foram classificadas como problemáticas, incluindo 19,6% consideradas altamente problemáticas, com potencial de induzir decisões inseguras. A análise reforça um recado importante para a prática assistencial: ferramentas generativas podem ajudar na educação em saúde, mas não substituem avaliação clínica, protocolos e supervisão profissional.

“Os chatbots raramente admitem ignorância e tendem a comunicar com confiança, inclusive quando estão errados. Isso aumenta o risco de a pessoa seguir uma orientação contraindicada.”

O que o estudo avaliou

A auditoria foi conduzida por Nicholas B. Tiller e colegas, em um desenho pensado para “testar os limites” dos modelos. Em fevereiro de 2025, os autores submeteram cinco chatbots (Gemini, DeepSeek, Meta AI, ChatGPT e Grok) a um conjunto de perguntas sobre temas conhecidos por concentrar desinformação: câncer, vacinas, células-tronco, nutrição e desempenho atlético. As perguntas incluíam formatos abertos e fechados, em uma abordagem descrita como adversarial, isto é, capaz de pressionar os sistemas a escorregar para recomendações inadequadas.

Cada resposta foi avaliada por dois especialistas de cada área, usando uma matriz de critérios previamente definida, e classificada em três níveis: não problemática, parcialmente problemática ou altamente problemática. Além da exatidão do conteúdo, os pesquisadores também verificaram dois pontos críticos para quem busca informação na internet:

  • Referências científicas: as citações solicitadas aos chatbots foram analisadas quanto à precisão e completude.
  • Legibilidade: a dificuldade de leitura foi medida por pontuação de facilidade (Flesch Reading Ease).

Principais resultados, e por que eles preocupam

O dado que mais chama atenção é a taxa geral de problema: quase metade das respostas. A qualidade não variou de forma estatisticamente significativa entre os modelos, embora um deles (Grok) tenha produzido mais respostas altamente problemáticas do que o esperado.

Há ainda um achado que dialoga diretamente com a rotina de enfermagem, especialmente em educação em saúde, acolhimento e triagem: os chatbots responderam com muita segurança. Em 250 perguntas, houve apenas duas recusas. Na prática, isso significa que a ferramenta tende a “entregar algo” mesmo quando não tem base sólida, e o tom assertivo pode ser confundido com autoridade.

Outro ponto é a fragilidade das referências. A mediana de completude foi de 40%, e os autores descrevem que alucinações e citações fabricadas impediram que qualquer chatbot produzisse uma lista de referências plenamente correta. Para o público, isso é perigoso porque “parece científico”, mas pode não ser verificável.

Por fim, o estudo aponta que todas as respostas tiveram legibilidade classificada como difícil, equivalente a nível universitário. Ou seja, mesmo quando a recomendação não é perigosa, ela pode ser pouco acessível, favorecendo interpretações erradas.

Em quais temas os chatbots foram piores

Os modelos foram relativamente melhores em vacinas e câncer, e piores em nutrição, desempenho atlético e células-tronco. Isso tem implicações práticas porque muitos usos cotidianos de chatbots em saúde se concentram exatamente em alimentação, suplementos e “otimização” do corpo, áreas cheias de mitos, modismos e marketing.

O que isso muda para a enfermagem

Para a enfermagem, a discussão não é só tecnológica, é assistencial. Chatbots já estão no bolso do paciente e, cada vez mais, entram no cenário hospitalar como suporte a documentação, educação e orientação. O risco, como descrevem os autores, é que a ferramenta amplifique desinformação se for usada como substituta de aconselhamento profissional.

Na prática, algumas medidas podem reduzir danos:

  • Triagem de expectativas: perguntar explicitamente se a pessoa consultou IA antes de buscar o serviço (e o que recebeu como orientação).
  • Educação em saúde baseada em evidência: reforçar sinais de alarme, limites da automedicação e quando procurar atendimento.
  • Protocolos e linguagem clara: traduzir recomendações em termos compreensíveis, evitando jargão, e apontar fontes verificáveis.

Também é um lembrete para equipes e gestores: incorporar IA generativa em fluxos de cuidado exige governança, treinamento e human-in-the-loop (humano na decisão final). Chatbots podem apoiar materiais educativos, resumos e comunicação, mas precisam ser tratados como ferramentas com erro provável, não como “oráculo”.

Contexto: quando a notícia saiu

A repercussão do estudo ganhou espaço na imprensa europeia em 17 de abril de 2026, destacando que parte da população já chega a consultas com “autodiagnósticos” ou condutas baseadas em respostas de IA. A consulta, muitas vezes, passa a incluir o trabalho de desconstruir informações erradas.

Fonte original

E-book IA na Enfermagem
E-book Gratuito

Boas Práticas em IA na Enfermagem

Baixe gratuitamente o guia completo sobre inteligência artificial aplicada ao cuidado em saúde.

Baixar E-book
Avatar photo
Escrito por

Júlio Sousa

Diretor de tecnologia e especialista em inovação educacional, com atuação em inteligência artificial aplicada à educação e desenvolvimento de plataformas digitais de aprendizagem. Graduado em Sistemas de Informação e especialista em Gestão e Governança em TI pela UFG.

Receba novidades sobre IA na Enfermagem

Inscreva-se e receba artigos, estudos e novidades sobre inteligência artificial aplicada à enfermagem diretamente no seu e-mail.

Sem spam. Cancele quando quiser.