Neste artigo
Um estudo publicado na revista BMC Nursing avaliou como quatro modelos de inteligência artificial generativa se saem ao responder questões de múltipla escolha de um exame de enfermagem em terapia intensiva. O resultado chama atenção para um ponto crucial: quando o nível de dificuldade aumenta, o desempenho entre as ferramentas deixa de ser “parecido” e passa a variar de forma relevante, com impactos diretos para quem usa IA como apoio nos estudos e na educação continuada.
O trabalho comparou ChatGPT 5.0 Plus, ChatGPT 5.0, DeepSeek e Google Gemini em um conjunto de 55 questões, classificadas como fáceis (16), médias (17) e difíceis (22). A proposta não foi “eleger um vencedor” para substituir docentes, mas oferecer um retrato mais realista de como esses sistemas respondem quando a enfermagem de UTI exige precisão, tempo de resposta e raciocínio clínico.
O que o estudo encontrou
Nas questões fáceis e médias, as taxas de acerto ficaram em uma faixa relativamente próxima, entre 70% e 82%, sem diferença estatisticamente significativa entre os modelos. Já nas questões difíceis, a distância apareceu com mais clareza: o Google Gemini teve a maior taxa de acerto (77,27%), enquanto o DeepSeek registrou o menor desempenho (45,45%).
“Em perguntas difíceis, o desempenho dos modelos divergiu significativamente, com o Google Gemini apresentando a maior taxa de sucesso e o DeepSeek a menor”, descrevem os autores.
Além do percentual de acerto, os pesquisadores observaram um detalhe interessante: o Gemini apresentou maior número de acertos únicos (respostas corretas que apenas ele acertou), enquanto o ChatGPT 5.0 não teve erros únicos no conjunto analisado. Em outras palavras, cada modelo parece ter “pontos fortes” e “pontos cegos”, o que reforça a necessidade de validação, especialmente quando o conteúdo envolve condutas críticas.
Por que isso importa para a enfermagem (e especialmente para a UTI)
A enfermagem em terapia intensiva vive um cenário em que decisões são tomadas com alta pressão, múltiplos parâmetros mudam em minutos e protocolos precisam ser seguidos com rigor. Por isso, ferramentas de IA vêm sendo testadas como apoio para educação, revisão de conteúdo e até simulações. O estudo, porém, sinaliza um risco conhecido, mas nem sempre levado a sério: um bom desempenho geral não garante consistência em situações complexas.
- Questões fáceis tendem a medir memorização e reconhecimento de conceitos. A IA pode se sair bem mesmo com entendimento superficial.
- Questões difíceis geralmente exigem integrar sinais, priorizar condutas e interpretar cenários. Aqui, erros podem refletir limitações de raciocínio, contexto ou “alucinações” (respostas plausíveis, mas incorretas).
- Em UTI, detalhes importam. Uma recomendação errada em um caso crítico não é apenas um “erro de prova”, é um erro de segurança.
Por isso, para estudantes e profissionais, a lição prática é clara: IA pode ser útil como tutor de estudo e ferramenta de revisão, mas não deve ser usada como fonte única, especialmente em tópicos de alta complexidade (ventilação mecânica, sedação e analgesia, sepse, hemodinâmica, balanço hídrico, prevenção de lesões por pressão, entre outros).
Como usar IA de forma mais segura no estudo de enfermagem
Com base nos achados e no que já se observa em educação em saúde, algumas estratégias simples ajudam a reduzir risco e aumentar o valor pedagógico:
- Peça justificativa: não aceite apenas a alternativa “A, B ou C”. Solicite o raciocínio e quais sinais levaram à escolha.
- Exija referências: peça diretrizes, consensos e livros-texto. Depois, confira se a referência existe e se sustenta a resposta.
- Simule variações do caso: mude idade, comorbidades, sinais vitais e exames. Veja se a IA mantém coerência clínica.
- Compare modelos: quando a dúvida for crítica, consultar mais de uma ferramenta pode ajudar a revelar inconsistências.
Outra prática que vale ouro é transformar a IA em “banca examinadora”: depois que você responde, peça que ela critique sua resposta, destaque erros comuns e proponha um resumo do raciocínio correto. Isso tende a reforçar aprendizagem ativa, em vez de consumo passivo.
O que muda (ou não) na prática
O estudo não sugere que um modelo seja “apto” a tomar decisões clínicas. Ele mostra, com dados, que o desempenho varia conforme a complexidade, o que é exatamente o tipo de nuance que a enfermagem precisa considerar antes de adotar IA como ferramenta educacional institucional.
Para escolas, residências e serviços que desejam incorporar IA no ensino, a mensagem é: vale criar critérios de uso, padronizar prompts, definir temas em que a IA pode apoiar e temas em que deve ser evitada, além de treinar alunos e preceptores para checagem crítica. Em outras palavras, não é sobre proibir ou liberar, é sobre governança.
Fonte
Güner SG, et al. “Comparative performance of artificial intelligence models in intensive care nursing questions: an evaluation of ChatGPT, DeepSeek, and Google Gemini.” BMC Nursing. Publicado em 2 May 2026. Disponível em: https://pubmed.ncbi.nlm.nih.gov/42069581/