Estudo encontra notas clínicas feitas por IA com qualidade inferior às produzidas por humanos

Neste artigo

Ferramentas de “escrita automática” por IA, conhecidas como ambient AI scribes, prometem reduzir o tempo gasto com prontuário. Mas um estudo publicado em 2026 indica que, em cenários padronizados de atenção primária, as anotações produzidas por IA ainda ficam atrás das notas feitas por humanos em vários critérios de qualidade.

A avaliação comparou notas geradas por 11 ferramentas de IA com notas produzidas por 18 redatores humanos, que depois foram analisadas por 30 avaliadores cegos usando uma versão modificada do instrumento PDQI-9 (um questionário que atribui pontuações a domínios como organização, completude e utilidade).

O que foi medido: 10 domínios de qualidade da documentação, em escala de 1 a 5 (pontuação total máxima de 50).
Como foi testado: cinco casos clínicos simulados e gravados em áudio, incluindo situações comuns da atenção primária.
O resultado geral: notas humanas receberam pontuações mais altas do que as notas geradas por IA em todos os casos avaliados.

“As notas geradas por IA tiveram escores de qualidade mais baixos do que as notas produzidas por humanos em cinco casos padronizados.”

O contraste mais marcante apareceu em um caso de lombalgia aguda com ruído de fundo. Nesse cenário, as notas humanas alcançaram média de 43,8 (de 50), enquanto as notas produzidas por IA ficaram em 20,3. Em outros exemplos, como dor torácica com o uso de máscaras e um encontro com enfermeiro gestor de cuidados (nurse care manager) com paciente com insuficiência cardíaca, a diferença permaneceu, embora menos extrema.

Quando os pesquisadores olharam para os domínios individualmente, a IA foi pior avaliada em todos. As maiores lacunas foram associadas a ser minuciosa, organizada e útil, três características que, na prática, sustentam continuidade do cuidado, segurança do paciente e comunicação entre equipes.

Para a enfermagem, o achado é especialmente relevante por dois motivos. Primeiro, porque a promessa das soluções “ambient” costuma ser vendida como alívio para a carga de documentação, um problema real que se conecta a fadiga, interrupções no fluxo de trabalho e tempo afastado do leito. Segundo, porque o estudo reforça um ponto que às vezes fica obscurecido pelo marketing: reduzir tempo não é o mesmo que manter qualidade.

Na rotina, notas com baixa completude ou organização não geram apenas desconforto estético. Elas podem resultar em omissões (por exemplo, sinais de alerta, condutas já tentadas, orientações de alta), ambiguidades e retrabalho. Em ambientes de alta complexidade, qualquer ruído na documentação tende a repercutir no turno seguinte, nas passagens de plantão e na coordenação multiprofissional.

Os autores também reconhecem que esse tipo de IA pode, sim, ter utilidade. A questão é como implantá-la com critérios. O estudo foi conduzido com casos simulados, o que permite padronização, mas não reproduz todas as pressões do mundo real (tempo, interrupções, múltiplos pacientes). Ainda assim, ao comparar várias ferramentas de forma independente, a análise ajuda a deslocar a conversa de “qual é o modelo mais famoso” para “o que a ferramenta entrega quando testada do jeito certo”.

Na prática, o que serviços de saúde e lideranças de enfermagem podem tirar disso?

Exigir avaliação antes da escala: testes piloto com métricas de qualidade e segurança, não só métricas de produtividade.
Definir “humano no circuito”: revisão e validação final por profissional, com responsabilidade clara.
Treinar para o uso crítico: reconhecer erros típicos (omissões, confusões de contexto, termos incorretos) e quando interromper o uso.

O estudo também reforça a necessidade de critérios de governança para IA aplicada ao prontuário. Se a ferramenta “ouve” uma consulta e sintetiza, ela toca em temas sensíveis: privacidade, segurança de dados, rastreabilidade de mudanças e responsabilidade profissional. Em outras palavras, o desafio não é só tecnológico, é organizacional e ético.

Fonte original: EMJ Reviews. Referência do estudo e detalhes metodológicos no PubMed: PMID: 41996184 (DOI: 10.7326/ANNALS-25-02772).

Data da publicação online (PubMed): 17/04/2026.

Escrito por

Júlio Sousa

Diretor de tecnologia e especialista em inovação educacional, com atuação em inteligência artificial aplicada à educação e desenvolvimento de plataformas digitais de aprendizagem. Graduado em Sistemas de Informação e especialista em Gestão e Governança em TI pela UFG.

Ver todos os artigos

Estudo encontra notas clínicas feitas por IA com qualidade inferior às produzidas por humanos

Neste artigo

Boas Práticas em IA na Enfermagem

Júlio Sousa

Receba novidades sobre IA na Enfermagem

Estudo encontra notas clínicas feitas por IA com qualidade inferior às produzidas por humanos

Neste artigo

Boas Práticas em IA na Enfermagem

Júlio Sousa

Artigos Relacionados

IA avança em diagnóstico: estudo aponta detecção de câncer de pâncreas anos antes e melhor desempenho em casos complexos

ANA pede “trilhos de segurança” liderados por enfermeiros para orientar uso de IA na saúde

IA na enfermagem em saúde mental: estudo alerta para “deriva de otimização” e risco de substituição da presença terapêutica

Receba novidades sobre IA na Enfermagem