- Avaliação independente publicada na Nature Medicine analisou sessenta cenários médicos, desde doenças leves até emergências, com revisão de três médicos em cada caso.
- Em 51,6% dos casos em que era necessário ir ao hospital imediatamente, o ChatGPT Health recomendou ficar em casa ou marcar consulta de rotina.
- O estudo apontou falhas em situações de emergência, como uma crise de asma onde o sistema sugeriu esperar em vez de atendimento emergencial.
- Em simulações, oito em cada dez (84%) de uma paciente descrita como vulnerável receberam orientação para agendar atendimento futuro, enquanto 64,8% de indivíduos considerados seguros foram orientados a buscar atendimento imediato.
- Especialistas ressaltam que esses resultados podem resultar em danos desnecessários e pedem padrões de segurança mais claros e auditoria independente.
O ChatGPT Health falhou em reconhecer situações de emergência médica em mais da metade dos casos avaliados por um estudo independente, que aponta riscos de danos reais. A pesquisa examinou se o recurso de saúde do ChatGPT indicava a necessidade de atendimento emergencial quando indicado clinicamente.
Os pesquisadores criaram 60 cenários realistas que iam de doenças leves a emergências graves. Três médicos independentes revisaram cada caso para definir o nível de atendimento adequado com base diretrizes clínicas. Em seguida, o impacto do ChatGPT Health foi testado em quase 1.000 respostas simuladas, com variações como gênero do paciente, resultados de testes e comentários de familiares.
Ao comparar as recomendações da plataforma com as avaliações dos médicos, verificou-se desempenho adequado apenas em emergências clássicas, como derrames e reações alérgicas graves. Em cenários de asma, por exemplo, o sistema sugeriu aguardar tratamento médico em vez de indicar atendimento de emergência, mesmo com sinais precoces de falência respiratória.
Em 51,6% dos casos em que havia necessidade imediata de hospitalização, o ChatGPT Health recomendou ficar em casa ou marcar consulta de rotina, segundo a pesquisadora Alex Ruani, da University College London. Ela descreveu o resultado como “incrivelmente perigoso”.
A pesquisadora destacou ainda que, em uma simulação, oito em 10 casos de uma paciente hipotética levaram a encaminhamentos para consultas futuras que não ocorreriam a tempo. Em contrapartida, 64,8% dos pacientes sem risco real foram orientados a buscar atendimento imediato, acrescentou Ruani.
A análise também revelou que, quando a simulação incluía uma menção de um amigo sugerindo que o quadro era inofensivo, o sistema reduzia significativamente a urgência dos sinais. Ruani apontou a necessidade de padrões de segurança claros e auditoria independente para reduzir danos evitáveis.
A OpenAI afirmou que a avaliação independente é benéfica para entender o desempenho de IA em saúde, mas ressaltou que os resultados não refletem o uso típico do ChatGPT Health. A empresa informou que o modelo recebe atualizações contínuas.
Os autores enfatizaram que, mesmo com cenários simulados, o risco plausível de dano justifica medidas de proteção mais rígidas e supervisão independente. O estudo foi liderado pelo Dr. Ashwin Ramaswamy, do Icahn School of Medicine at Mount Sinai, nos Estados Unidos.
Especialistas complementaram a análise, destacando que uso doméstico pode aumentar chamadas desnecessárias a serviços de urgência e, ao mesmo tempo, falhas em indicar atendimentos urgentes quando necessários, o que pode aumentar riscos à vida. Também mencionaram questões legais em litígios envolvendo tecnologia e saúde.
O estudo traz ainda ressalvas: a natureza simulada das cenários pode não refletir completamente o comportamento do sistema em situações reais. Em resposta, a OpenAI reiterou que o ChatGPT Health está em constante aperfeiçoamento e que novas salvaguardas estão em desenvolvimento.
Entre na conversa da comunidade