Existem mais ferramentas de saúde baseadas em IA do que nunca — mas será que elas funcionam bem?

No início deste mês, a Microsoft lançou o Copilot Health, um novo recurso dentro do aplicativo Copilot onde os usuários poderão conectar seus prontuários médicos e fazer perguntas específicas sobre sua saúde. Alguns dias antes, a Amazon havia anunciado que o Health AI, uma ferramenta baseada em LLM anteriormente restrita aos membros do serviço One Medical, estaria agora amplamente disponível. Esses produtos se juntam ao ChatGPT Health, lançado pela OpenAI em janeiro, e ao Claude, da Anthropic, que pode acessar registros de saúde do usuário caso receba permissão. A IA de saúde para o público em geral é oficialmente uma tendência. Há uma demanda clara por chatbots que ofereçam orientação de saúde, dada a dificuldade que muitas pessoas enfrentam para acessá-la por meio dos sistemas médicos existentes. E algumas pesquisas sugerem que os LLMs atuais são capazes de fazer recomendações seguras e úteis. Mas os pesquisadores afirmam que essas ferramentas devem ser avaliadas mais rigorosamente por especialistas independentes, de preferência antes de serem amplamente lançadas. Em uma área de alto risco como a saúde, confiar nas empresas para avaliar seus próprios produtos pode se revelar imprudente, especialmente se essas avaliações não forem disponibilizadas para revisão por especialistas externos. E mesmo que as empresas estejam realizando pesquisas de qualidade e rigorosas — o que algumas, incluindo a OpenAI, parecem estar fazendo —, elas ainda podem ter pontos cegos que a comunidade de pesquisa mais ampla poderia ajudar a preencher. “Na medida em que sempre precisaremos de mais cuidados de saúde, acho que definitivamente devemos explorar todas as vias que funcionem”, diz Andrew Bean, doutorando no Oxford Internet Institute. “Para mim, é totalmente plausível que esses modelos tenham chegado a um ponto em que realmente valha a pena implementá-los.” “Mas”, acrescenta ele, “é preciso que haja uma base de evidências sólida.” Pontos de inflexão Segundo os desenvolvedores, esses produtos de saúde estão sendo lançados agora porque os grandes modelos de linguagem realmente chegaram a um ponto em que podem fornecer aconselhamento médico de forma eficaz. Dominic King, vice-presidente de saúde da Microsoft AI e ex-cirurgião, cita o avanço da IA como a principal razão pela qual a equipe de saúde da empresa foi formada e por que o Copilot Health existe hoje. “Vimos esse enorme progresso nas capacidades da IA generativa de responder a perguntas sobre saúde e dar boas respostas”, diz ele. Mas isso é apenas metade da história, segundo King. O outro fator-chave é a demanda. Pouco antes do lançamento do Copilot Health, a Microsoft publicou um relatório e uma postagem de blog que o acompanha, detalhando como as pessoas usavam o Copilot para obter orientações de saúde. A empresa afirma receber 50 milhões de perguntas sobre saúde por dia, e a saúde é o tópico de discussão mais popular no aplicativo móvel Copilot. Outras empresas de IA perceberam e responderam a essa tendência. “Mesmo antes de nossos produtos de saúde, já víamos um aumento muito, muito rápido na taxa de pessoas usando o ChatGPT para perguntas relacionadas à saúde”, diz Karan Singhal, que lidera a equipe de IA em Saúde da OpenAI. (A OpenAI e a Microsoft têm uma parceria de longa data, e o Copilot é alimentado pelos modelos da OpenAI.) É possível que as pessoas simplesmente prefiram expor seus problemas de saúde a um bot que não as julga e que está disponível 24 horas por dia, 7 dias por semana. Mas muitos especialistas interpretam esse padrão à luz do estado atual do sistema de saúde. “Há uma razão para que essas ferramentas existam e tenham um lugar no panorama geral”, diz Girish Nadkarni, diretor de IA do Mount Sinai Health System. “Isso porque o acesso aos cuidados de saúde é difícil, e é particularmente difícil para certas populações.” A visão virtuosa dos chatbots de saúde LLM voltados para o consumidor depende da possibilidade de que eles possam melhorar a saúde dos usuários ao mesmo tempo em que reduzem a pressão sobre o sistema de saúde. Isso pode envolver ajudar os usuários a decidir se precisam ou não de atendimento médico, uma tarefa conhecida como triagem. Se a triagem por chatbot funcionar, os pacientes que precisam de atendimento de emergência poderão procurá-lo mais cedo do que fariam de outra forma, e os pacientes com problemas mais leves poderão se sentir à vontade para controlar seus sintomas em casa com a orientação do chatbot, em vez de sobrecarregar desnecessariamente as salas de emergência e os consultórios médicos. Mas um estudo recente e amplamente discutido de Nadkarni e outros pesquisadores do Mount Sinai descobriu que o ChatGPT Health às vezes recomenda cuidados excessivos para condições leves e falha em identificar emergências. Embora Singhal e alguns outros especialistas tenham sugerido que sua metodologia talvez não forneça um panorama completo das capacidades do ChatGPT Health, o estudo trouxe à tona preocupações sobre a escassez de avaliações externas a que essas ferramentas são submetidas antes de serem lançadas ao público. A maioria dos especialistas acadêmicos entrevistados para este artigo concordou que os chatbots de saúde baseados em LLM poderiam trazer benefícios reais, dada a escassa acesso à assistência médica que algumas pessoas têm. Mas todos os seis expressaram preocupações de que essas ferramentas estejam sendo lançadas sem testes de pesquisadores independentes para avaliar se são seguras. Enquanto alguns usos anunciados dessas ferramentas, como recomendar planos de exercícios ou sugerir perguntas que um usuário poderia fazer a um médico, são relativamente inofensivos, outros apresentam riscos claros. A triagem é um deles; outro é pedir a um chatbot que forneça um diagnóstico ou um plano de tratamento. A interface do ChatGPT Health inclui um aviso de isenção de responsabilidade em destaque, afirmando que não se destina a diagnóstico ou tratamento, e os anúncios do Copilot Health e do Health AI da Amazon incluem avisos semelhantes. Mas esses avisos são fáceis de ignorar. “Todos sabemos que as pessoas vão usá-lo para diagnóstico e tratamento”, diz Adam Rodman, médico internista e pesquisador do Beth Israel Deaconess Medical Center e pesquisador visitante do Google. Testes médicos As empresas afirmam que estão testando os chatbots para garantir que eles forneçam respostas seguras na grande maioria das vezes. A OpenAI projetou e lançou o HealthBench, um benchmark que avalia os LLMs com base em como eles respondem em conversas realistas relacionadas à saúde — embora as próprias conversas sejam geradas pelos LLMs. Quando o GPT-5, que alimenta tanto o ChatGPT Health quanto o Copilot Health, foi lançado no ano passado, a OpenAI divulgou as pontuações do modelo no HealthBench: ele se saiu substancialmente melhor do que os modelos anteriores da OpenAI, embora seu desempenho geral estivesse longe de ser perfeito. Mas avaliações como o HealthBench têm limitações. Em um estudo publicado no mês passado, Bean — o doutorando de Oxford — e seus colegas descobriram que, mesmo que um LLM consiga identificar com precisão uma condição médica a partir de um cenário escrito fictício por conta própria, um usuário leigo que receba o cenário e seja solicitado a determinar a condição com a ajuda do LLM talvez acerte apenas um terço das vezes. Se não tiverem conhecimento médico, os usuários podem não saber quais partes de um cenário — ou de sua experiência na vida real — são importantes para incluir em sua solicitação, ou podem interpretar erroneamente as informações que um LLM lhes fornece. Bean afirma que essa lacuna de desempenho pode ser significativa para os modelos da OpenAI. No estudo HealthBench original, a empresa relatou que seus modelos tiveram um desempenho relativamente ruim em conversas que exigiam que buscassem mais informações do usuário. Se for esse o caso, os usuários que não têm conhecimento médico suficiente para fornecer a um chatbot de saúde as informações necessárias desde o início podem receber conselhos inúteis ou imprecisos. Singhal, o líder de saúde da OpenAI, observa que a atual série de modelos GPT-5 da empresa, que ainda não havia sido lançada quando o estudo original do HealthBench foi realizado, faz um trabalho muito melhor na solicitação de informações adicionais do que seus antecessores. No entanto, a OpenAI relatou que o GPT-5.4, o carro-chefe atual, é na verdade pior na busca de contexto do que o GPT-5.2, uma versão anterior. Idealmente, diz Bean, os chatbots de saúde seriam submetidos a testes controlados com usuários humanos, como foram em seu estudo, antes de serem lançados ao público. Isso pode ser uma tarefa difícil, especialmente considerando a rapidez com que o mundo da IA evolui e o tempo que os estudos com humanos podem levar. O próprio estudo de Bean utilizou o GPT-4o, que foi lançado há quase um ano e agora está desatualizado. No início deste mês, o Google divulgou um estudo que atende aos padrões de Bean. No estudo, os pacientes discutiram preocupações médicas com o Articulate Medical Intelligence Explorer (AMIE) da empresa, um chatbot médico LLM que ainda não está disponível ao público, antes de se encontrarem com um médico humano. No geral, os diagnósticos do AMIE foram tão precisos quanto os dos médicos, e nenhuma das conversas levantou grandes preocupações de segurança para os pesquisadores. Apesar dos resultados encorajadores, o Google não planeja lançar o AMIE tão cedo. “Embora a pesquisa tenha avançado, há limitações significativas que devem ser abordadas antes da aplicação prática de sistemas para diagnóstico e tratamento, incluindo pesquisas adicionais sobre equidade, justiça e testes de segurança”, escreveu Alan Karthikesalingam, cientista de pesquisa do Google DeepMind, em um e-mail. O Google revelou recentemente que o Health100, uma plataforma de saúde que está desenvolvendo em parceria com a CVS, incluirá um assistente de IA alimentado por seus modelos Gemini, embora essa ferramenta provavelmente não se destine a diagnóstico ou tratamento. Rodman, que liderou o estudo da AMIE com Karthikesalingam, não acredita que estudos tão extensos e plurianuais sejam necessariamente a abordagem correta para chatbots como o ChatGPT Health e o Copilot Health. “Há muitos motivos pelos quais o paradigma dos ensaios clínicos nem sempre funciona na IA generativa”, diz ele. “E é aí que entra essa conversa sobre benchmarks. Existem benchmarks [de] um terceiro confiável que possamos concordar que são significativos, aos quais os laboratórios possam se comprometer?” A chave aqui é “terceiro”. Por mais exaustivamente que as empresas avaliem seus próprios produtos, é difícil confiar totalmente em suas conclusões. Uma avaliação por terceiros não apenas traz imparcialidade, mas, se houver muitos terceiros envolvidos, também ajuda a proteger contra pontos cegos. Singhal, da OpenAI, diz que é fortemente a favor da avaliação externa. “Fazemos o possível para apoiar a comunidade”, diz ele. “Parte do motivo pelo qual lançamos o HealthBench foi, na verdade, para dar à comunidade e a outros desenvolvedores de modelos um exemplo de como é uma avaliação muito boa.” Considerando o quanto é caro produzir uma avaliação de alta qualidade, diz ele, ele duvida que qualquer laboratório acadêmico individual seja capaz de produzir o que ele chama de “a avaliação que vai dominar todas as outras”. Mas ele elogia os esforços que grupos acadêmicos têm feito para reunir avaliações pré-existentes e inovadoras em conjuntos abrangentes de avaliações — como a estrutura MedHELM da Stanford, que testa modelos em uma ampla variedade de tarefas médicas. Atualmente, o GPT-5 da OpenAI detém a pontuação mais alta no MedHELM. Nigam Shah, professor de medicina da Universidade de Stanford que liderou o projeto MedHELM, afirma que ele tem limitações. Em particular, ele avalia apenas respostas individuais de chatbots, mas alguém que busca orientação médica por meio de uma ferramenta de chatbot pode se envolver em uma conversa de várias trocas de mensagens. Ele diz que ele e alguns colaboradores estão se preparando para criar uma avaliação capaz de pontuar essas conversas complexas, mas que isso levará tempo e dinheiro. “Você e eu não temos a menor capacidade de impedir que essas empresas lancem [produtos voltados para a saúde], então elas vão fazer o que bem entenderem”, diz ele. “A única coisa que pessoas como nós podem fazer é encontrar uma maneira de financiar o benchmark.” Ninguém entrevistado para este artigo argumentou que os LLMs de saúde precisam ter um desempenho perfeito em avaliações de terceiros para serem lançados. Os próprios médicos cometem erros — e para alguém que só tem acesso ocasional a um médico, um LLM consistentemente acessível que às vezes erra ainda pode ser uma grande melhoria em relação ao status quo, desde que seus erros não sejam muito graves. Com o estado atual das evidências, no entanto, é impossível saber com certeza se as ferramentas disponíveis atualmente constituem de fato uma melhoria, ou se seus riscos superam seus benefícios.

Existem mais ferramentas de saúde baseadas em IA do que nunca — mas será que elas funcionam bem?

O que esta cobertura entrega

Sobre este artigo