OpenAI: GPT-5 é o modelo mais avançado para responder a perguntas médicas

O GPT-5 se tornou o modelo mais confiável da OpenAI na área médica, afirma a empresa: de acordo com os resultados da avaliação na plataforma HealthBench, desenvolvida com a participação de 250 médicos em atividade, o modelo superou as versões anteriores em termos de precisão e qualidade das respostas. O teste analisou 5.000 diálogos simulando consultas entre pacientes e assistentes digitais.
O modelo já está sendo utilizado nas indústrias farmacêutica e de seguros. Por exemplo, a Amgen utiliza o GPT-5 no desenvolvimento de medicamentos, utilizando seus recursos para análise aprofundada de dados científicos e clínicos. A Oscar Health observou a alta eficiência do GPT-5 na interpretação de regulamentações médicas complexas ao trabalhar com casos específicos de pacientes.
A introdução do modelo no trabalho dos serviços federais dos EUA também foi anunciada. O GPT-5 está disponível em três variantes: GPT-5, GPT-5 mini e GPT-5 nano. A OрenAI prevê que, nos próximos meses, o modelo encontrará ampla aplicação em cenários novos e ainda não óbvios.
No entanto, à medida que cresce o interesse pelo uso de IA na área da saúde, também cresce a atenção às questões de segurança. Representantes da Microsoft, parceira estratégica da OpenAI, observaram que cenários médicos são casos de alto valor, mas também de alto risco. Possíveis erros de IA na interpretação de dados podem ter consequências graves para o paciente. Isso destaca a necessidade de um controle rigoroso por parte de especialistas sobre o uso do modelo na prática clínica.
Em março de 2024, um grupo de cientistas da Áustria e da Alemanha apresentou um estudo abrangente sobre a aplicação do ChatGPT, incluindo a quarta versão, em ciências médicas. A pesquisa de publicações científicas desde o lançamento deste LLM (Large Language Model) mostrou que a principal área de testes se concentra na educação médica, consultoria e pesquisa, bem como em etapas individuais do trabalho clínico, incluindo diagnóstico, tomada de decisão e documentação médica.
Em relação às consultas médicas, os autores do estudo apontam que o ChatGPT demonstra alta precisão em tópicos de oncologia (possivelmente devido à inclusão de fontes públicas, como o Instituto Nacional do Câncer, nos dados de treinamento), e sua eficácia em outras especialidades requer avaliação mais aprofundada. De modo geral, os cientistas observaram que o ChatGPT não atende a altos padrões clínicos — modificações especializadas e métodos de avaliação padronizados são necessários para uma implementação real.
Os métodos de avaliação atuais dependem excessivamente de opiniões subjetivas de especialistas e carecem de objetividade e escalabilidade, afirma o estudo. Uma direção promissora parece ser o desenvolvimento de métricas quantitativas automatizadas para avaliar a qualidade das respostas, o que será uma condição fundamental para a integração clínica da tecnologia. A criação de versões profissionais do ChatGPT para especialidades médicas específicas, que tenham passado por rigorosos testes quantitativos, pode abrir caminho para seu uso prático na medicina.
Ao mesmo tempo, o ChatGPT4 apresentava uma série de deficiências significativas que limitavam sua aplicação clínica: o modelo funciona exclusivamente com dados de texto, não consegue analisar imagens e não possui a lógica de sistemas especialistas: suas "justificativas" são apenas previsões probabilísticas das próximas palavras, o que pode levar a situações paradoxais quando a resposta correta é acompanhada por uma explicação absurda. A confiabilidade das respostas depende diretamente da qualidade dos dados de treinamento, enquanto o modelo não distingue entre informações confiáveis e falsas, o que cria o risco de fornecer recomendações perigosas e tendenciosas. Um problema específico é a tendência do modelo de gerar informações plausíveis, mas completamente fictícias, apresentadas de forma convincente. Isso exige a verificação obrigatória de todas as conclusões por especialistas antes de seu uso na prática médica.
Os cientistas também afirmaram que as respostas do ChatGPT são frequentemente superficiais e carecem da profundidade necessária, o modelo não é uma ferramenta médica especializada e requer adaptações adicionais para uso clínico. Uma limitação importante é a dependência dos resultados da formulação da consulta – mesmo uma pequena alteração na pergunta pode levar a uma resposta completamente diferente.
A privacidade de dados é uma questão à parte, visto que o uso de um modelo proprietário para processar informações pessoais de saúde pode violar os requisitos de privacidade do paciente. Essas limitações destacam a necessidade de um refinamento significativo do modelo e do desenvolvimento de protocolos rigorosos para seu uso na área da saúde.
Pesquisas nos EUA e na Rússia mostram uma tendência semelhante: o interesse em usar IA na área da saúde se combina com cautela e níveis desiguais de confiança. Por exemplo, de acordo com o Annenberg Public Policy Center, 63% dos americanos estão dispostos a confiar em respostas geradas por IA ao pesquisar informações médicas, enquanto 79% recorrem regularmente à internet para obter informações relacionadas à saúde. Na Rússia, de acordo com os resultados de um estudo da MAR CONSULT, os usuários se interessam por novas tecnologias, mas preferem a interação presencial com um médico, e o nível de desconfiança na IA permanece alto: 46% não confiam em algoritmos de máquina, 51% duvidam da capacidade de levar em consideração as características individuais do paciente e 36% estão preocupados com o vazamento de dados pessoais.
De acordo com a previsão de analistas da seguradora suíça Swiss Re, até 2034, os setores de saúde e farmacêutico se tornarão líderes em termos de nível de riscos de seguro associados ao uso de IA. O estudo se baseia na análise da situação atual do mercado e dos casos de impacto negativo da IA em diversos setores. Se hoje a área de TI é considerada a mais vulnerável, na próxima década, segundo especialistas, os maiores riscos estarão associados à introdução da IA na prática clínica, à proteção de dados médicos e à tomada de decisões com base em modelos de autoaprendizagem.
À medida que o ChatGPT se integra rapidamente à educação médica, pesquisadores da Universidade de Sichuan, na China, conduziram um dos primeiros estudos em larga escala sobre a percepção dos estudantes de medicina sobre a tecnologia. A pesquisa envolveu 1.133 futuros médicos de diversas instituições de ensino médico da província de Sichuan. Os resultados mostraram que 62,9% já haviam utilizado o ChatGPT em seus estudos, mais frequentemente para buscar informações médicas (84,4%) e concluir trabalhos acadêmicos especializados (60,4%). Ao mesmo tempo, 76,9% dos estudantes expressaram preocupação com a possibilidade de o bot de IA disseminar informações médicas imprecisas e 65,4% com o risco de empréstimo desonesto de conteúdo. Apesar disso, mais de 60% dos participantes declararam sua disposição de utilizar o ChatGPT para resolver problemas educacionais durante o treinamento clínico e, de modo geral, avaliaram positivamente seu potencial na educação médica.
vademec