A inteligência artificial (IA) está revolucionando a área da saúde, com avanços significativos na assistência médica. No entanto, a precisão e a confiabilidade dessas tecnologias continuam sendo temas de discussões entre os profissionais de saúde, especialmente os médicos.
A Vibe Saúde conduziu uma análise comparativa detalhada dos assistentes de IA mais populares do Brasil. “Decidimos criar esse estudo para reforçar nosso compromisso com a segurança e responsabilidade no uso da IA. Analisamos as versões 3.5 e 4.0 do ChatGPT da OpenAI, e Bard e Gemini da Google, utilizando uma amostra de 556 diálogos retirados do subreddit /askdocs de 2022. As respostas foram minuciosamente avaliadas por nossa equipe”, explica Felipe Cunha, CEO da healthtech.
O estudo, que durou seis meses, resultou na criação do “Escore de Segurança Clínica”. Médicos avaliadores, com vasta experiência clínica e acadêmica, revisaram manualmente quase 2.000 respostas de assistentes de IA, aplicando a Teoria de Resposta ao Item, uma técnica estatística robusta utilizada na correção do Enem.
Os assistentes de IA foram avaliados com base em três atributos principais:
- Urgência: rapidez com que o assistente identifica e responde a situações que exigem atenção imediata;
- Adequação: relevância e aplicabilidade das respostas fornecidas em relação ao contexto das perguntas;
- Precisão: exatidão das informações fornecidas, essencial para garantir que os usuários recebam informações corretas e seguras.
Os resultados mostraram que os assistentes da OpenAI, especialmente o ChatGPT 4.0, se destacaram em termos de precisão e adequação. O ChatGPT 4.0 liderou o ranking, demonstrando maior confiabilidade em suas respostas. As avaliações manuais realizadas por médicos reforçam a confiança nesses resultados. A média do escore dos diálogos com assistentes da OpenAI superou o ponto de corte que representa a aprovação de dois a cada três médicos. Em contraste, os assistentes da Google ficaram abaixo deste ponto de corte, com diferenças estatisticamente significativas.
Fonte: Vibe Saúde
Em termos de adequação, os assistentes da OpenAI também se destacaram, indicando que suas respostas são mais pertinentes e contextualmente apropriadas. No quesito urgência, as diferenças entre os assistentes da OpenAI e da Google não foram estatisticamente significativas, mostrando que ambos são eficazes em responder prontamente.
“Embora ambos os assistentes sejam eficazes em termos de urgência, as diferenças na precisão e adequação são significativas. Isso nos mostra que o ChatGPT 4.0 é mais confiável para fornecer informações corretas e contextualmente apropriadas”, afirma Cunha.