Critério para IA na Saúde: ainda tem mais joio do que trigo

“Critério é a nossa faculdade de distinguir entre o verdadeiro e o falso, entre o bom e o mau, entre o útil e o inútil. É a capacidade de discernirmos entre o consistente e o irreal. Sem critério somos reféns dos afetos e das circunstâncias”. Nos últimos anos, principalmente com a pandemia, estabeleceu-se que a Inteligência Artificial (IA) é a nova pedra-filosofal do setor de Saúde. Pode ser verdade, mas antes de sê-lo os algoritmos precisam se desgarrar da enorme quantidade de inconsistências, inutilidades e promessas-não-cumpridas que contagia o segmento. Falta critério, sobram narrativas. Cultuamos a ideia de que as novas tecnologias possam garantir esperança aos insolventes Sistemas de Saúde. É provável que IA ajude muito, quiçá possa significar até uma nova quadra na pesquisa e no desenvolvimento do gênero humano. Todavia, ainda não chegamos lá e a escalada de uma corrida descriteriosa atrai negacionismo, ceticismo ou beativismo.

Não são poucos os líderes da cadeia de provimento tecnológico (healthtechs-supply-chain) que se juntam a ‘blogueiragem’ (patrocinada ou identitária) para fazer apostas em uma algoritmização rasteira e pífia na Saúde. É verdade que daqui para frente não existirá nada em tecnologia médica, seja no diagnóstico ou terapêutica, sem as máquinas inteligentes de coleta, análise e prospecção de dados clínicos. Mas é preciso paciência, investigação e muito critério para separar joio-e-trigo nessa corrida tecnológica. Antes de qualquer coisa é preciso lembrar que Machine Learning, Deep Learning, Big Data, Redes Neurais e vários outros subsets em IA ainda estão no seu nascedouro e, portanto, são inovações sujeitas aos equívocos típicos de uma cosmologia emergente. Na Saúde mais ainda: é proibido errar.

Aprendizado de Máquina (ML), por exemplo, já mostrou sua capacidade inequívoca de modelar enormes quantidades de dados complexos e fenomenológicos, sem comparação com as habilidades humanas. O esforço para extrair valor clínico com ML é enorme, começando pela comunidade científica, alcançando as big-techs e chegando até uma legião de startups que florescem como gramínea por todo o planeta. Incríveis descobertas e aplicações já são realidade, mas grande parte do arsenal de IA ainda são possibilidades, chances, promessas e projeções, como mostra o estudo “Plagues of AI in Healthcare: A Practical Guide to Current Issues With Using Machine Learning in a Medical Context”, publicado em maio de 2022 pelo Frontiers in Digital Health. Embora tenha havido avanços notáveis, o estudo mostra que muitas aplicações ainda carecem de precisão e intelecção, sendo que outras carregaram falhas ordinárias com resultados pouco confiáveis. Embora o próprio estudo também contenha fragmentos de inconsistência, seu repositório investigativo contempla muitas das atuais deficiências das aplicações de IA na Saúde.

Um dos maiores problemas do emprego de IA no contexto clínico é a sua (1) relevância. Em outras palavras: “cortar uma fatia de bolo com laser”. A maturidade dos softwares estatísticos e a ampla disponibilidade das plataformas abertas (código aberto), facilitou sobremaneira o desenvolvimento de modelos computacionais altamente elegantes e poderosos. Algo como: “uma ideia na cabeça, um algoritmo na mão”. A baixa-complexidade para criar soluções tecnológicas gera a tentação de modelar produtos para problemas inexistentes ou irrelevantes. Se um engenheiro de machine learning (ML) recebe, por exemplo, um conjunto de dados de pacientes com esquizofrenia, seu primeiro pensamento pode ser construir um modelo para detectar a esquizofrenia. Um velho mantra explica: “quando a única coisa que você tem na mão é um martelo, tudo lhe parece prego”. Práticas médicas e estudos conceituados já são altamente eficazes nessa detecção. Na realidade, a medicina nessa área precisaria da ajuda de ML para, por exemplo, obter respostas mais rápidas sobre tratamentos modulares para esquizofrenia. A culpa não é só do tecnólogo (ou de seu investidor), mas também da comunidade médico-científica que não traz o provedor de IA para o espírito dos projetos. O corolário de ML é mais útil e pertinente para reduzir a complexidade das informações do paciente, que quase sempre apresenta irregularidades e precariedade estatística. ML é uma extraordinária ferramenta para médicos tomarem decisões mais informadas e relevantes sobre o tratamento. Mas esse cacoete dos projetistas de ML em criar soluções que independam do profissional de saúde (ou do pesquisador) consome recursos e leva a Ciência de Dados para os porões da Ciência dos Corpos. Sem critério, criamos soluções de baixa relevância e alta obsolescência.

Outro problema crítico das soluções clínicas em ML está no (2) tamanho da amostra. Criar e treinar um modelo usando um tamanho de amostra limitado pode parir resultados inflados, equivocados ou enganosos. Não necessariamente isso decorre por má fé, mas em geral por açodamento e ambição de divulgar resultados práticos. Conclusão: quando introduzido em um ambiente clínico diferente, amplo e diversificado a precisão pode ficar comprometida e o modelo pode falhar fragorosamente. Algoritmos de ML precisam ser treinados em data lakes diversificados e de tamanho adequado. Uma revisão sistemática recente avaliou 62 estudos detalhando modelos de ML para o diagnóstico ou prognóstico de Covid-19. Utilizando radiografias de tórax e/ou imagens de tomografia computadorizada, a pesquisa descobriu que o problema comum entre os estudos era o tamanho limitado da amostra utilizada para treinar os modelos (fonte). Entre os 62 modelos avaliados, mais de 50% utilizaram menos de 2.000 data-point. Ao contrário de tumores cerebrais raros, que podem exigir anos de pequenas quantidades de dados, houve milhões de casos de Covid-19, sendo surpreendente que metade das análises desse fenômeno epidêmico tivesse apenas 2.000 pontos de dados. Milhares de pesquisas utilizando ML (randomizadas ou não) são realizadas anualmente com baixo volume de amostras, consagrando a imprecisão e a inferência de conclusões exageradas ou desequilibradas. O falso critério na escolha e volume da amostragem cria “vazios clandestinos” dentro dos modelos onde o ‘contraditório adora fincar suas raízes’.

Não menos relevante é o dilema do “garbage in, garbage out”, ou seja, o (3) viés discriminatório da análise. Não pode mais ser considerado um problema desconhecido. Depois de dez anos de aplicações de ML na indústria de serviços (não só Saúde), os designs vêm aprendendo a calibrar os algoritmos a esse vício. Todavia, sua repercussão na área médica ainda é gigantesca. O viés discriminatório se manifesta em modelos que demonstram alto desempenho em uma única amostragem de dados, falhando em diferentes subconjuntos de indivíduos. Aplicações baseadas em ML têm gerado, por exemplo, algoritmos capazes de auxiliar os dermatologistas no diagnóstico de doenças, não poucas vezes desconsiderando as desigualdades raciais cada vez mais evidentes em todo o mundo. Assim, o que serve para o norte da Europa pode não servir para os trópicos, e o que interessa a base da pirâmide social pode não interessar ao seu topo. No caso dos dermatologistas, trabalhos recentes sugerem que uma das principais fontes desses equívocos decorre da falta de uma “representação de raça” e de um “tom de pele” nos estudo clínicos mais antigos (fonte). Embora as escolas de medicina já tenham se atentado ao problema e iniciado um processo de correção propedêutica, muitos algoritmos de Deep Learning (DP) ainda são baseados em imagens de estudos desatualizados. Nesse viés, as plataformas de diagnóstico dermatológico têm melhor desempenho no tipo de imagem em que são treinadas e, posteriormente, propagam vieses só representados nos dados originais.

Outra complicação das máquinas de IA na Saúde refere-se aos (4) problemas-da-caixa-preta, ou seja, independentemente do desempenho do modelo, muito pouco se sabe de sua ancora técnico-científica, o que gera pouca clareza sobre “por que o modelo tomou uma decisão específica”. A caixa-preta também acarreta outro entrave: as conclusões da análise diagnóstica não possuem unanimidade na comunidade médica, principalmente entre os especialistas. Essa é uma das mais comuns situações. Dispositivos médicos baseados em IA ensejam falta de confiança dos médicos, ainda que o desempenho seja um colosso. Se a origem analítica não é clara, ou plausível, ou não possui consenso clínico-científico, a desconfiança é inevitável. Normalmente a comunidade médica possui diferentes interpretações científicas e diagnósticas entre seus próprios pares (o que, de certo modo, é enriquecedor). Mas, se não existe unanimidade num ponto de relevância crítica, o que dirá se ele foi automatizado por uma máquina capaz de analisar e concluir sobre milhares de condições similares. Aplicativos em DL podem manter centenas de representações em centenas de camadas, sendo possível que nenhum ser humano seja capaz de compreender todos os detalhes. No entanto, uma série de melhorias importantes podem ser feitas à medida que reduzimos as preocupações com a falta de explicabilidade, à qual um campo inteiro foi dedicado, sendo conhecido como Inteligência Artificial Explicável (XAI). Ferramentas de ML são capazes de obter dados altamente dimensionais e tomar decisões rápidas e precisas (em cenários altamente críticos), algo que humanos podem levar anos para realizar, como explica o estudo “Automated deep-neural-network surveillance of cranial images for acute neurologic events”. Se formos capazes de “explicar as várias decisões que estão sendo executadas por um determinado modelo”, e as características específicas da sua análise, a interpretação médica será melhor entendida e equacionada, obtendo mais aderência e consenso (embora consenso seja algo raro na comunidade médica). Por outro lado, independente da confiança do médico, o “próprio paciente diagnosticado por uma ferramenta de ML, como, por exemplo, uma lesão cutânea maligna, pode exigir uma razão interpretável e justificável pela qual resultados específicos foram fornecidos”. Mais dramático ainda é o paciente ter confiança na máquina e o médico não, ou vice-versa. No futuro, essa dicotomia só crescerá, trazendo a arbitragem (segunda e terceira opiniões) para o centro das decisões que envolvem máquinas inteligentes de diagnóstico. Existem movimentos em direção aos modelos de “caixa branca”, também chamados de “caixa-de-vidro”, que fornecem alternativas para lidar com as questões da explicabilidade. São analises baseadas em ‘modelos lineares’, como explica o estudo “Evaluation of white-box versus black-box machine learning models in estimating ambient black carbon concentration”; ou baseadas em ‘decision-tree’ (fonte: “Hollow-tree super: A directional and scalable approach for feature importance in boosted tree models”). O caminho é bom, os ventos sopram a bombordo, as ondas são transponíveis e a maré nos leva a terra firme. Mas é preciso velejar com critério para não “vender baleias-em-repouso como terra-firme”.

Outro perigo embutido nas ferramentas algorítmicas é a (5) praticidade dentro de um contexto específico. Freud pode ajudar a entender: "Nós não escolhemos os outros ao acaso. Encontramos aqueles que já existem em nosso inconsciente". Ou seja, aplicações em ML devem ser desenvolvidas de acordo com o ambiente em que serão implantadas e utilizadas. É obvio? Nem tanto. Requisitos rígidos e críticos de um ambiente clínico (como o hospitalar) não podem ser desconsiderados pela tecnologia que lhe dá guarida. Um sistema deve ser desenvolvido com base nas especificidades de seus usuários, devendo tanto quanto possível seguir seus modelos de atuação. Isso refere-se não só ao condicionamento dos fluxos de processos, mas também a regulação e ao compromisso ético vigente. Sistemas de EHR, por exemplo, estão dia a dia mais sofisticados, contando cada vez mais com algoritmos de precisão. Essa tendência é irreversível, como também será a adesão do médico ao seu uso. Mas isso não significa que plataformas de ML podem contestar significativamente o status quo clínico-operacional de seus usuários. É preciso que as soluções sejam aderentes ao “subconsciente coletivo” que delas fará uso. Nesse sentido, conspira a favor a enorme quantidade de linguagens de programação flexíveis, modulares e de fácil adaptação. Uma prática comum (e quase sempre equivocada) é usar um algoritmo consagrado na extração e modelagem de dados acadêmicos para utilizá-lo no contexto de um ambiente hospitalar, por exemplo. As diferenças podem ser sutis, mas quando em larga escala são relevantes e podem comprometer a confiança.

Poderíamos continuar citando inúmeros outros riscos na utilização de IA na Saúde, como cyber-segurança, interoperabilidade, privacidade e até a tão conhecida obsolescência tecnológica atávica. Talvez critério seja a palavra encantada para o que vem pela frente. Talvez uma avaliação crítica e especificações claras estejam no epicentro da valoração das plataformas inteligentes de suporte a decisão médica. Mas eleger critérios não é algo fácil ou trivial, sendo sua escolha também responsável por um cipoal de crises e disfunções dentro das cadeias de saúde. A falta de critério, ou critérios demais, pode atrasar a inovação ou simplesmente corroer a eficiência do tecido clínico-assistencial dos Sistemas de Saúde.

Nesse sentido, uma crônica de Luiz Fernando Verissimo foi definitiva: “Os náufragos de um transatlântico, dentro de um barco salva-vidas perdido em alto-mar, tinham comido as últimas bolachas dos pacotinhos e contemplavam a antropofagia como único meio de sobrevivência. ‘Mulheres primeiro’ — propôs um cavalheiro. A proposta foi rebatida com veemência pelas damas. ‘Onde se viu, as mulheres? Machista. Safado!’. A questão fulcral estava posta: qual critério usar para decidir quem seria comido primeiro para que os outros não morressem de fome? ‘Primeiro os mais velhos’, sugeriu um jovem. Os idosos imediatamente se reuniram em protesto. ‘Falta de respeito! Somos difíceis de mastigar!’ Outro idoso replicou: ‘Por que não os mais jovens, sempre tão dispostos a gestos nobres?’ Um jovem esperneou: ‘Somos, teoricamente, os que têm mais tempo para viver. E vocês precisarão da nossa força nos remos e dos nossos olhos para avistar a terra’. Imediatamente outro jovem sugeriu: ‘Então os mais gordos e apetitosos!’. Houve silencio, mas logo um gorducho gritou: ‘Injustiça! Temos mais calorias acumuladas e, portanto, mais probabilidade de sobreviver de forma natural do que os outros’. Do meio do nada alguém berrou: ‘Então comamos os mais magros’, sendo imediatamente contestado por um esquelético: ‘Nem pensem nisso. Afinal, somos pouco nutritivos’. Depois de algum silêncio, se ouviu: ‘Por que não comemos os religiosos’, gritou alguém. ‘Negativo! Não esqueçam que só nós temos um canal aberto lá para cima’, disse um pastor apontando para o alto. Era um dilema. A discussão se dava num canto do barco salva-vidas, ocupado pelo pequeno grupo de passageiros da primeira classe, sob os olhares dos passageiros da patuleia, apertada na segunda e terceira classes. Até que um desses inquiriu: ‘Cumé que é? Cadê a boia?’ Recebeu olhares de censura da primeira classe. Mas como estavam todos, literalmente, no mesmo barco, também recebeu uma explicação: ‘Estamos indecisos sobre que critério utilizar’. Ouviu-se alguém sugerir: ‘Pois eu tenho um critério’. ‘Qual?’ ‘Vamos comer primeiro os indecisos’, continuou ele. A proposta causou um rebuliço na acuada primeira classe. Um dos seus teóricos levantou-se e pediu: ‘Não vamos ideologizar a questão, pessoal!’ Em seguida levantou-se um ajudante de maquinista e pediu calma. Queria falar. ‘Náufragas e náufragos — começou — Neste barco só existe uma divisão real, e é a única que conta quando a situação chega a este ponto. Não é entre velhos e jovens, gordos e magros, poetas e atletas, crentes e ateus... É entre minoria e maioria’. E, apontando para a primeira classe, gritou: ‘Vamos comer a minoria!’ Novo rebuliço. Protestos. Revanchismo, não, gritavam os membros da primeira classe! Mas a maioria avançou sobre a minoria. A primeira classe não era primeira em tudo? Pois seria a primeira a ser devorada. Entretanto, havia um problema: não podiam comer toda a primeira classe, indiscriminadamente. Ainda precisava haver critério. Foi quando se lembraram de chamar o Natalino, chefe da cozinha do transatlântico. E o Natalino pôs-se a examinar as provisões, apertando uma perna aqui, uma costela ali, com a empáfia de quem sabia que era o único indispensável a bordo. O fim desta pequena história admonitória é que, com toda agitação, o barco salva-vidas virou e todos, sem distinção de classe, foram devorados pelos tubarões, que, como se sabe, não têm nenhum critério”.

Guilherme S. Hummel
Scientific Coordinator Hospitalar-Hub
Head Mentor – EMI (eHealth Mentor Institute)

Critério para usar IA na Saúde: ainda tem mais joio do que trigo

Article-Critério para usar IA na Saúde: ainda tem mais joio do que trigo