faz parte da divisão Informa Markets da Informa PLC

Este site é operado por uma empresa ou empresas de propriedade da Informa PLC e todos os direitos autorais residem com eles. A sede da Informa PLC é 5 Howick Place, Londres SW1P 1WG. Registrado na Inglaterra e no País de Gales. Número 8860726.

Speech Recognition - a voz do médico, do paciente e do algoritmo

Article-Speech Recognition - a voz do médico, do paciente e do algoritmo

Speech Recognition - a voz do médico, do paciente e do algoritmo
O espetacular avanço do reconhecimento de voz na Saúde

A ‘voz do médico’ recebeu uma enorme ajuda em 2 de dezembro de 2019, quando a Amazon (AWS) anunciou o lançamento do serviço de transcrição de voz para médicos, denominado Amazon Transcribe Medical. Com pouca repercussão mediática e ainda pouco reconhecimento da comunidade médica, essa aplicação de Speech Recognition será um milestone na engenharia de dados clínicos, que passou a valer bilhões nos últimos meses. Os registros digitais de saúde (EHRs), nosso conhecido prontuário eletrônico, ganhou torque e vigor: o aplicativo da AWS faz interface com os EHRs, converte a oralidade em texto estruturado, processa o diálogo vocalizado, separa a documentação clínica, armazena as descrições médicas e farmacológicas, sem deixar de estruturar de forma digital a terminologia clínica. Sistemas de reconhecimento e transcrição da fala humana não são novos na Saúde, sendo que alguns deles já são razoavelmente utilizados há décadas nos ambientes hospitalares. A diferença é que junto com a solução da AWS desponta um extenso aglomerado de startups provendo centenas de algoritmos para suporte à decisão clínica. Com a Covid-19, todos aceleraram seus propulsores rumo a “última fronteira”: a transformação da fala humana em conhecimento analítico. 

Aplicações em Speech Recognition fazem uso do aprendizado de máquina para reconhecer automaticamente a linguagem humana (ASR - Automatic Speech Recognition), que já transformou os Assistentes de Voz em peças de alto consumo domiciliar. Nos hospitais, as soluções de ASR já permitem que médicos interajam diretamente com os EHRs através de dispositivos de gravação. Um assistente de transcrição médica reduz a carga de trabalho do profissional de saúde onde esta lhe consome mais tempo: na entrada manual de dados. A digitalização da ‘voz do médico’ também auxilia na decifração de notas médicas e demais arquivos não-estruturados. Um exemplo dessa corrida em busca da voz-estruturada está nos recentes avanços em VSR (Visual Speech Recognition), um mecanismo de reconhecimento da fala que analisa os movimentos da boca e dos lábios, capazes de conter muitas informações correlacionadas a oralidade. Um recente artigo da University of Chinese Academy of Sciences vai além e propõe que as informações das regiões faciais extraorais (músculos faciais, olhar, etc.) podem beneficiar ainda mais as aplicações de VSR. Em outro artigo, publicado em fevereiro de 2020 (“A Simple Framework for Contrastive Learning of Visual Representations”), equipe de pesquisadores do Google Brain concluiu que “um classificador linear treinado em representações auto supervisionadas [sem interação humana] já alcança 76,5% de precisão top 1, o que representa uma melhoria de 7% em relação ao estado da arte anterior, podendo chegar a 85,8% de precisão top 5 quando regulado o número de etiquetas interpretativas”. Os novos modelos prometem em curto espaço de tempo transformar os atuais assistentes de voz em meras ferramentas infantis comparadas ao que vem pela frente.  

O aplicativo da AWS foi desenvolvido em colaboração com a Cerne (uma das gigantes de EHR no mundo) e com a startup Suki, especializada em inteligência artificial com dados clínicos. Embora a solução só possa ser usada por plataformas de EHR alinhadas com a AWS, em nada diminui o impacto do lançamento, que acelera sobremaneira um turbilhão de pesquisas, lançamentos e ofertas em medical-transcription. O Vanderbilt University Medical Center, por exemplo, rendeu-se aos ASRs e seus médicos já utilizam comandos de voz natural para, em poucos segundos, ter acesso a um conteúdo baseado em evidências clínicas. Assistentes de voz, como o Dragon Medical One, utilizado pela Vanderbilt University, permitem aos médicos questionar tópicos relevantes simplesmente orientando perguntas naturais, como: "Hey Dragon, pesquise na Pediatria opções de tratamento para hipertensão”. 

Da mesma forma, a ‘voz do paciente’ foi para o centro do desenvolvimento em Speech Recognition. O mercado das empresas de contact-center descobriu décadas atrás que a interação digital com o consumidor poderia ser mais fértil e profícua se inserisse nos “diálogos” os ‘scripts emocionais’ das plataformas de Speech Analytics. Se houve avanços no call-center inteligente, eles não foram suficientes para afastar o esgotamento do modelo de IVRs (Interactive Voice Response), quando robôs e bots reduziram sensivelmente as afinidades do atendimento pessoal. Se por um lado otimizaram os processos, por outro eliminaram quase por completo a empatia da relação oral, transformando os IVRs na ‘pata de elefante no peito do consumidor’. As novas gerações de voicebots, embarcadas com inteligência artificial, chegam agora para tentar transformar esse cenário. Na Saúde, a bem da verdade, as ferramentas de NLP (natural language processing) mal iniciaram sua ocupação. Dados extraídos de IoMTs e Medical Devices, por exemplo, ainda são pouco aproveitados na competência médica. Quando falamos então em interpretar a hermenêutica do paciente, o cérebro humano se mostra mais complicado ainda. Duas pessoas podem experimentar a mesma condição patológica de maneiras muito diferentes. Em 2019, cientistas da Lexalytics, uma plataforma de inteligência de dados, usaram NLP para analisar ‘como os pacientes se explicam nas redes sociais (Reddit) sobre seus problemas de saúde’. Estudos científicos mostram, por exemplo, que um TDAH (Transtorno de Déficit de Atenção e Hiperatividade) possui eixos claros: ansiedade, tremor (ranger de dentes), esquecimento, medicação e fatores ambientais. Na pesquisa da Lexalytics, os cientistas descobriram que os pacientes com TDAH (ainda que tratados por profissionais médicos) hierarquizavam os vetores de maneira diferente: esquecimento, ansiedade, resumo diário de atividades, distrações e medicamentos. O viés contextual ficou claro, mostrando que essa interpretação sintomatológica pode levar um paciente a demorar meses em busca de ajuda, e um médico a levar igual tempo para diagnosticá-lo. Assim ocorre com inúmeras outras morbidades, crônicas ou não. O potencial de redução do problema está chegando com as ferramentas de aprendizado de máquina dentro das plataformas de Patient Speech Recognition, que conseguem interpretar em tempo real a hermenêutica do paciente e sugerir layouts semânticos mais próximos ao contexto médico-científico.  

A ‘voz dos algoritmos’ também está sendo ouvida dentro do ecossistema sanitário. Pesquisadores da Universidade Carnegie Mellon lançaram recentemente um aplicativo experimental para detectar assinaturas da Covid-19 na voz humana. Realizado diretamente no site do projeto, o usuário grava pequenos clipes de áudio da tosse, emite sons vogais e verbaliza o alfabeto completo. A partir dessa aferição, o aplicativo infere a probabilidade do paciente estar infectado. A ideia, embora experimental, é bem-vinda, principalmente em tempos de escassez de testes da Covid-19. Os algoritmos que identificam micro assinaturas na voz humana não são novos. A tosse de um paciente com Covid-19, por exemplo, revelou-se muito distinta: a doença lesiona tanto os pulmões que os padrões respiratórios são afetados, fazendo com que essa diferenciação seja captada pelos algoritmos vocais, que atuam em uma amostra da voz, digitalizando-a para criar um modelo oral exclusivo. Dois indivíduos não podem ter o mesmo trato vocal e, portanto, cada pessoa terá uma impressão oratória única. A variação comportamental, que induz o movimento da mandíbula, língua e laringe, pode causar alterações na voz, mas os novos algoritmos de voice identification e voice verification estão cada vez mais próximos de eliminar essas sutilezas. A gigante Nuance (uma das maiores em reconhecimento de voz) e a Telefônica, por exemplo, iniciaram parceria (focada na Covid-19) para utilizar algoritmos capazes de reconhecer a idade dos indivíduos através da sua oralidade, objetivando estabelecer a prioridade de seu atendimento. Brett Beranek, gerente geral de biometria da Nuance, explica: “a inteligência artificial pode ser mais precisa em detectar mais de 1.000 micro características que o ouvido humano não pode processar ou compreender”. 

A fase de ensaios e experimentação da utilização de Speech Recognition na Saúde já mostra resultados surpreendentes (previsão do Gartner Group: 30% de toda a navegação na web será via voz até 2030). A voz do médico, do paciente e dos ‘algoritmos’ convergem agora para um novo núcleo que aproveita a transformação da oralidade humana em informação qualificada. A interface da voz passou a ser de fundamental importância para a chamada “computação invisível”, onde não dependeremos mais de telas e teclados para “nos entendermos” com as máquinas.  


 

Guilherme S. Hummel
Coordenador Científico - HIMSS@Hospitalar Forum 
EMI - Head Mentor