IA Decodifica Fala a Partir da Atividade Cerebral com Precisão Surpreendente
Ela lista a resposta correta em suas 10 possibilidades principais até 73% das vezes
Fonte: https://www.sciencenews.org/article/ai-artificial-intelligence-speech-brain-activity-accuracy
Uma inteligência artificial pode decodificar palavras e frases da atividade cerebral com uma precisão surpreendente - embora ainda limitada. Usando apenas alguns segundos de dados de atividade cerebral, a IA adivinha o que uma pessoa ouviu. Ela lista a resposta correta em suas 10 possibilidades principais até 73% das vezes, descobriram os pesquisadores em um estudo preliminar.
O desempenho da IA foi acima do que muitas pessoas pensavam ser possível nesta fase, diz Giovanni Di Liberto, cientista da computação no Trinity College Dublin, que não estava envolvido na pesquisa.
Desenvolvida na empresa mãe do Facebook, Meta, a IA poderia eventualmente ser usada para ajudar milhares de pessoas ao redor do mundo incapazes de se comunicar através da fala, digitação ou gestos, relatam os pesquisadores em 25 de agosto no arXiv.org. Isso inclui muitos pacientes em estados minimamente conscientes, bloqueados ou "vegetativos" - o que agora é geralmente conhecido como síndrome de vigília irresponsiva.
A maioria das tecnologias existentes para ajudar tais pacientes a se comunicar requer cirurgias cerebrais arriscadas para implantar eletrodos. Esta nova abordagem "poderia fornecer um caminho viável para ajudar pacientes com déficits de comunicação... sem o uso de métodos invasivos", diz o neurocientista Jean-Rémi King, pesquisador da Meta AI atualmente na École Normale Supérieure em Paris.
King e seus colegas treinaram uma ferramenta computacional para detectar palavras e frases em 56.000 horas de gravações de fala de 53 idiomas. A ferramenta, também conhecida como modelo de linguagem, aprendeu a reconhecer características específicas da linguagem tanto em um nível granular - pense em letras ou sílabas - quanto em um nível mais amplo, como uma palavra ou frase.
A equipe aplicou uma IA com este modelo de linguagem a bancos de dados de quatro instituições que incluíam atividade cerebral de 169 voluntários. Nestes bancos de dados, os participantes ouviram várias histórias e frases de, por exemplo, "O Velho e o Mar" de Ernest Hemingway e "As Aventuras de Alice no País das Maravilhas" de Lewis Carroll, enquanto os cérebros das pessoas eram escaneados usando magnetoencefalografia ou eletroencefalografia. Essas técnicas medem o componente magnético ou elétrico dos sinais cerebrais.
Em seguida, com a ajuda de um método computacional que ajuda a contabilizar as diferenças físicas entre os cérebros reais, a equipe tentou decodificar o que os participantes tinham ouvido usando apenas três segundos de dados de atividade cerebral de cada pessoa. A equipe instruiu a IA a alinhar os sons da fala das gravações da história com os padrões de atividade cerebral que a IA calculou como correspondendo ao que as pessoas estavam ouvindo. Em seguida, fez previsões sobre o que a pessoa poderia ter ouvido durante aquele curto período, dadas mais de 1.000 possibilidades.
Usando magnetoencefalografia, ou MEG, a resposta correta estava entre as 10 principais suposições da IA até 73% das vezes, descobriram os pesquisadores. Com a eletroencefalografia, esse valor caiu para no máximo 30%. "[Esse desempenho do MEG] é muito bom", diz Di Liberto, mas ele é menos otimista sobre seu uso prático. "O que podemos fazer com isso? Nada. Absolutamente nada."
A razão, ele diz, é que o MEG requer uma máquina volumosa e cara. Levar essa tecnologia para as clínicas exigirá inovações científicas que tornem as máquinas mais baratas e fáceis de usar.
Também é importante entender o que "decodificação" realmente significa neste estudo, diz Jonathan Brennan, linguista da Universidade de Michigan em Ann Arbor. A palavra é frequentemente usada para descrever o processo de decifrar informações diretamente de uma fonte - neste caso, a fala da atividade cerebral. Mas a IA só pôde fazer isso porque lhe foi fornecida uma lista finita de possíveis respostas corretas para fazer suas suposições.
"Com a linguagem, isso não vai funcionar se quisermos escalar para uso prático, porque a linguagem é infinita", diz Brennan.
Além disso, Di Liberto diz, a IA decodificou informações de participantes ouvindo passivamente áudio, o que não é diretamente relevante para pacientes não verbais. Para se tornar uma ferramenta de comunicação significativa, os cientistas precisarão aprender a decifrar da atividade cerebral o que esses pacientes pretendem dizer, incluindo expressões de fome, desconforto ou um simples "sim" ou "não".
O novo estudo é "decodificação da percepção da fala, não da produção", concorda King. Embora a produção da fala seja o objetivo final, por enquanto, "estamos bastante longe".