Adivinhe o que eu vi hoje? Este modelo de IA decodifica seus sinais cerebrais para reconstruir as coisas que você viu
Entender como o cérebro responde ao que vemos é um tópico de pesquisa em alta, pois esse conhecimento pode levar ao desenvolvimento de sistemas cognitivos computacionais avançados
O cérebro. O órgão mais fascinante do corpo humano. Entender como ele funciona é a chave para desvendar os segredos da vida. Como pensamos, sentimos, cheiramos, agimos? A resposta para todas essas perguntas reside em entender como o cérebro funciona.
Entender como o cérebro responde ao que vemos é um tópico de pesquisa em alta, pois esse conhecimento pode levar ao desenvolvimento de sistemas cognitivos computacionais avançados. Com ferramentas sofisticadas como imagem por ressonância magnética funcional (fMRI) e eletroencefalografia (EEG), os cientistas agora podem registrar a atividade cerebral desencadeada por estímulos visuais. Isso levou a um crescente interesse em decodificar e reconstruir o conteúdo real que provoca essas respostas no cérebro humano.
Uma abordagem comum para estudar a percepção visual humana é reconstruir as imagens ou vídeos que os sujeitos visualizaram durante os experimentos. Isso é feito usando métodos computacionais, particularmente redes neurais profundas, e é baseado principalmente em dados de fMRI. No entanto, coletar dados de fMRI é caro e inconveniente para uso prático. Se você já esteve em um dispositivo de ressonância magnética, provavelmente sabe o quão desconfortável é ficar lá. Ninguém concorda voluntariamente em participar de um experimento assim.
É aqui que o EEG entra. O EEG é uma maneira mais eficiente de registrar e analisar sinais cerebrais enquanto os sujeitos visualizam vários estímulos, mas tem seus próprios desafios. Os sinais de EEG são dados de séries temporais, muito diferentes de imagens estáticas. Isso torna difícil combinar estímulos com as respectivas peças de sinal cerebral. Além disso, problemas como colocação incorreta de eletrodos e movimento corporal podem introduzir ruído significativo nos dados. Simplesmente mapear entradas de EEG para pixels para reconstrução de imagem produz resultados de baixa qualidade.
Por outro lado, modelos de difusão surgiram como abordagens de última geração em modelagem generativa. Eles foram aplicados com sucesso a várias tarefas, incluindo síntese de imagem e geração de vídeo. Operando no espaço latente de autoencoders poderosos pré-treinados, os pesquisadores superam as limitações da avaliação do espaço de pixels, permitindo inferência mais rápida e reduzindo os custos de treinamento.
Conheça o NeuroImageGen, que aborda esse problema usando o poder dos modelos de difusão.
NeuroImageGen é um pipeline para geração de imagens neurais usando sinais de EEG. Ele aborda os desafios associados à reconstrução de imagens baseadas em EEG, incorporando um módulo de extração de semântica de vários níveis. Este módulo decodifica diferentes níveis de informação semântica de sinais de EEG, variando de semântica de nível de amostra a detalhes de nível de pixel, como mapas de saliência. Essas saídas de vários níveis são então alimentadas em modelos de difusão pré-treinados, controlando efetivamente o processo de geração em vários níveis semânticos.
Os sinais de EEG são dados complexos de séries temporais propensos a ruído, tornando-os desafiadores para trabalhar. NeuroImageGen supera isso extraindo semânticas de vários níveis, que incluem informações de nível de pixel e de amostra. Semânticas de nível de pixel envolvem a captura de detalhes finos de cor, posição e forma de estímulos visuais através de mapas de saliência. Por outro lado, semânticas de nível de amostra fornecem uma compreensão mais grosseira, como reconhecer categorias de imagens ou legendas de texto. Essa abordagem de vários níveis permite que o NeuroImageGen lide efetivamente com os dados ruidosos do EEG, facilitando a reconstrução de estímulos visuais de alta qualidade.
NeuroImageGen integra essas semânticas de vários níveis em um modelo de difusão latente para reconstrução de imagem. As semânticas de nível de pixel, representadas como mapas de saliência gerados a partir de características de EEG, são usadas como uma imagem inicial. Semânticas de nível de amostra, derivadas das incorporações do modelo CLIP de legendas de imagem, guiam o processo de desembaraço no modelo de difusão. Essa integração permite um controle flexível da informação semântica em diferentes níveis durante o processo de reconstrução. O resultado é o estímulo visual reconstruído, que combina efetivamente informações detalhadas e grosseiras para produzir imagens de alta qualidade.
Os resultados dessa abordagem são promissores, superando os métodos tradicionais de reconstrução de imagens em dados de EEG. NEUROIMAGEN melhora significativamente a similaridade estrutural e a precisão semântica das imagens reconstruídas, aprimorando nossa compreensão do impacto dos estímulos visuais no cérebro humano.
Confira o artigo. Todo o crédito por esta pesquisa vai para os pesquisadores deste projeto. Além disso, não se esqueça de se juntar ao nosso subreddit de ML com mais de 30k membros, comunidade no Facebook com mais de 40k membros, canal no Discord e boletim informativo por e-mail, onde compartilhamos as últimas notícias de pesquisa em IA, projetos interessantes de IA e muito mais.
EKREM ÇETINKAYA Ekrem Çetinkaya recebeu seu B.Sc. em 2018 e M.Sc. em 2019 da Universidade Ozyegin, Istambul, Turquia. Ele escreveu sua tese de mestrado sobre denoising de imagens usando redes convolucionais profundas. Ele recebeu seu Ph.D. em 2023 da Universidade de Klagenfurt, Áustria, com sua dissertação intitulada "Melhorias na Codificação de Vídeo para Streaming Adaptativo HTTP Usando Aprendizado de Máquina". Seus interesses de pesquisa incluem aprendizado profundo, visão computacional, codificação de vídeo e redes multimídia.