Conheça o GETMusic: uma estrutura unificada de representação e difusão que pode gerar qualquer faixa musical
Os pesquisadores destacam que esta estrutura inovadora oferece controle explícito sobre a geração de faixas alvo
Nos últimos anos, houve um progresso significativo na geração de música usando modelos de Aprendizado de Máquina. No entanto, ainda existem desafios para alcançar eficiência e controle substancial sobre os resultados. Tentativas anteriores encontraram dificuldades principalmente devido a limitações nas representações musicais e nas arquiteturas dos modelos.
Como pode haver vastas combinações de faixas de origem e destino, há uma necessidade de um modelo unificado que seja capaz de lidar com tarefas abrangentes de geração de faixas e produzir resultados desejados. A pesquisa atual em gerações musicais simbólicas pode ser generalizada em duas categorias com base nas representações musicais adotadas. Estas são baseadas em sequência e baseadas em imagem. A abordagem baseada em sequência representa a música como uma sequência de tokens discretos, enquanto a abordagem baseada em imagem representa a música como imagens 2D, tendo rolos de piano como a escolha ideal. Os rolos de piano representam notas musicais como linhas horizontais, onde a posição vertical representa o tom e o comprimento da linha representa a duração.
Para atender à necessidade de um modelo unificado capaz de gerar faixas arbitrárias, uma equipe de pesquisadores da China desenvolveu uma estrutura chamada GETMusic (GET significa GEnerate music Tracks). O GETMusic entende muito bem a entrada e pode produzir música por faixas. Esta estrutura permite aos usuários criar ritmos e adicionar elementos adicionais para fazer as faixas desejadas. Esta estrutura é capaz de criar música do zero, e pode produzir faixas guiadas e mistas.
O GETMusic usa uma representação chamada GETScore e um modelo de difusão discreta chamado GETDiff. O GETScore representa faixas em uma estrutura 2D onde as faixas são empilhadas verticalmente e progridem horizontalmente com o tempo. Os pesquisadores representaram notas musicais com um token de tom e duração. O trabalho do GETDiff é selecionar faixas como alvos ou fontes aleatoriamente. O GETDiff realiza dois processos: o processo de avanço e o processo de desruído. No processo de avanço, o GETDiff corrompe a faixa alvo mascarando tokens, deixando as faixas de origem preservadas como verdade absoluta. Enquanto no processo de desruído, o GETDiff aprende a prever os tokens alvo mascarados com base na fonte fornecida.
Os pesquisadores destacam que esta estrutura inovadora oferece controle explícito sobre a geração de faixas alvo desejadas a partir do zero ou com base em faixas de origem fornecidas pelo usuário. Além disso, o GETScore se destaca como uma representação musical concisa de várias faixas, simplificando o processo de aprendizado do modelo e possibilitando a geração de música harmoniosa. Além disso, os tokens de tom utilizados nesta representação retêm efetivamente as dependências polifônicas, promovendo a criação de composições musicais harmonicamente ricas.
Além de suas capacidades de geração por faixa, o avançado mecanismo de máscara e desruído do GETDiff permite o preenchimento zero-shot. Esta característica notável permite o desruído sem interrupções de tokens mascarados em qualquer posição arbitrária dentro do GETScore, expandindo os limites da criatividade e aumentando a versatilidade geral da estrutura.
No geral, o GETMusic se sai bem, superando muitos outros modelos semelhantes, demonstrando superioridade melódica, rítmica e estrutural entre as faixas alvo e as faixas de origem fornecidas. No futuro, os pesquisadores pretendem explorar o potencial desta estrutura, com foco particular na incorporação de letras como uma faixa adicional. Esta integração visa possibilitar impressionantes capacidades de geração de letra para melodia, avançando ainda mais a versatilidade e o poder expressivo do modelo. A combinação perfeita de elementos textuais e musicais poderia abrir novas possibilidades criativas e melhorar a experiência musical geral.