Stability AI apresenta Stable Audio, um novo modelo de IA que pode gerar clipes de áudio a partir de prompts de texto
Diferentemente dos modelos de geração de imagem que podem emular o estilo de artistas específicos, o Stable Audio não tenta imitar ícones como The Beatles
A Stability AI revelou uma tecnologia revolucionária, o Stable Audio, marcando um avanço significativo na geração de áudio. Esta solução inovadora aborda o desafio de criar clipes de áudio personalizados a partir de simples prompts de texto. Enquanto a Stability AI ganhou renome por sua tecnologia de geração de texto para imagem, Stable Diffusion, agora estendeu sua expertise para música e áudio. Este desenvolvimento vem após seu bem-sucedido foray na composição de imagens, introduzindo o modelo base SDXL para Stable Diffusion.
Até agora, a geração de faixas de áudio base tem sido possível através de técnicas de "geração simbólica", muitas vezes envolvendo arquivos MIDI. No entanto, o Stable Audio transcende isso, permitindo aos usuários criar composições musicais totalmente novas, libertando-se das restrições de notas repetitivas comumente associadas ao MIDI e à geração simbólica. Esse feito é atribuído à interação direta do modelo com amostras de áudio bruto, resultando em qualidade de saída superior. O treinamento do modelo, abrangendo mais de 800.000 peças de música licenciada da biblioteca AudioSparks, contribui para seu desempenho robusto. Esse conjunto de dados rico garante áudio de alta qualidade e fornece metadados abrangentes, um fator crítico em modelos baseados em texto.
Diferentemente dos modelos de geração de imagem que podem emular o estilo de artistas específicos, o Stable Audio não tenta imitar ícones como The Beatles. Essa escolha deliberada decorre do entendimento de que os músicos buscam embarcar em sua jornada criativa sem restrições estilísticas rígidas. Em vez disso, o Stable Audio capacita os usuários a explorar suas expressões musicais únicas.
O modelo Stable Audio, um modelo de difusão com aproximadamente 1,2 bilhão de parâmetros, rivaliza com o modelo original Stable Diffusion para geração de imagem. Os prompts de texto, essenciais para gerar áudio, foram meticulosamente desenvolvidos e treinados pela Stability AI usando a técnica Contrastive Language Audio Pretraining (CLAP). Para ajudar os usuários a criar prompts eficazes, a Stability AI está lançando um guia de prompts simultaneamente ao lançamento do Stable Audio.
O Stable Audio estará acessível através de uma versão gratuita e um plano Pro com preço de $12 mensais. A versão gratuita permite até 20 gerações mensais, cada uma produzindo faixas de até 20 segundos. Em contraste, a versão Pro eleva esses limites, possibilitando 500 gerações e estendendo a duração da faixa para 90 segundos.
Em conclusão, o lançamento do Stable Audio pela Stability AI marca uma nova era na tecnologia de geração de áudio. A empresa forneceu uma plataforma perfeita para transformar prompts de texto em clipes de áudio originais, aproveitando técnicas avançadas de IA. Essa inovação expande os horizontes da expressão criativa e demonstra o potencial de soluções de produção de música e áudio potencializadas por IA. Com seus níveis de preço acessíveis, o Stable Audio está posicionado para se tornar uma ferramenta valiosa para criadores de áudio aspirantes e profissionais.
Confira o artigo de referência e o projeto. Todo o crédito por esta pesquisa vai para os pesquisadores deste projeto. Além disso, não se esqueça de se juntar ao nosso SubReddit de ML com mais de 30k membros, comunidade no Facebook com mais de 40k membros, canal no Discord e boletim informativo por e-mail, onde compartilhamos as últimas notícias de pesquisa em IA, projetos interessantes de IA e muito mais.
Niharika é estagiária de consultoria técnica na Marktechpost. Ela está no terceiro ano da graduação, atualmente cursando seu B.Tech no Indian Institute of Technology (IIT), Kharagpur. Ela é uma pessoa muito entusiasmada com grande interesse em aprendizado de máquina, ciência de dados e IA e é uma ávida leitora dos últimos desenvolvimentos nessas áreas.