Meta (Instagram e WhatsApp) anuncia nova IA capaz de replicar vozes humanas
A empresa ainda não a disponibilizará devido aos riscos de uso inadequado da tecnologia
A Meta anunciou na sexta-feira que produziu "a IA mais versátil para geração de fala" em existência. No entanto, acrescentou que a empresa não tornaria seu modelo de IA público, devido a sérias preocupações sobre os "riscos potenciais de uso indevido" da tecnologia avançada.
Nos últimos meses, golpistas se tornaram adeptos ao uso de fala gerada por IA para perpetrar crimes assustadores e chocantes, incluindo uma tentativa em abril de simular o sequestro de uma adolescente no Arizona, aterrorizando a mãe angustiada da jovem com súplicas realistas geradas por IA.
No entanto, a Meta propôs uma variedade de usos mais otimistas em seu comunicado à imprensa, afirmando que o Voicebox poderia ser usado para ajudar pessoas com deficiência visual a ouvir mensagens de seus amigos e entes queridos, ou permitir que falantes não nativos reproduzam traduções de suas próprias palavras, em sua própria voz, mas em uma língua estrangeira.
A empresa chamou seu novo modelo de IA generativa Voicebox de "a IA mais versátil para geração de fala" em existência. Mas a empresa acrescentou que não tornaria a IA pública, devido às suas próprias sérias preocupações em relação aos "riscos potenciais de uso indevido" da tecnologia avançada.
No momento, a empresa disse que seu modelo de IA é capaz de falar seis idiomas: inglês, francês, espanhol, alemão, polonês e português.
A Meta também ofereceu alguns usos mais voltados para o negócio para a tecnologia, incluindo a implantação do Voicebox como um meio para os criadores de áudio editarem mais facilmente ruídos de fundo indesejados ou erros de suas faixas de áudio ou vídeo.
Também sugeriu que o Voicebox poderia ser usado para criar vozes mais confortáveis e naturalistas para assistentes virtuais e personagens mais realistas em videogames.
Mas todas essas novas oportunidades não serão disponibilizadas para desenvolvedores que esperam brincar na caixa de areia do Voicebox da Meta, disse a empresa em um comunicado à imprensa.
"Há muitos casos de uso empolgantes para modelos de fala generativos", disse a empresa em uma postagem de pesquisa, "mas por causa dos riscos potenciais de uso indevido, não estamos tornando o modelo ou o código do Voicebox publicamente disponíveis neste momento."
"Embora acreditemos que é importante ser aberto com a comunidade de IA e compartilhar nossa pesquisa para avançar o estado da arte em IA", acrescentou a empresa, "também é necessário encontrar o equilíbrio certo entre abertura e responsabilidade."
Os pesquisadores de IA de aprendizado profundo da Meta observaram em sua postagem apresentando o Voicebox que seu sistema utiliza um método chamado Flow Matching, que obteve resultados melhores do que os modelos de difusão usados pelos sistemas atuais de última geração, como VALL-E e text-to-speech de zero-shot.
O Voicebox, disseram eles, produziu áudio artificial que era mais inteligível, marcando uma taxa de erro de palavra menor de 1,9% em comparação com os 5,9% de seus concorrentes.
Também tem uma proporção maior para produzir similaridade de áudio (0,580 vs. 0,681) enquanto é, de acordo com a Meta, quase 20 vezes mais rápido.
Ao traduzir entre idiomas, o Voicebox superou uma IA de texto para fala multilíngue bem conceituada, o YourTTS, reduzindo a taxa média de erro de palavra de 10,9% para 5,2%, e aumentando a proporção de similaridade de áudio de 0,335 para 0,481.
O anúncio ocorre pouco mais de um mês depois que Zuckerberg foi ignorado pela Casa Branca de Biden - que explicitamente disse aos repórteres que os representantes da Meta não haviam sido convidados para uma cúpula na Ala Oeste que era exclusivamente para empresas na "vanguarda da inovação em IA".