Clones de Voz em IA: Uma Nova Fronteira da Tecnologia
Os sistemas de IA estão se tornando bons em transformar texto em fala crível em quase qualquer idioma e quase qualquer voz
Fonte: https://www.theverge.com/23864878/ai-voice-clones-podcastle-elevenlabs-personal-voice
Talvez você não pense dessa forma, mas provavelmente ouve vozes de IA o tempo todo. Quando você conversa com Alexa ou Siri, está ouvindo um modelo treinado em fala humana para poder dizer quase qualquer coisa. Já teve uma celebridade dando-lhe direções no Waze? É IA. E toda vez que você assiste ao TikTok e ouve aquela voz um pouco excessivamente animada lendo as legendas em voz alta, é totalmente IA. Aliás, a IA da Apple até lê um romance para você antes de dormir.
Os sistemas de IA estão se tornando bons em transformar texto em fala crível em quase qualquer idioma e quase qualquer voz. E neste episódio do The Vergecast, o primeiro de nossa minissérie em três partes sobre IA, essa voz é a minha. Treinamos vários bots de IA diferentes com o som da minha voz — às vezes lendo roteiros cheios de frases sem sentido, às vezes carregando horas de áudio existente de episódios antigos do Vergecast, às vezes um pouco de cada — para ver quão bem — e quão rapidamente — poderíamos fazer uma cópia aceitável da minha voz em IA.
Foi... bastante surpreendente. Aqui está o episódio:
E se você quiser uma rápida comparação das diferentes ferramentas, primeiro, aqui está o discurso de referência que usamos do grande Dwight Schrute:
Transcrevemos esse texto e o alimentamos em cada gerador de IA que testamos. Veja como o Podcastle interpretou na voz do IA David Pierce:
Veja o que o Descript fez com a mesma coisa:
E o novo recurso Personal Voice no iOS 17:
E, finalmente, ElevenLabs, facilmente a ferramenta mais realista e impressionante que testamos:
No final das contas, não acho que nenhuma das vozes de IA vá me substituir. Mas elas estão melhorando muito rapidamente e levantam enormes possibilidades e questões. O que significa poder criar uma réplica tão boa e que elas só vão melhorar e se tornar mais fáceis com o tempo? Quais responsabilidades tenho como a pessoa que a criou? Quais responsabilidades outras pessoas têm?
Estamos tendo muitos debates sobre música em IA agora, obviamente, já que as vozes dos artistas estão sendo usadas para treinar modelos que podem criar músicas bastante convincentes em praticamente qualquer voz. Isso vai gerar uma década de interessantes casos judiciais e debates éticos, mas essas mesmas questões estão chegando para todos nós. Como usamos essas ferramentas? Como falamos sobre elas? É possível obter as coisas boas, úteis e democratizantes delas sem todos os deepfakes e problemas? Temos muito o que descobrir e pouco tempo para perder. Porque a tecnologia é realmente boa agora, e está melhorando muito rápido.