Como a IA está revolucionando a produção de audiolivros: criando milhares de audiolivros de alta qualidade a partir de e-books com tecnologia neural de texto para fala
No entanto, a criação automática de audiolivros sofreu historicamente devido à natureza robótica dos sistemas de texto para fala e à dificuldade em decidir que texto não deve ser lido em voz alta
Hoje em dia, muitas pessoas ouvem audiolivros em vez de ler livros ou outros meios de comunicação. Os audiolivros não só permitem que os leitores atuais desfrutem de informações enquanto estão na estrada, mas também podem tornar o conteúdo acessível a grupos, incluindo crianças, deficientes visuais e qualquer pessoa que esteja aprendendo um novo idioma. As técnicas tradicionais de produção de audiolivros levam tempo e dinheiro e podem resultar em qualidade de gravação variável, como narração humana profissional ou iniciativas conduzidas por voluntários, como o LibriVox. Devido a esses problemas, acompanhar o crescente número de livros publicados leva tempo e esforço.
No entanto, a criação automática de audiolivros sofreu historicamente devido à natureza robótica dos sistemas de texto para fala e à dificuldade em decidir que texto não deve ser lido em voz alta (como sumários, números de página, figuras e notas de rodapé). Eles fornecem um método para superar as dificuldades mencionadas, criando audiolivros de alta qualidade a partir de várias coleções de e-books online. Sua abordagem incorpora especificamente desenvolvimentos recentes em texto neural para fala, leitura expressiva, computação escalável e reconhecimento automatizado de conteúdo pertinente para produzir milhares de audiolivros com som natural.
Eles contribuem com mais de 5.000 áudiolivros em termos de fala, totalizando mais de 35.000 horas, para o código aberto. Eles também fornecem software de demonstração que permite aos participantes da conferência criar seus próprios audiolivros, lendo qualquer livro da biblioteca em voz alta em suas próprias vozes, usando apenas uma breve amostra de som. Este trabalho introduz um método escalável para converter e-books baseados em HTML em excelentes audiolivros. SynapseML, uma plataforma de aprendizado de máquina escalável que permite a orquestração distribuída de todo o processo de geração de audiolivros, é a base de seu pipeline. Sua cadeia de distribuição começa com milhares de e-books gratuitos fornecidos pelo Project Gutenberg. Eles lidam principalmente com o formato HTML desses e-books, pois é propício para análise automatizada, o melhor de todos os formatos disponíveis para essas publicações.
Como resultado, pudemos organizar e visualizar a coleção completa de páginas HTML do Project Gutenberg e identificar muitos grupos consideráveis de arquivos estruturados de maneira semelhante. As principais classes de e-books foram transformadas em um formato padrão que poderia ser processado automaticamente usando um normalizador HTML baseado em regras criado a partir dessas coleções de arquivos HTML. Graças a essa abordagem, desenvolvemos um sistema que poderia analisar rapidamente um grande número de livros. Mais importante ainda, nos permitiu focar nos arquivos que resultariam em gravações de alta qualidade quando lidos.
Os resultados dessa abordagem para agrupamento são mostrados na Figura 1, que ilustra como vários grupos de e-books eletrônicos organizados de forma semelhante surgem espontaneamente na coleção Project Gutenberg. Após o processamento, um fluxo de texto simples pode ser extraído e alimentado em algoritmos de texto para fala. Existem muitas técnicas de leitura necessárias para diferentes audiolivros. Uma voz clara e objetiva é a melhor para não ficção, enquanto uma leitura expressiva e um pouco de "atuação" são melhores para ficção com diálogo. No entanto, em sua demonstração ao vivo, eles fornecerão aos clientes a opção de alterar a voz, ritmo, tom e entonação do texto. Para a maioria dos livros, eles utilizam uma voz neural de texto para fala clara e neutra.
Eles usam técnicas de texto para fala de zero-shot para transferir efetivamente os recursos de voz de um pequeno número de gravações registradas para duplicar a voz de um usuário. Ao fazer isso, um usuário pode rapidamente produzir um audiolivro em sua própria voz, usando apenas um pequeno pedaço de áudio que foi capturado. Eles empregam um sistema automatizado de inferência de falante e emoção para alterar dinamicamente a voz e o tom de leitura com base no contexto, para produzir uma leitura de texto emocional. Isso aumenta a semelhança com a vida real e o interesse de sequências com várias pessoas e interação dinâmica.
Para fazer isso, eles primeiro dividem o texto em narrativa e conversa, designando um falante diferente para cada linha de diálogo. Em seguida, de forma auto-supervisionada, eles prevêem o tom emocional de cada diálogo. Finalmente, eles usam o modelo neural de texto para fala baseado em multi-estilo e contextual introduzido para atribuir vozes e emoções distintas ao narrador e às conversas dos personagens. Eles acreditam que essa abordagem pode aumentar significativamente a disponibilidade e acessibilidade dos audiolivros.