Google affirme que son modèle Parallel Tacotron génère des voix synthétiques 13 fois plus rapidement que son prédécesseur

En décembre 2016, Google a lancé Tacotron 2, un système d’apprentissage automatique de la synthèse vocale (TTS) qui génère un discours au son naturel à partir de transcriptions brutes. Il est utilisé dans les services destinés aux utilisateurs tels que l’Assistant Google pour créer des voix qui semblent humaines, mais il est relativement gourmand en calcul. Dans un nouvel article, les chercheurs du géant de la recherche affirment avoir abordé cette limitation avec ce qu’ils appellent Parallel Tacotron, un modèle hautement parallélisé pendant la formation et l’inférence pour permettre une génération de voix efficace sur du matériel moins puissant.

La synthèse texte-parole est ce que l’on appelle un problème de mappage un-à-plusieurs. Étant donné n’importe quel extrait de texte, plusieurs voix avec différentes prosodies (intonation, ton, accent et rythme) pourraient être générées. Même les modèles sophistiqués comme Tacotron 2 sont sujets à des erreurs telles que le babillage, la coupure de la parole et la répétition ou le saut de mots en conséquence. Une façon de résoudre ce problème consiste à augmenter les modèles en incorporant des représentations qui capturent les facteurs de parole latents. Ces représentations peuvent être extraites par un encodeur qui prend des spectrogrammes de vérité terrain (une représentation visuelle des fréquences vocales au fil du temps) comme entrée; c’est l’approche adoptée par Parallel Tacotron.

Dans des expériences, pour entraîner Parallel Tacotron, les chercheurs disent avoir utilisé un ensemble de données contenant 405 heures de discours, dont 347872 énoncés de 45 locuteurs avec 3 accents anglais (32 anglophones américains, 8 anglophones britanniques et 5 anglophones australiens). La formation a duré une journée à l’aide des TPU Google Cloud, des circuits intégrés spécifiques à des applications développés spécifiquement pour accélérer l’IA.

Les chercheurs ont demandé à des critiques humains d’examiner 1000 phrases afin d’évaluer les performances de Parallel Tacotron, qui ont été synthétisées à l’aide de 10 anglophones américains (5 hommes et 5 femmes) dans un style à tour de rôle (100 phrases par locuteur). Bien qu’il y ait place à l’amélioration, les résultats suggèrent que Parallel Tacotron « a bien fonctionné » par rapport à la parole humaine. De plus, Parallel Tacotron était environ 13 fois plus rapide que Tacotron 2.

« Un certain nombre de modèles ont été proposés pour synthétiser divers aspects de la parole (par exemple, les styles de parole) de manière naturelle », ont écrit les chercheurs. « Parallel Tacotron correspondait au Tacotron 2 de référence en termes de naturel et offrait une inférence nettement plus rapide que Tacotron 2. »

La sortie de Parallel Tacotron, disponible sur GitHub, intervient après que Microsoft et Facebook aient détaillé leurs propres techniques de synthèse vocale rapide. Le FastSpeech de Microsoft présente une architecture unique qui non seulement améliore les performances dans un certain nombre de domaines, mais élimine les erreurs telles que le saut de mots et permet un ajustement précis de la vitesse et des sauts de mots. Quant au système de Facebook, il exploite un modèle de langage pour la curation pour créer des voix 160 fois plus rapidement par rapport à une ligne de base.Comment les startups font évoluer la communication:

La pandémie pousse les startups à se pencher de près sur la montée en puissance de leurs solutions de communication. Apprendre

Tags: