FRACTALES - Synthèse vocale

Précédent : Analyse et modélisation Remonter : Applications: signaux 1D Suivant : Évaluation des actifs

Synthèse vocale

Participants : Khalid Daoudi, Jacques Lévy Véhel

Mots clefs : fractales, ondelettes, synthèse de la parole, système de fonctions itérées, traitement de la parole

(En collaboration avec le CNET) La synthèse par concaténation d'unités acoustiques, utilisée par le CNET dans la méthode PSOLA, utilise un ensemble d'unités de paroles élémentaires stockées dans un dictionnaire : ces unités sont des diphones (un diphone s'étend de la zone stable d'un phonème à la zone stable du phonème suivant). Elles sont enregistrées par un locuteur humain sous forme de logatomes, mots artificiels composés d'un diphone entouré d'un contexte phonétique neutre. En français, on dénombre 37 phonèmes, et un dictionnaire complet est composé de 1369 logatomes. Une fois les logatomes segmentés, la méthode de synthèse consiste à superposer et additionner des blocs de signal, décalés dans le temps selon un décalage variable et synchrone avec les périodes fondamentales. Le problème avec cette méthode est que si l'on souhaite utiliser une nouvelle voix, il faut trouver un nouveau locuteur, et reprendre tout le processus de création de dictionnaire. L'objet de notre étude est donc de développer une méthode permettant la synthèse de nouvelles voix à partir de dictionnaires existants. Plus précisément, nous cherchons à coder chaque logatome par un IFS. Il s'agit de déterminer automatiquement, à partir du signal vocal, les éléments composant le code IFS. Ce calcul se fait en estimant la régularité locale du signal en chaque point puis en utilisant les résultats présentés en 3.1.4. Un nouvel algorithme a été developpé pour ce faire, qui semble robuste sur les signaux vocaux. Une collaboration sur ce point avec le laboratoire d'analyse fractale de l'école Polytechnique de Montréal (Claude Tricot), qui a traité un problème analogue, devrait permettre d'améliorer encore les performances. Les synthèses obtenues sont de bonne qualité auditives [17] (voir les figures 1 et 2 pour une synthèse sur le son /TEU/).

Figure 1: Son /TEU/ original.

Figure 2: Son /TEU/ reconstruit.

Précédent : Analyse et modélisation Remonter : Applications: signaux 1D Suivant : Évaluation des actifs