Projet ANR EVA (SLG) – Laboratoire Informatique d’Avignon

Explicit Voice Attributes

La description d’une voix en quelques mots reste une tâche très arbitraire. On peut parler avec une voix ‘profonde’, ‘soufflée’, ‘claire’ ou ‘rauque’, mais la caractérisation complète d’une voix nécessiterait un ensemble précis d’attributs rigoureusement définis constituant une ontologie. Cependant, une telle grille de description n’existe pas. L’apprentissage automatique appliqué à la parole souffre de la même faiblesse : dans la plupart des tâches de traitement automatique, lorsqu’un locuteur est modélisé, des représentations globales abstraites sont utilisées sans rendre leurs caractéristiques explicites. Par exemple, la vérification / identification automatique du locuteur est généralement abordée grâce au paradigme des x-vecteurs, qui consiste à décrire la voix d’un locuteur par un vecteur d’incrustation conçu uniquement pour distinguer les locuteurs. Malgré leur très grande précision pour l’identification des locuteurs, les x-vecteurs sont généralement inadaptés pour détecter les similitudes entre différentes voix ayant des caractéristiques communes. Les mêmes observations peuvent être faites pour la génération de la parole.

Nous proposons de réaliser un ensemble complet d’analyses pour extraire des attributs vocaux saillants et non traités afin d’enrichir des représentations structurées utilisables pour la synthèse et la conversion de la voix.

Liste des partenaires :

Orange
IRCAM
LPP
LIA
IRISA

Coordinateur du projet : Orange

Responsable Scientifique pour le LIA : Yannick Estève

Date Début : 01/01/2023 Date Fin : 31/12/2025