Titre: Traduction de la parole vers la parole expressive
La soutenance aura lieu le jeudi 27 mars à 13h15 dans l’amphithéâtre Blaise situé dans le batiment du CERI.
Cette soutenance se déroulera en français.
Abstract :
Cette thèse explore la préservation de l’expressivité dans la traduction automatique parole vers parole (speech-to-speech translation — S2ST), sans recours au texte en tant que représentation intermédiaire. L’objectif est de développer un système capable de transférer non seulement le contenu linguistique, mais également les caractéristiques émotionnelles et expressives de l’énoncé source vers la langue cible.
L’approche développée s’articule autour de deux composantes. Premièrement, l’utilisation d’unités discrètes de parole, extraites de modèles auto-supervisés, permettant de capturer efficacement le contenu phonétique. Deuxièmement, un encodeur multilingue d’émotions, ayant pour objectif d’extraire des caractéristiques expressives indépendantes de la langue. Ces représentations sont ensuite intégrées dans le processus de synthèse vocale afin de conditionner la génération de celle-ci.
Jury :
Anthony Larcher, PR à LIUM, Le Mans Université, Rapporteur
Damien Lolive, PR à IRISA, Université de Vannes, Rapporteur
Loïc Barrault, Docteur à Meta AI, Examinateur
Fethi Bougares, Docteur à Elyadata, Examinateur
Marie Tahon, PR à LIUM, Le Mans Université, Examinatrice
Marcely Zanon-Boito, Docteur à NAVER LABS EUROPE, Examinatrice
Yannick Estève, PR à LIA, Avignon Université, Directeur de thèse
Titouan Parcollet, Docteur à Samsung AI Center Cambridge, Co-encadrant de thèse
Laurent Pilati, Ingénieur à NXP Semiconductors, Membre invité