Soutenance de thèse d’Adrien Gresse – 6 février 2020 – Laboratoire Informatique d’Avignon

Jeudi 6 février 2020 à 14h30 au CERI (amphithéâtre Ada).

Titre de la thèse : « L’art de la voix : caractériser l’information vocale dans un choix artistique »

Membres du jury :

M. Emmanuel Vincent, Directeur de recherche Inria-Nancy, LORIA, Rapporteur
M. Jean-Julien Aucouturier, Chargé de recherche CNRS, IRCAM, Rapporteur
Mme Julie Mauclair, Maître de conférences à l’université de Toulouse, IRIT, Examinatrice
Mme Lori Lamel, Directrice de recherche CNRS, LIMSI, Examinatrice
M. Yannick Estève, Professeur à l’université d’Avignon, LIA, Examinateur
M. Jean-François Bonastre Professeur à l’université d’Avignon, LIA, Directeur de thèse
M. Richard Dufour, Maître de conférences à l’université d’Avignon, LIA, Co-encadrant
M. Vincent Labatut, Maître de conférences à l’université d’Avignon, LIA, Co-encadrant

Résumé : Pour atteindre une audience internationale, les productions audiovisuelles (films, séries, jeux vidéo) doivent être traduites dans d’autres langues. Très souvent les voix de la langue d’origine de l’œuvre sont doublées par de nouvelles voix dans la langue cible. Le processus de casting vocal visant à choisir une voix (un acteur) en accord avec la voix originale et le personnage joué est réalisé manuellement par un directeur artistique (DA). Aujourd’hui, les DAs ont une inclination pour les nouveaux « talents » (moins coûteux et plus disponibles que les doubleurs expérimentés), mais ils ne peuvent pas réaliser une audition à grande échelle. Doter les industriels de l’audiovisuel d’outils automatiques capables de mesurer l’adéquation entre une voix dans une langue source avec un contexte donné et une voix dans une langue/culture cible est donc d’un fort intérêt. De plus, au-delà du casting vocal, cette problématique du choix d’une voix fait écho aux grands enjeux scientifiques de la compréhension des mécanismes de perception de la voix. Dans ce travail de thèse, nous utilisons des voix d’acteurs professionnels sélectionnées par un DA dans différentes langues pour des œuvres déjà doublées. Dans un premier temps, nous construisons un protocole fondé sur une méthode état-de-l’art en reconnaissance du locuteur pour mettre en évidence l’existence d’une information caractéristique du personnage dans nos données. Nous identifions également l’influence du biais linguistique sur les performances du système. Nous mettons en place, dans un second temps, un cadre méthodologique pour évaluer la capacité d’un système automatique à discriminer les paires de voix doublant un même personnage. Le système que nous avons créé repose sur des réseaux de neurones siamois. Dans ce cadre d’évaluation nous exerçons un contrôle fort des biais (contenu linguistique, genre, etc.) et nous apprenons une mesure de similarité permettant de prédire les choix du DA avec un écart significatif par rapport au hasard. Enfin, nous entraînons un espace de représentation mettant en avant l’information caractéristique du personnage, appelé p-vecteur. Nous montrons, grâce à notre cadre méthodologique que cette représentation permet de mieux discriminer les voix de nouveaux personnages, par comparaison à une représentation orientée sur l’information locuteur. De plus, nous montrons qu’il est possible de bénéficier de la connaissance généralisée d’un modèle appris sur un jeu de données proche en utilisant les techniques de distillation de la connaissance dans les réseaux de neurones.Cette thèse apporte un début de réponse pour la construction d’un outil d’aide au casting vocal capable de réaliser une présélection des voix pertinentes parmi un grand ensemble de voix disponibles dans une langue. Si nous avons montré dans cette thèse qu’il est possible d’extraire, à partir d’un grand volume de données, une information caractéristique d’un choix artistique souvent difficile à formaliser, il nous reste encore à mettre en évidence les facteurs explicatifs de cette décision. Nous souhaitons pouvoir fournir en complément de la sélection de voix réalisée une description des raisons de ce choix. Par ailleurs, la compréhension du processus de décision du système nous aiderait à définir la « palette vocale ». À la suite de ces travaux, nous aimerions explorer l’influence de la langue et de la culture ciblée en étendant nos travaux à plus de langues. À plus long terme, ce travail pourrait aider à comprendre comment la perception des voix a évolué depuis les débuts du doublage.