Soutenance de thèse de Mathias Quillot – 27 septembre 2022

Date : Mardi 27 septembre à 10h en S5.

Titre : Un premier pas vers la caractérisation de l’information véhiculée par les voix actées

Résumé : Avant d’être distribuée dans différents pays, une œuvre telle qu’un jeu vidéo ou un film doit être adaptée. Le sous-titrage et le doublage sont deux options pour adapter une œuvre. Si le sous-titrage est moins coûteux à réaliser, le doublage convient mieux à certains spectateurs qui préfèrent écouter les paroles, généralement dans leur langue natale, plutôt que de lire des sous- titres tout en écoutant les paroles d’une autre langue. Pour réaliser le doublage d’une œuvre, la première étape consiste à sélectionner les comédiens, parmi un ensemble de candidats, dont les voix vont remplacer celles d’origine. Cette sélection est le Casting Vocal. Elle est réalisée par le Directeur Artistique (DA), parfois nommé le directeur de casting.

Avec l’apparition de nouvelles plateformes de streaming telles que Disney+ et Amazon Prime et l’accroissement fulgurant de l’industrie du jeu vidéo, le nombre d’œuvres à distribuer à l’international augmente fortement. En réponse à cette demande, de plus en plus de comédiens sont disponibles dans le marché des voix. Le DA peut passer à côté de talents qui lui sont inconnus puisqu’il lui est impossible d’auditionner tous les candidats. Des outils de recommandation et de recherche de comédiens, basés sur le traitement automatique de la parole, aideraient les DA à trouver de nouveaux talents qui enrichiraient la diversité vocale des œuvres pour une meilleure immersion du public.

S’intéresser à la recommandation de comédiens implique d’étudier le concept de « voix actée ». Dans les œuvres multimédia, la voix actée est exprimée par des acteurs professionnels; son but est de produire chez le spectateur l’effet désiré en donnant un comportement particulier au personnage. Son étude implique une double complexité en terme de production et de perception qui explique pourquoi la voix actée est si peu présente dans la littérature du traitement de la parole.

Des travaux précédents ont abordé le problème du casting vocal en se focalisant sur les voix de personnages de jeux vidéos. Dans ces travaux, la similarité de voix est centrale. Des systèmes exploitent les associations entre comédien d’origine et comédien doubleur pour modéliser une partie du processus de décision de l’opérateur (le DA). La tâche consiste à prédire si les deux voix fournies au systèmes jouent le même personnage sous la forme d’une mesure de similarité personnage.

Dans ce manuscrit, nous nous intéressons à l’information personnage : l’ensemble des signes acoustiques dans un enregistrement vocal qui caractérisent le personnage joué. Bien que de précédents travaux aient montré l’existence d’une telle information dans la voix actée, la nature de cette information reste encore en grande partie inconnue. Nous cherchons dans ce manuscrit à éclairer des zones d’ombres en étudiant deux questions :

— Quel lien entretient l’information personnage avec son comédien ?

— Quels sont les marqueurs vocaux qui donnent forme au personnage ?

Dans un premier temps, nous construisons un protocole pour évaluer la présence d’information personnage dite « indépendante du locuteur ». Dans nos expériences, nous montrons que cette information existe mais qu’elle est très peu exprimée dans nos données.

Dans un second temps, nous montrons dans une expérience que l’information locuteur est utile à la construction de systèmes dédiés à la caractérisation du personnage joué.

Enfin, nous proposons une expérience qui consiste, depuis des étiquettes personnage et des enregistrements, à extraire des marqueurs vocaux dédiés à la caractérisation du personnage joué.