Soutenance de thèse – Lucas Maison – 25/10/2025

Titre : Robustesse des modèles neuronaux pour le traitement automatique de la parole

Résumé : La reconnaissance automatique de la parole est devenue un outil populaire avec de nombreuses applications ; elle sert également comme étape intermédiaire pour d’autres tâches liées à la parole, telles que la compréhension du langage parlé ou la synthèse vocale. En reconnaissance automatique de la parole, le signal vocal est d’abord émis par le locuteur, transmis à travers l’environnement, avant d’être capturé par un dispositif d’enregistrement et traité par un modèle d’apprentissage automatique. Cependant, chacune de ces étapes peut être source de variabilité et entraîner des erreurs de transcription, ce qui affecte la robustesse du système.

Dans cette thèse, nous étudions divers facteurs influençant le traitement de la parole par les machines. Plus précisément, nous nous concentrons sur les modèles pré-entraînés en français et affinés pour la reconnaissance vocale. Nous commençons par présenter nos travaux sur la robustesse aux accents. À travers de nombreuses expériences, nous évaluons la résilience du modèle aux variations d’accents et explorons différentes façons de combler les écarts entre ces derniers. Nous examinons en particulier l’impact des proportions de voix accentuées dans l’ensemble d’apprentissage. En outre, nous présentons CEREALES, un nouvel ensemble de données en français québécois.

Au-delà des accents, nous nous intéressons également à l’impact des variables démographiques sur les performances de la reconnaissance vocale. À l’aide du corpus Common Voice, nous mettons en évidence les biais du modèle et tentons de les réduire en utilisant des ensembles d’entraînement volontairement biaisés. Enfin, le dernier chapitre explore la question de la robustesse acoustique à l’aide de modèles de reconnaissance de mots-clés : nous montrons comment les performances ID et OOD sont corrélées et étudions comment les données d’entraînement ou les différents pré-traitements influencent la robustesse.

Le jury sera composé de :

Irina Illina, Maîtresse de conférences, INRIA/LORIA, Université de Lorraine, Rapportrice

Benjamin Lecouteux, Professeur, LIG/GETALP, Université de Grenoble, Rapporteur

– Marcely Zanon Boito, Docteure, NAVER Labs, Grenoble, Examinatrice

Jean-François Bonastre, Directeur de recherche, INRIA Défense & Sécurité, Examinateur

– Yannick Estève, Professeur, LIA, Université d’Avignon, Directeur de thèse

– François Capman, Docteur, Thales SIX, Gennevilliers, Co-encadrant de thèse