Séminaire SLG – Matthew Wiesner – 26/03/2026 – Laboratoire Informatique d’Avignon

Salle 5 – 12h00

Titre: Modélisation Extensible de Langues et d’Accents

Résumé: Les modèles d’identification de langue (LID) à l’état de l’art fonctionnent de manière fiable pour une centaine de langues. Cependant, derrière le concept de langue se cache de nombreuses variations émanant d’accents et de dialectes divers. Il est tout simplement impossible d’annoter les données en prenant compte de toutes ces variations. De plus, la parole accentuée engendre un comportement inattendu des modèles de LID et très peu de données annotées existent pour pallier le problème. Ce manque d’annotation empêche aussi l’augmentation de donnée via la synthèse de parole accentuée.

Ce séminaire aborde ces problématiques et propose une ébauche de solution fondée sur une collecte de données à grande échelle à partir de diffusions radiophoniques. Cela permet d’associer aux données des annotations indirectes sous forme de géolocalisations. Le séminaire explore ensuite le lien entre la robustesse aux accents et la capacité à modéliser des séquences. Enfin, nous montrons comment ces modèles permettent d’améliorer les modèles de LID, en particulier sur la parole accentuée, et de faciliter l’extraction automatique de données accentuées pour entrainer des systèmes de synthèse vocale.
Bio: Matthew Wiesner est un chercheur à Johns Hopkins University et chercheur at the Laboratoire Interdisciplinaire des Sciences du Numérique (LISN formerly LIMSI). He received his PhD and MS in Electrical Engineering from Johns Hopkins University in 2021 and 2016 under the supervision of Jan Trmal and Sanjeev Khudanpur, and his Bachelor’s degree from McGill University in Electrical Engineering in 2013. His research interests are broadly focused on speech processing with an emphasis on multilinguality. He previously worked primarily on automatic speech recognition, speech translation, and keyword search. More recently, his work has focused on language identification, voice anonymization and multi-talker ASR.