Séminaire SLG – Matthew Wiesner – 26/03/2026
Salle 5 – 12h00 Titre: Modélisation Extensible de Langues et d’Accents Résumé: Les modèles d’identification de langue (LID) à l’état de l’art fonctionnent de manière fiable pour une centaine de langues. Cependant, derrière le concept de langue se cache de nombreuses variations émanant d’accents et de dialectes divers. Il est tout simplement impossible d’annoter les données en prenant compte de toutes ces variations. De plus, la parole accentuée engendre un comportement inattendu des modèles de LID et très peu de données annotées existent pour pallier le problème. Ce manque d’annotation empêche aussi l’augmentation de donnée via la synthèse de parole accentuée. Ce séminaire aborde ces problématiques et propose une ébauche de solution fondée sur une collecte de données à grande échelle à partir de diffusions radiophoniques. Cela permet d’associer aux données des annotations indirectes sous forme de géolocalisations. Le séminaire explore ensuite le lien entre la robustesse aux accents et la capacité à modéliser des séquences. Enfin, nous montrons comment ces modèles permettent d’améliorer les modèles de LID, en particulier sur la parole accentuée, et de faciliter l’extraction automatique de données accentuées pour entrainer des systèmes de synthèse vocale.Bio: Matthew Wiesner est un chercheur à Johns Hopkins University et chercheur at Plus d'infos