Seminar – Matthew Wiesner – 26/03/2026

Room 5 – 12h00

Title: Modeling Accent and Language at Scale

Abstract: State-of-the-art LID models work reliably for ∼100 languages, but there are orders of magnitude more accents and dialects; annotating all of them is intractable. Furthermore, current LID models fail dramatically when applied to accented speech, and very few annotated accented data exist to support accented TTS. This talk explores these challenges and proposes a potential partial solution using massive amounts of diverse and widely available data collected from radio, with soft language labels in the form of geolocations. The talk then explores the link between robustness to accented speech and the capacity to more effectively model sequence-level data. Finally, these models and insights are shown to greatly improve LID on accented speech, and can be used to mine for accented speech to support scalable, controllable accented TTS.
Bio: Matthew Wiesner est chercheur à l’Université Johns Hopkins et chercheur invité au Laboratoire Interdisciplinaire des Sciences du Numérique (LISN). Il a obtenu son doctorat et son master en génie électrique à Johns Hopkins en 2021 et 2016 sous la direction de Jan Trmal et de Sanjeev Khudanpur, ainsi que sa licence en génie électrique à l’Université McGill en 2013. Ses recherches portent de manière générale sur le traitement de la parole, avec un intérêt particulier pour le multilinguisme. Il a auparavant travaillé principalement sur la reconnaissance automatique de la parole, la traduction de la parole et la recherche par mots-clés. Plus récemment, ses travaux se sont concentrés sur l’identification de langue, l’anonymisation de la parole et la reconnaissance de la parole en présence de plusieurs locuteurs (multi-talker ASR).