Soutenance de thèse de Gaelle Laperrière – 09/09/2024 – Laboratoire Informatique d’Avignon

Date : lundi 9 septembre 2024

Heure : 15h00

Lieu : l’amphithéâtre Ada Lovelace du CERI, campus Jean-Henri Fabre d’Avignon Université.

Le jury sera composé de :

Alexandre Allauzen, PR à Université Paris Dauphine-PSL, LAMSADE – Rapporteur

Benoit Favre, PR à Aix-Marseille Université, LIS – Rapporteur

Marco Dinarelli, CR au CNRS, LIG – Examinateur

Nathalie Camelin, MCF à Le Mans Université, LIUM – Examinatrice

Philippe Langlais, PR à Université de Montréal, DIRO, RALI – Examinateur

Fabrice Lefèvre, PR à Avignon Université, LIA – Examinateur

Yannick Estève, PR à Avignon Université, LIA – Directeur de thèse

Sahar Ghannay, MCF à Université Paris-Saclay, LISN, CNRS – Co-encadrante de thèse

Bassam Jabaian, MCF à Avignon Université, LIA – Co-encadrant de thèse

Titre : Compréhension de la parole dans un contexte multilingue

Cette thèse s’inscrit dans le cadre de l’Apprentissage Profond appliqué au domaine de la Compréhension Automatique de la Parole. Son objectif principal consiste à tirer bénéfice de données existantes dans des langues bien dotées en annotation sémantique de la parole afin de développer des systèmes de compréhension performants dans des langues moins dotées.

Ces dernières années ont connu des avancées considérables dans le domaine de la traduction automatique de la parole grâce à de nouvelles approches permettant de faire converger les modalités audio et textuelle, cette dernière disposant de vastes quantités de données. Associant la compréhension de la parole à une traduction depuis une langue source naturelle vers une langue cible conceptuelle, nous considérons l’encodeur de parole SAMU-XLSR dont l’encodage enrichi sémantiquement est agnostique à la langue. Nous montrons l’impact positif de ce type d’encodeur dans un modèle neuronal de compréhension de la parole de bout-en-bout et étudions finement ses capacités d’encodage linguistique et sémantique. Cette étude se poursuit par la spécialisation de l’enrichissement de cet encodeur, dans l’objectif d’orienter son encodage vers le domaine sémantique des ensembles de données françaises MEDIA, italiennes PortMEDIA et tunisiennes TARIC-SLU. Une double spécialisation est proposée afin de préserver la faculté de l’encodeur à générer certaines abstractions sémantiques tout en limitant la perte de ses capacités cross-lingues pendant la phase classique de fine-tuning du modèle sur la tâche finale. Nos contributions ont permis de faire avancer l’état-de-l’art de la portabilité entre langues et domaines pour les ensembles de données MEDIA, PortMEDIA et TARIC-SLU.

Le projet SpeechBrain a été déterminant pour l’implémentation de nos expérimentations. Nous avons apporté notre contribution à ce projet open-source par l’intégration dans sa distribution officielle d’une recette complète pour l’ensemble de données MEDIA.

Veuillez trouver ici le lien pour la visio-conférence : https://v-au.univ-avignon.fr/live/bbb-soutenance-g-laperriere-9-septembre-2024/