Soutenance de thèse – Jarod Duret – 27/03/2025

25 mars 2025

Titre: Traduction de la parole vers la parole expressive La soutenance aura lieu le jeudi 27 mars à 13h15 dans l’amphithéâtre Blaise situé dans le batiment du CERI. Cette soutenance se déroulera en français. Abstract :Cette thèse explore la préservation de l’expressivité dans la traduction automatique parole vers parole (speech-to-speech translation — S2ST), sans recours au texte en tant que représentation intermédiaire. L’objectif est de développer un système capable de transférer non seulement le contenu linguistique, mais également les caractéristiques émotionnelles et expressives de l’énoncé source vers la langue cible.L’approche développée s’articule autour de deux composantes. Premièrement, l’utilisation d’unités discrètes de parole, extraites de modèles auto-supervisés, permettant de capturer efficacement le contenu phonétique. Deuxièmement, un encodeur multilingue d’émotions, ayant pour objectif d’extraire des caractéristiques expressives indépendantes de la langue. Ces représentations sont ensuite intégrées dans le processus de synthèse vocale afin de conditionner la génération de celle-ci. Jury :Anthony Larcher, PR à LIUM, Le Mans Université, RapporteurDamien Lolive, PR à IRISA, Université de Vannes, RapporteurLoïc Barrault, Docteur à Meta AI, ExaminateurFethi Bougares, Docteur à Elyadata, ExaminateurMarie Tahon, PR à LIUM, Le Mans Université, ExaminatriceMarcely Zanon-Boito, Docteur à NAVER LABS EUROPE, ExaminatriceYannick Estève, PR à LIA, Avignon Université, Directeur de thèseTitouan Plus d'infos

Séminaire SLG – Yanis Labrak – 27/03/2025

17 mars 2025

La prochaine réunion de l’équipe SLG aura lieu le jeudi 27 Mars prochain, en salle S4 de 12h00 à 13h00. Title: Text-Speech Language Models with Improved Cross-Modal Transfer by Aligning Abstraction LevelsAbstract: Text-Speech Language Models (TSLMs), language models trained to jointly process and generate text and speech, aim to enable cross-modal knowledge transfer to overcome the scaling limitations of unimodal speech LMs. The predominant approach to TSLM training expands the vocabulary of a pre-trained text LM by appending new embeddings and linear projections for speech, followed by fine-tuning on speech data. We hypothesize that this method limits cross-modal transfer by neglecting feature compositionality, preventing text-learned functions from being fully leveraged at appropriate abstraction levels. To address this, we propose augmenting vocabulary expansion with modules that better align abstraction levels between speech and text across the model’s layers. Representation analyses and improved multimodal performance suggest that our method enhances cross-modal transfer, even surpassing or rivaling state-of-the-art TSLMs trained using orders of magnitude more compute.  

Contrat doctoral @LIA @Agorantic 2025

31 janvier 2025

Une allocation doctorale 2025 pour le LIA a été attribuée à l’équipe SLG par la FR Agorantic . Le sujet proposé est disponible sur la plateforme adum.fr https://adum.fr/as/ed/proposition.pl?site=avignon : Les candidats et candidates intéressées doivent postuler sur la plateforme adum.fr. Mais, avant cela, il est fortement recommander de contacter les chercheurs et chercheuses qui proposent les sujets, afin d’en discuter avec eux et elles. Les auditions seront organisées par la FR Agorantic selon les modalités générales indiquées sur https://agorantic.univ-avignon.fr/en/thesis/. Elles auront lieu début juin, la date définitive sera communiqué aux candidats retenus par les encadrants.

Allocation doctorale LIA 2025

31 janvier 2025

L’allocation doctorale 2025 du LIA a été attribuée à l’équipe SLG. Plusieurs sujets vont été proposés, ils sont disponibles sur la plateforme adum.fr https://adum.fr/as/ed/proposition.pl?site=avignon : Les candidats et candidates intéressées doivent postuler sur la plateforme adum.fr. Mais, avant cela, il est fortement recommander de contacter les chercheurs et chercheuses qui proposent les sujets, afin d’en discuter avec eux et elles. Les auditions seront organisées par l’Ecole Doctorale 536 selon les modalités indiquées sur https://univ-avignon.fr/recherche/le-doctorat/je-souhaite-preparer-un-doctorat/. Elles auront lieu début juin, la date définitive sera communiqué aux candidats retenus par les encadrants.

Soutenance de thèse Thibault Bañeras-Roux – 17/01/2025

15 janvier 2025

Titre: Analyse et compréhension de l’évaluation des systèmes de reconnaissance automatique de la parole : vers des métriques intégrant la perception humaine Date: 17 janvier à 14h00Lieu: Amphithéâtre du bâtiment 34, LS2N, Campus Lombarderie, 2 chemin de laHoussinière 44000 Nantes. Cette soutenance se déroulera en français. Abstract : De nos jours, le taux d’erreur mot reste la métrique la plus utiliséepour évaluer les systèmes de reconnaissance automatique de la parole(RAP). Toutefois, cette métrique présente des limites en matière decorrélation avec la perception humaine et ne se concentre que sur lapréservation de l’orthographe. Dans cette thèse, nous proposons desmétriques alternatives qui peuvent évaluer l’orthographe, mais aussi lagrammaire, la sémantique ou la phonétique. Pour analyser la capacité de ces métriques à refléter la qualité destranscriptions du point de vue des utilisateurs, nous avons constitué unjeu de données nommé HATS, annoté par 143 sujets francophones. Chaqueannotateur a examiné 50 triplets, composés d’une transcription deréférence manuelle et de deux hypothèses issues de différents systèmesde RAP, afin de déterminer quelle hypothèse était, selon eux, la plusfidèle. En calculant le nombre de fois où une métrique est d’accord avec leschoix des annotateurs, on obtient une mesure de sa corrélation avec laperception humaine. Ce corpus permet ainsi Plus d'infos

Séminaire SLG – Ana Montalvo – 06/11/2024

4 novembre 2024

Titre : Exploring Short-Duration Spoken Language Recognition: Insights from CENATAV Date : 06/11/2024 11h00 Salle : S4 Résumé : This presentation will introduce the Advanced Technologies Application Center (CENATAV), outlining its core mission and research areas, with a focus on the work of its Voice Processing Group. We will discuss the challenges of conducting research with limited access to high-performance computing resources and large datasets, emphasizing our recent work on spoken language recognition in very short-duration audio signals. Langue : English

Soutenance de thèse de Timothée Dhaussy – 21/10/2024

18 octobre 2024

Date: lundi 21 octobre 2024 à 14h00  lieu: salle des thèses sur le campus Hannah Arendt. Le lien de visio-conférence est le suivant: https://bbb.univ-avignon.fr/rooms/vtj-xje-xex-gyw/join .  Le jury sera composé de : Dr Aurélie Clodic, LAAS-CNRS,  RapporteurePr Julien Pinquier, Université de Toulouse, IRIT, RapporteurPr Laurence Devillers, Sorbonne Université, LISN-CNRS, ExaminatricePr Olivier Alata, Université Jean Monnet, Laboratoire Hubert Curien, ExaminateurPr Fabrice Lefèvre, Avignon Université, LIA, Directeur de thèseDr Bassam Jabaian, Avignon Université, LIA, Co-encadrant Titre : L’interaction humain-robot multimodale proactive dans un cadre hospitalier Dans cette thèse, nous nous concentrons sur la création d’un système multimodal proactif pour le robot social Pepper, destiné à une salle d’attente d’hôpital. Pour ce faire, nous avons développé une architecture cognitive d’interaction humain-robot, fondée sur une boucle continue de perceptions, de représentation et de décision. Le flux de perceptions se divise en deux étapes : d’abord, la récupération des données des capteurs du robot, puis leur enrichissement grâce à des modules de raffinage. Un module de raffinage de diarisation du locuteur, basé sur une modélisation bayésienne de la fusion des perceptions audio et visuelles par coïncidence spatiale, a été intégré. Pour permettre une action proactive, nous avons conçu un modèle analysant la disponibilité des utilisateurs à une Plus d'infos

Soutenance de thèse de Lucas Druart – 24/10/2024

16 octobre 2024

Date:  Jeudi 24 octobre à 15h  Lieu: salle des thèses sur le campus Hannah Arendt.   Vous pouvez également y assister à distance si vous le souhaitez grâce au lien suivant : https://v-au.univ-avignon.fr/live/bbb-soutenance-these-l-druart-24-octobre-2024/.   Title : Towards Contextual and Structured Spoken Task-Oriented Dialogue Understanding Abstract : Accurately understanding users’ requests is key to provide smooth interactions with spoken Task-Oriented Dialogue (TOD) systems. Traditionally such systems adopt cascade approaches which combine an Automatic Speech Recognition (ASR) component with a Natural Language Understanding (NLU) one. Yet, those systems still have trouble to accurately map complex user’s request with their internal representation. Recent work highlights potential directions to improve those systems. On the one hand, end-to-end approaches have successfully enhanced Spoken Language Understanding (SLU) system’s performance. Indeed, they provide more robust and accurate predictions by leveraging joint optimization and paralinguistic information. On the other hand, textual datasets propose fine-grained semantic representations. Such representations seem more adequate to represent user’s complex requests. This thesis explores both directions towards contextual and structured spoken task-oriented dialogue understanding. We first conduct a preliminary study dedicated to getting the grips of SLU in the context of TOD. We designed a cascade approach to perform spoken Dialogue State Tracking (DST) on MultiWOZ. Our approach ranked Plus d'infos

Soutenance de thèse de Gaelle Laperrière – 09/09/2024

3 septembre 2024

Date : lundi 9 septembre 2024 Heure : 15h00 Lieu : l’amphithéâtre Ada Lovelace du CERI, campus Jean-Henri Fabre d’Avignon Université. Le jury sera composé de : Alexandre Allauzen, PR à Université Paris Dauphine-PSL, LAMSADE – Rapporteur Benoit Favre, PR à Aix-Marseille Université, LIS – Rapporteur Marco Dinarelli, CR au CNRS, LIG – Examinateur Nathalie Camelin, MCF à Le Mans Université, LIUM – Examinatrice Philippe Langlais, PR à Université de Montréal, DIRO, RALI – Examinateur Fabrice Lefèvre, PR à Avignon Université, LIA – Examinateur Yannick Estève, PR à Avignon Université, LIA – Directeur de thèse   Sahar Ghannay, MCF à Université Paris-Saclay, LISN, CNRS – Co-encadrante de thèse Bassam Jabaian, MCF à Avignon Université, LIA – Co-encadrant de thèse Titre : Compréhension de la parole dans un contexte multilingue Cette thèse s’inscrit dans le cadre de l’Apprentissage Profond appliqué au domaine de la Compréhension Automatique de la Parole. Son objectif principal consiste à tirer bénéfice de données existantes dans des langues bien dotées en annotation sémantique de la parole afin de développer des systèmes de compréhension performants dans des langues moins dotées. Ces dernières années ont connu des avancées considérables dans le domaine de la traduction automatique de la parole grâce à de nouvelles approches permettant de faire converger Plus d'infos

Projet ANR PANTAGRUEL

21 août 2024

Le projet Pantagruel (ANR 23-IAS1-0001) ambitionne de développer et évaluer des modèles linguistiques multimodaux (écrit, oral, pictogrammes) inclusifs pour le français. Il mobilise des chercheurs de diverses disciplines telles que l’informatique, le traitement du signal, la sociologie et la linguistique pour assurer des résultats fiables et variés. Plus d'infos

1 2 3 5