Offre de Stage: Restauration de la parole pathologique à base d’apprentissage profond

18 novembre 2024

Contact : Corinne Fredouille
(corinne.fredouille@univ-avignon.fr)
Durée : 6 mois

Titre : Restauration de la parole pathologique à base d’apprentissage profond

Descriptif :
Bien que les modes de communication aient largement évolué depuis une vingtaine d’années avec
l’ère du numérique, pouvant se substituer dans de nombreuses situations à la parole – messagerie
électronique, réseaux sociaux, blogs, messageries instantanées… la parole reste indispensable pour
une bonne intégration dans notre société. La communication orale permet de partager avec les
autres, que ce soit dans le monde professionnel ou la vie de tous les jours : partager pour exprimer
une demande, pour informer, pour conseiller, pour débattre, pour convaincre, pour enseigner, pour
divertir, pour exprimer un sentiment, … pour vivre en société. Plus d'infos

Offre de Stage: Extraction d’informations sémantiques dans des transcriptions de résumés oraux d’histoires par des enfants

8 novembre 2024

Informations générales

Durée : 6 mois

Début : à partir de janvier 2025, au plus tard avril 2025

Lieu : Université d’Avignon – LIA – Campus

Gratification : selon la grille réglementaire

Perspectives : Programme de doctorat de 3 ans

Contexte : Ce stage s’inscrit dans le cadre du projet ANR Chica-AI (2024-2028), qui vise à concevoir un environnement informatique capable d’analyser automatiquement les résumés oraux d’enfants pour évaluer leur compréhension d’un texte à la suite d’une tâche de lecture. Plus d'infos

Séminaire SLG – Ana Montalvo – 06/11/2024

4 novembre 2024

Titre : Exploring Short-Duration Spoken Language Recognition: Insights from CENATAV Date : 06/11/2024 11h00 Salle : S4 Résumé : This presentation will introduce the Advanced Technologies Application Center (CENATAV), outlining its core mission and research areas, with a focus on the work of its Voice Processing Group. We will discuss the challenges of conducting research with limited access to high-performance computing resources and large datasets, emphasizing our recent work on spoken language recognition in very short-duration audio signals. Langue : English

Soutenance de thèse de Timothée Dhaussy – 21/10/2024

18 octobre 2024

Date: lundi 21 octobre 2024 à 14h00  lieu: salle des thèses sur le campus Hannah Arendt. Le lien de visio-conférence est le suivant: https://bbb.univ-avignon.fr/rooms/vtj-xje-xex-gyw/join .  Le jury sera composé de : Dr Aurélie Clodic, LAAS-CNRS,  RapporteurePr Julien Pinquier, Université de Toulouse, IRIT, RapporteurPr Laurence Devillers, Sorbonne Université, LISN-CNRS, ExaminatricePr Olivier Alata, Université Jean Monnet, Laboratoire Hubert Curien, ExaminateurPr Fabrice Lefèvre, Avignon Université, LIA, Directeur de thèseDr Bassam Jabaian, Avignon Université, LIA, Co-encadrant Titre : L’interaction humain-robot multimodale proactive dans un cadre hospitalier Dans cette thèse, nous nous concentrons sur la création d’un système multimodal proactif pour le robot social Pepper, destiné à une salle d’attente d’hôpital. Pour ce faire, nous avons développé une architecture cognitive d’interaction humain-robot, fondée sur une boucle continue de perceptions, de représentation et de décision. Le flux de perceptions se divise en deux étapes : d’abord, la récupération des données des capteurs du robot, puis leur enrichissement grâce à des modules de raffinage. Un module de raffinage de diarisation du locuteur, basé sur une modélisation bayésienne de la fusion des perceptions audio et visuelles par coïncidence spatiale, a été intégré. Pour permettre une action proactive, nous avons conçu un modèle analysant la disponibilité des utilisateurs à une Plus d'infos

Soutenance de thèse de Lucas Druart – 24/10/2024

16 octobre 2024

Date:  Jeudi 24 octobre à 15h  Lieu: salle des thèses sur le campus Hannah Arendt.   Vous pouvez également y assister à distance si vous le souhaitez grâce au lien suivant : https://v-au.univ-avignon.fr/live/bbb-soutenance-these-l-druart-24-octobre-2024/.   Title : Towards Contextual and Structured Spoken Task-Oriented Dialogue Understanding Abstract : Accurately understanding users’ requests is key to provide smooth interactions with spoken Task-Oriented Dialogue (TOD) systems. Traditionally such systems adopt cascade approaches which combine an Automatic Speech Recognition (ASR) component with a Natural Language Understanding (NLU) one. Yet, those systems still have trouble to accurately map complex user’s request with their internal representation. Recent work highlights potential directions to improve those systems. On the one hand, end-to-end approaches have successfully enhanced Spoken Language Understanding (SLU) system’s performance. Indeed, they provide more robust and accurate predictions by leveraging joint optimization and paralinguistic information. On the other hand, textual datasets propose fine-grained semantic representations. Such representations seem more adequate to represent user’s complex requests. This thesis explores both directions towards contextual and structured spoken task-oriented dialogue understanding. We first conduct a preliminary study dedicated to getting the grips of SLU in the context of TOD. We designed a cascade approach to perform spoken Dialogue State Tracking (DST) on MultiWOZ. Our approach ranked Plus d'infos

Soutenance de thèse de Gaelle Laperrière – 09/09/2024

3 septembre 2024

Date : lundi 9 septembre 2024 Heure : 15h00 Lieu : l’amphithéâtre Ada Lovelace du CERI, campus Jean-Henri Fabre d’Avignon Université. Le jury sera composé de : Alexandre Allauzen, PR à Université Paris Dauphine-PSL, LAMSADE – Rapporteur Benoit Favre, PR à Aix-Marseille Université, LIS – Rapporteur Marco Dinarelli, CR au CNRS, LIG – Examinateur Nathalie Camelin, MCF à Le Mans Université, LIUM – Examinatrice Philippe Langlais, PR à Université de Montréal, DIRO, RALI – Examinateur Fabrice Lefèvre, PR à Avignon Université, LIA – Examinateur Yannick Estève, PR à Avignon Université, LIA – Directeur de thèse   Sahar Ghannay, MCF à Université Paris-Saclay, LISN, CNRS – Co-encadrante de thèse Bassam Jabaian, MCF à Avignon Université, LIA – Co-encadrant de thèse Titre : Compréhension de la parole dans un contexte multilingue Cette thèse s’inscrit dans le cadre de l’Apprentissage Profond appliqué au domaine de la Compréhension Automatique de la Parole. Son objectif principal consiste à tirer bénéfice de données existantes dans des langues bien dotées en annotation sémantique de la parole afin de développer des systèmes de compréhension performants dans des langues moins dotées. Ces dernières années ont connu des avancées considérables dans le domaine de la traduction automatique de la parole grâce à de nouvelles approches permettant de faire converger Plus d'infos

Projet ANR PANTAGRUEL

21 août 2024

Le projet Pantagruel (ANR 23-IAS1-0001) ambitionne de développer et évaluer des modèles linguistiques multimodaux (écrit, oral, pictogrammes) inclusifs pour le français. Il mobilise des chercheurs de diverses disciplines telles que l’informatique, le traitement du signal, la sociologie et la linguistique pour assurer des résultats fiables et variés. Plus d'infos

Projet ANR MALADES

4 juin 2024

As part of the MALADES project, we presented innovative approaches for the integration of LLM in health centers. The aim is to equip these centers with NLP tools derived from LLMs and adapted for the biomedical field while maintaining sovereignty of the models and complete control of their health data. Plus d'infos

Séminaire SLG – Tanja Schultz – 25/04/2024

22 avril 2024

On Thursday 25 April at 11am, we will host a talk from Prof. Tanja Schultz on « Neural Signal Interpretation for Spoken Communication ».   The room will be defined later.   Please find below a short abstract and bio from Prof. Tanja Schultz.   Abstract: This talk presents advancements in decoding neural signals, providing further insights into the intricacies of spoken communication. Delving into both speech production and speech perception, we discuss low latency processing of neural signals from surface EEG, stereotactic EEG, and intracranial EEG using machine learning methods. Practical implications and human-centered applications are considered, including silent speech interfaces, neuro-speech prostheses, and the detection of auditory attention and distraction in communication. This presentation aims to spark curiosity about the evolving landscape of neural signal interpretation and its impact on the future of spoken communication. Bio: Tanja Schultz received the diploma and doctoral degrees in Informatics from University of Karlsruhe and a Master degree in Mathematics and Sport Sciences from Heidelberg University, both in  Germany. Since 2015 she is Professor for Cognitive Systems of the Faculty of Mathematics & Computer Science at the University of Bremen, Germany. Prior to Bremen she spent 7 years as Professor for Cognitive Systems at KIT (2007-2015) and over Plus d'infos

Soutenance de thèse d’Imen Ben-Amor – 25/04/2024

15 avril 2024

Lieu: Centre d’Enseignement et de Recherche en Informatique (CERI), Amphi ADA – 339 Chemin des Meinajaries, CERI, 84000 Avignon. You can also attend the defense via video conference, using this link . You can fin the slides here. The jury members are the following: Pr. Tomi KINNUNEN, University of Eastern Finland – RapporteurPr. Alessandro VINCIARELLI, University of Glasgow – RapporteurPr. Tanja SCHULTZ, University Bremen- ExaminatricePr. Didier MEUWLY, Netherlands Forensic Institute, University of Twente- ExaminateurPr. Corinne FREDOUILLE, LIA, Université d’Avignon- ExaminatricePr. JEAN-FRANCOIS BONASTRE, Inria, LIA, Université d’Avignon – Directeur de thèse TITLE: Deep modeling based on voice attributes for explainable speaker recognition. Application in the forensic domain. Abstract:Automatic speaker recognition (ASpR) has been integrated into critical applications, ranging from customised assistant services to security systems and forensic investigations. It aims to automatically determine whether two voice samples originate from the same speaker. These systems primarily rely on complex deep neural networks (DNN) and present their results by a single value. Despite the high performance demonstrated by DNN-based ASpR systems, they struggle to provide transparent insights into the nature of speech representations, its encoding, and its use in decision-making process. This lack of transparency presents significant challenges in addressing ethical and legal Plus d'infos

1 2 3 4