SLG – Laboratoire Informatique d’Avignon

Séminaire SLG – Matthew Wiesner – 26/03/2026

26 mars 2026

Salle 5 – 12h00 Titre: Modélisation Extensible de Langues et d’Accents Résumé: Les modèles d’identification de langue (LID) à l’état de l’art fonctionnent de manière fiable pour une centaine de langues. Cependant, derrière le concept de langue se cache de nombreuses variations émanant d’accents et de dialectes divers. Il est tout simplement impossible d’annoter les données en prenant compte de toutes ces variations. De plus, la parole accentuée engendre un comportement inattendu des modèles de LID et très peu de données annotées existent pour pallier le problème. Ce manque d’annotation empêche aussi l’augmentation de donnée via la synthèse de parole accentuée. Ce séminaire aborde ces problématiques et propose une ébauche de solution fondée sur une collecte de données à grande échelle à partir de diffusions radiophoniques. Cela permet d’associer aux données des annotations indirectes sous forme de géolocalisations. Le séminaire explore ensuite le lien entre la robustesse aux accents et la capacité à modéliser des séquences. Enfin, nous montrons comment ces modèles permettent d’améliorer les modèles de LID, en particulier sur la parole accentuée, et de faciliter l’extraction automatique de données accentuées pour entrainer des systèmes de synthèse vocale.Bio: Matthew Wiesner est un chercheur à Johns Hopkins University et chercheur at Plus d'infos

Soutenance de thèse – Manh Tuan NGUYEN – 25/03/2026

19 mars 2026

Date: mercredi 25 mars à 14h Lieu: amphithéâtre Blaise du CERI. La présentation se déroulera en anglais. Le jury sera composé de: Titre: Évaluation perceptive des troubles de la parole et de la voix et son intégration dans un système automatique d’aide à la décision.Résumé: Les jugements perceptifs sont largement utilisés dans des domaines dépourvus de critères objectifs clairs ou de méthodes de mesure fiables, ce qui nécessite le recours à l’évaluation par des experts humains. Toutefois, ces jugements sont intrinsèquement subjectifs, ce qui entraîne souvent un manque de concordance et, par conséquent, une variabilité lorsque plusieurs experts évaluent le même matériau. Cette variabilité, appelée variabilité inter-juges, est généralement traitée par l’agrégation des scores ou par un vote majoritaire afin de produire une décision consensuelle. Bien qu’e!cace pour obtenir une décision finale, cette approche laisse largement inexplorées les causes sous-jacentes de la variabilité inter-juges.Cette thèse vise à expliquer la variabilité inter-juges plutôt que de considérer les décisions consensuelles comme une référence absolue. Nous soutenons que cette variabilité peut résulter de différences systématiques entre les experts, notamment en termes de parcours professionnel, de formation, mais également de dimensions perceptives privilégiées lors de l’évaluation. En réduisant les jugements individuels à un score consensuel unique, les approches traditionnelles Plus d'infos

Séminaire SLG – Tom Labiausse – 16/03/2026

12 mars 2026

16 mars à 13h Tom présentera ses derniers travaux sur Hibiki-Zero, un modèle de traduction simultanée de la parole vers la parole. Les améliorations par rapport à ses travaux précédents, Hibiki, sont vraiment très intéressantes et s’appuient sur une technique d’apprentissage par renforcement (GRPO). Utilisée comme le propose Tom, cette technique évite d’avoir à préparer des données d’apprentissage parole-parole alignées au niveau mot comme dans la première mouture d’Hibiki. Vous êtes invités à assister à cette présentation qui pourrait vous donner des idées d’application à certains de vos travaux. Pour plus d’information, vous pouvez consulter cette page web très instructive et accessible (exemples, code, article) :

Soutenance de thèse – Ahmed Njifenjou – 19/12/2025

18 décembre 2025

Date: Friday, December 19, at 2 p.m. Lieu: Ada amphitheater at CERI. The defense will be presented in English. Title: Open-Domain Conversational Agents with Transformer-Based Language Models: Toward Multilingualism and Personality The jury will be composed of: – Lina M. Rojas-Barahona , HDR, Orange Innovation, Reviewer – Didier Schwab, Professor, LIG/GETALP, Université de Grenoble, Reviewer – Sophie Rosset, Professor, LISN, Université Paris Saclay, Examiner – David Traum, Professor, ICT, University of Southern California, Examiner – Bassam Jabaian, Associate Professor, LIA, Université d’Avignon, Thesis Co-supervisor – Fabrice Lefèvre, Professor, LIA, Université d’Avignon, Thesis Director Abstract: Open-Domain Dialogue (ODD) systems are conversational agents designed for natural and open-ended human interaction. The proliferation of Conversational AI tools like ChatGPT has recently reshaped user expectations; beyond grammatical correctness, users now demand agents that demonstrate contextual understanding, cultural awareness, distinct personality, factual consistency, and other human-like conversational abilities. Despite the impressive progress, ODD systems development has long faced key limitations including strong linguistic bias towards English and Chinese, and the Open-Domain Paradox (ODP) (Skantze and Doğruöz, 2023), which constrains genuine conversational diversity and openness. This dissertation tackles these challenges by exploring multilingual and personality-centric strategies for building controllable and culturally adaptive ODD systems using Transformer-based Language Models. The research progresses along the following complementary axes. First, we investigate Plus d'infos

Soutenance de thèse – Nathan Griot – 12/12/2025

8 décembre 2025

Date: vendredi 12 Decembre à 15h00 Lieur : amphithéâtre Ada au CERI. La soutenance sera présentée en Anglais. Jury: M. Driss MATROUF Avignon Université Directeur de thèse Mme Irina ILLINA Lorraine University Rapporteure M. Massimiliano TODISCO EURECOM Rapporteur M. Jean-francois BONASTRE Université d’avignon Co-directeur de thèse M. Raphael BLOUET Ardelan Directeur de thèse M. Anthony LARCHER Le Mans Université Examinateur M. dehak REDA LRE – EPITA Examinateur Mme Adda-decker MARTINE CNRS Examinatrice Titre: Vérification du locuteur dépendante du texte robuste par alignement temporel, apprentissage multitâche, adversarial et auto-supervisé Résumé: La vérification du locuteur constitue une forme naturelle et sécurisée d’authentification biométrique. Parmi ses variantes, la vérification du locuteur dépendante du texte (TD-SV) offre une protection renforcée en validant à la fois l’identité du locuteur et le contenu lexical prononcé, combinant ainsi les avantages d’une caractéristique biométrique et d’un facteur de connaissance. Malgré ces atouts, la TD-SV a suscité moins d’intérêt que son équivalent indépendant du texte. Cette thèse s’attaque à plusieurs défis clés : le manque de données adaptées, l’enchevêtrement entre les informations liées à la voix et au texte, et la nécessité d’une meilleure généralisation à travers différentes langues et conditions acoustiques. Ces problématiques sont abordées au travers de trois contributions principales. Premièrement, nous explorons l’utilisation de réseaux Plus d'infos

Soutenance de thèse – Nicolas André – 11/12/2025

4 décembre 2025

Titre : « Représentations et fonctions d’activation réelles et hyper-complexes dans les réseaux de neurones pour le traitement du signal ». Date: jeudi 11 décembre 2025 à 8h Lieu : salle des thèses de l’Université d’Avignon, campus Hannah Arendt. Résumé: Ce manuscrit de thèse porte sur des problématiques d’intelligence artificielle (IA) et plus spécifiquement, sur les réseaux de neurones artificiels. Ces réseaux de neurones sont des modèles mathématiques centrales dans les processus modernes d’IA, se complexifiant à mesure que les tâches pour lesquelles ces réseaux sont utilisés se diversifient et se démocratisent. L’usage moderne de ces réseaux de neurones, appliqués à des tâches de langage, a donné naissance aux Large Modèles de Langage (LLM). Ces modèles peuvent comporter des milliards de paramètres, posant ainsi des questions de sobriété et d’économie de moyens. La première partie de ce manuscrit consiste en un état de l’art concernant les architectures de réseaux de neurones réels (réels ici caractérise le domaine mathématique dans lequel on opère, l’ensemble des nombres réels), les réseaux de neurones de quaternions et les fonctions d’activation. Les différentes architectures neuronales et notions mathématiques employées par la suite y sont décrites. La seconde partie présente les différentes solutions aux problématiques soulevées lors de Plus d'infos

Offre de stage: Restauration de la parole pathologique à base d’apprentissage profond

3 décembre 2025

Contact : Corinne Fredouille (corinne.fredouille@univ-avignon.fr) Durée : de 3 à 6 mois Titre : Restauration de la parole pathologique à base d’apprentissage profond Descriptif : Bien que les modes de communication aient largement évolué depuis une vingtaine d’années avec l’ère du numérique, pouvant se substituer dans de nombreuses situations à la parole – messagerie électronique, réseaux sociaux, blogs, messageries instantanées… la parole reste indispensable pour une bonne intégration dans notre société. La communication orale permet de partager avec les autres, que ce soit dans le monde professionnel ou la vie de tous les jours : partager pour exprimer  une demande, pour informer, pour conseiller, pour débattre, pour convaincre, pour enseigner, pour  divertir, pour exprimer un sentiment, … pour vivre en société.  La démocratisation de la téléphonie mobile, des réseaux de communication, des logiciels de visioconférences et de l’accès à Internet fait que nous pouvons communiquer oralement partout  avec tous nos contacts professionnels ou personnels, quelle que soit leur localisation géographique.  Aussi, au vu de l’importance de la communication orale, perdre la parole ou le langage peut être  ressenti comme une perte d’humanité.  Les troubles de la communication sont définis par The American Speech and Hearing Association  de la manière suivante : « An impairment in the ability to Plus d'infos

Soutenance de thèse – Yannis Labrak – 15/09/2025

11 septembre 2025

Titre: Les Modèles de Langage au Carrefour du Texte et de la Parole pour les Applications de Santé La soutenance est publique et se tiendra le lundi 15 septembre 2025 à 14h00, à l’Université d’Avignon – Amphithéâtre Blaise (CERI, 339 Chem. des Meinajaries, 84000 Avignon). Elle se déroulera en anglais. Une participation à distance est également possible en utilisant le lien ZOOM suivant:https://us05web.zoom.us/j/86181938873?pwd=zPYei9eeLAIIG6eFT0hL96K6ameR3H.1 (passcode is « 1212121212 ») Jury: Co-directeurs de thèse: Mickael Rouvier, Maître de conférences HDR, LIA – Université d’AvignonRichard Dufour, Professeur, LS2N – Université de Nantes Membres du Jury: Asma Ben Abacha, Chercheuse senior – Microsoft Health AIElena V. Epure, Chercheuse senior – Deezer ResearchLaurent Besacier, Chercheur principal – Naver Labs EuropePierre Zweigenbaum, Directeur de recherche – LISN, CNRSPhilippe Langlais, Professeur – DIRO, Université de Montréal Membre invité: Julien Nave, Directeur R&D – Zenidoc Résumé: Le domaine médical présente des défis uniques en matière de traitement du langage à travers sa terminologie spécialisée, ses réglementations strictes sur les données et ses besoins critiques en information. Avec la démocratisation des modèles de langage pour assister les professionnels de santé dans leur quotidien, leur adaptation aux domaines d’application est devenue nécessaire pour faciliter leur accessibilité à un public plus large, à différentes langues et Plus d'infos

Séminaire SLG – Ismail Mohsine – 12/06/2025

27 mai 2025

Le 12 juin à 12h, nous aurons le plaisir d’accueillir une présentation du Dr Ismail Mohsine, spécialiste en hydroinformatique, actuellement en séjour au LIA. La présentation se tiendra en salle S6.Veuillez trouver ci-dessous le résumé du séminaire ainsi qu’une courte biographie du Dr Ismail Mohsine. ==================================== Bio Ismail Mohsine est docteur en sciences de la Terre, spécialiste en hydroinformatique. Formé au laboratoire LG2E (Faculté des Sciences de Rabat), en partenariat avec l’Université d’Avignon et l’IRD, il mène des recherches intégrant géosciences, intelligence artificielle et modélisation environnementale appliquées au domaine des ressources en eau. Résumé Dans un contexte de changement climatique et de pression croissante sur les ressources en eau, la prévision des niveaux piézométriques devient un enjeu majeur pour la gestion durable des aquifères. Cette présentation propose une approche de prédiction basée sur des réseaux de neurones récurrents (type LSTM), appliquée à des séries temporelles multivariées combinant données in situ, satellitaires (NDVI, température, précipitations, évapotranspiration …). Entraînés à l’échelle des unités hydrogéologiques, ces modèles tirent parti de la dynamique temporelle et des variations géographiques des données, tout en intégrant des mécanismes explicites de gestion des valeurs manquantes. Cette méthodologie hybride permet de reconstruire les lacunes de mesure et d’anticiper l’évolution des nappes dans des contextes complexes, contribuant à une Plus d'infos

Soutenance de thèse – Jarod Duret – 27/03/2025

25 mars 2025

Titre: Traduction de la parole vers la parole expressive La soutenance aura lieu le jeudi 27 mars à 13h15 dans l’amphithéâtre Blaise situé dans le batiment du CERI. Cette soutenance se déroulera en français. Abstract :Cette thèse explore la préservation de l’expressivité dans la traduction automatique parole vers parole (speech-to-speech translation — S2ST), sans recours au texte en tant que représentation intermédiaire. L’objectif est de développer un système capable de transférer non seulement le contenu linguistique, mais également les caractéristiques émotionnelles et expressives de l’énoncé source vers la langue cible.L’approche développée s’articule autour de deux composantes. Premièrement, l’utilisation d’unités discrètes de parole, extraites de modèles auto-supervisés, permettant de capturer efficacement le contenu phonétique. Deuxièmement, un encodeur multilingue d’émotions, ayant pour objectif d’extraire des caractéristiques expressives indépendantes de la langue. Ces représentations sont ensuite intégrées dans le processus de synthèse vocale afin de conditionner la génération de celle-ci. Jury :Anthony Larcher, PR à LIUM, Le Mans Université, RapporteurDamien Lolive, PR à IRISA, Université de Vannes, RapporteurLoïc Barrault, Docteur à Meta AI, ExaminateurFethi Bougares, Docteur à Elyadata, ExaminateurMarie Tahon, PR à LIUM, Le Mans Université, ExaminatriceMarcely Zanon-Boito, Docteur à NAVER LABS EUROPE, ExaminatriceYannick Estève, PR à LIA, Avignon Université, Directeur de thèseTitouan Plus d'infos

1 2 3 … 6 »