Titre: Les Modèles de Langage au Carrefour du Texte et de la Parole pour les Applications de Santé
La soutenance est publique et se tiendra le lundi 15 septembre 2025 à 14h00, à l’Université d’Avignon – Amphithéâtre Blaise (CERI, 339 Chem. des Meinajaries, 84000 Avignon). Elle se déroulera en anglais. Une participation à distance est également possible en utilisant le lien ZOOM suivant:https://us05web.zoom.us/j/86181938873?pwd=zPYei9eeLAIIG6eFT0hL96K6ameR3H.1 (passcode is « 1212121212 »)
Jury:
Co-directeurs de thèse:
Mickael Rouvier, Maître de conférences HDR, LIA – Université d’Avignon
Richard Dufour, Professeur, LS2N – Université de Nantes
Membres du Jury:
Asma Ben Abacha, Chercheuse senior – Microsoft Health AI
Elena V. Epure, Chercheuse senior – Deezer Research
Laurent Besacier, Chercheur principal – Naver Labs Europe
Pierre Zweigenbaum, Directeur de recherche – LISN, CNRS
Philippe Langlais, Professeur – DIRO, Université de Montréal
Membre invité:
Julien Nave, Directeur R&D – Zenidoc
Résumé:
Le domaine médical présente des défis uniques en matière de traitement du langage à travers sa terminologie spécialisée, ses réglementations strictes sur les données et ses besoins critiques en information. Avec la démocratisation des modèles de langage pour assister les professionnels de santé dans leur quotidien, leur adaptation aux domaines d’application est devenue nécessaire pour faciliter leur accessibilité à un public plus large, à différentes langues et domaines, tout en réduisant le coût computationnel de leur utilisation. D’autre part, les approches traditionnelles du traitement de la parole médicale reposent sur des systèmes en cascade qui convertissent la parole en texte, appliquent un traitement du language naturel (TAL), et parfois régénèrent la parole. Bien que pratiques, ces systèmes perdent souvent des caractéristiques paralinguistiques essentielles à la communication clinique et souffrent de la propagation d’erreurs entre les étapes de traitement. Les récentes avancées dans la quantification des représentations vocales auto-supervisées ont créé de nouvelles possibilités d’intégration de la représentation vocale dans d’autres systèmes sans conversion intermédiaire en texte, préservant potentiellement plus de nuances communicatives. Dans cette thèse, j’examine entre autre comment les capacités vocales peuvent être intégrées aux modèles de langage pré-entraînés basés sur le texte et possédant des connaissances liées aux domaines de la santé, en exploitant leurs connaissances médicales acquises tout en permettant un traitement direct de la parole, sans étapes intermédiaires. l’analyse des capacitées d’alignement entre les représentations vocales et textuelles à différents niveaux d’abstraction ont révélé des méthodes plus optimales pour un transfert efficace de connaissances intermodales et savorisant ainsi l’apprentissage contraint par une quantité de données d’entraînement limitées, une considération cruciale étant donné les contraintes de données dans le domaine de la santé.