Soutenance de thèse – Manh Tuan NGUYEN – 25/03/2026

Date: mercredi 25 mars à 14h

Lieu: amphithéâtre Blaise du CERI. 

La présentation se déroulera en anglais. 

Le jury sera composé de: 

  • M. Nicolas AUDIBERT, MCF/HDR, LPP – Université Sorbonne Nouvelle (Rapporteur)
  • M. Benjamin LECOUTEUX, PR, LIG/GETALP – Université Grenoble Alpes (Rapporteur)
  • M. Julien PINQUIER, PR, IRIT – Université de Toulouse (Examinateur)
  • M. Yannick ESTÈVE, PR, LIA – Avignon Université (Examinateur)
  • Mme Virginie WOISARD, PH/PA, CHU de Toulouse – Université de Toulouse (Examinatrice)
  • Mme Corinne FREDOUILLE, PR, LIA – Avignon Université (Directrice de thèse)

Titre: Évaluation perceptive des troubles de la parole et de la voix et son intégration dans un système automatique d’aide à la décision.
Résumé: 
Les jugements perceptifs sont largement utilisés dans des domaines dépourvus de critères objectifs clairs ou de méthodes de mesure fiables, ce qui nécessite le recours à l’évaluation par des experts humains. Toutefois, ces jugements sont intrinsèquement subjectifs, ce qui entraîne souvent un manque de concordance et, par conséquent, une variabilité lorsque plusieurs experts évaluent le même matériau. Cette variabilité, appelée variabilité inter-juges, est généralement traitée par l’agrégation des scores ou par un vote majoritaire afin de produire une décision consensuelle. Bien qu’e!cace pour obtenir une décision finale, cette approche laisse largement inexplorées les causes sous-jacentes de la variabilité inter-juges.
Cette thèse vise à expliquer la variabilité inter-juges plutôt que de considérer les décisions consensuelles comme une référence absolue. Nous soutenons que cette variabilité peut résulter de différences systématiques entre les experts, notamment en termes de parcours professionnel, de formation, mais également de dimensions perceptives privilégiées lors de l’évaluation. En réduisant les jugements individuels à un score consensuel unique, les approches traditionnelles écartent implicitement des informations précieuses relatives au raisonnement et aux stratégies décisionnelles des experts. Comprendre et expliquer
cette variabilité est donc essentiel.
Pour répondre à cet objectif, nous proposons une approche computationnelle visant à modéliser et interpréter la variabilité inter-juges. En exploitant les capacités de reconnaissance de motifs des systèmes d’intelligence artificielle modernes, nous entraînons des modèles à partir de données perceptives issues d’experts individuels, dans le but de capturer les dimensions perceptives sur lesquelles chaque expert s’appuie. En appliquant des méthodes d’explicabilité à ces modèles spécifiques à chaque expert, nous cherchons à mettre en lumière, de manière indirecte, les processus décisionnels sous-jacents aux jugements humains.
L’évaluation de la parole pathologique est choisie comme banc d’essai expérimental pour éprouver cette approche. Dans ce cadre, nous développons des systèmes basés sur des modèles pré-entraînés de représentation de la parole (Wav2Vec 2.0) et entraînés à reproduire les décisions d’experts individuels. Nous appliquons ensuite des analyses interprétables afin de construire des profils spécifiques à chaque expert. Ces profils révèlent des diérences systématiques dans la manière dont les experts pondèrent des dimensions de la parole telles que l’articulation, la qualité vocale et la prosodie. Dans l’ensemble, ce travail démontre que des méthodes computationnelles permettent d’identifier et de quantifier les dimensions perceptives sous-jacentes aux jugements d’experts, transformant la variabilité inter-juges d’un simple bruit de mesure en une information pertinente sur les stratégies d’évaluation. La méthodologie proposée présente également un fort potentiel de transfert vers d’autres domaines impliquant des évaluations subjectives de phénomènes multidimensionnels. En outre, elle ouvre des perspectives pour l’intégration de cette connaissance dans un système automatique d’aide à la décision.