Date : 2 mai à 14h00.
Lieu : Avignon, Centre d’Enseignement et de Recherche en Informatique (Auditorium Ada Lovelace).
Membres du jury :
- PR. HENNEBERT Jean, HEIA-FR, HES-SO, Université de Fribourg (Rapporteur)
- PR. LOLIVE Damien, IRISA, ENSSAT, Université de Rennes (Rapporteur)
- PR. TRANCOSO Isabel, INESC-ID, IST, Université de Lisbonne (Examinatrice)
- PH. WOISARD Virginie, Praticien Hospitalier, Professeur Associé, CHU de Toulouse, Université de Toulouse (Examinatrice)
- PR. LARCHER Anthony, LIUM, Le Mans Université (Examinateur)
- PR. BONASTRE Jean-François, LIA, Université d’Avignon, INRIA (Examinateur)
- PR. FREDOUILLE Corinne, LIA, Université d’Avignon (Directrice de thèse)
Titre : Évaluation de l’intelligibilité de la parole à l’aide de l’apprentissage profond : vers une interprétation améliorée en phonétique clinique.
Résumé : L’intelligibilité de la parole est un élément essentiel de la communication efficace. Elle fait référence au degré auquel le message voulu par un locuteur peut être compris par un auditeur. Cette capacité peut être entravée en raison de troubles de la parole, ce qui entraîne une réduction de la qualité de vie des individus. Dans le cas du cancer de la tête et du cou (HNC), la parole peut être affectée en raison de la présence de tumeurs dans le système de production de la parole, mais la principale cause d’altération de la parole est généralement le traitement des tumeurs, notamment la chirurgie, la radiothérapie, la chimiothérapie, ou une combinaison de ces traitements. Dans de tels cas, l’évaluation de la qualité de la parole est cruciale pour évaluer le déficit de communication des patients et élaborer des plans de traitement ciblés. En pratique clinique, les mesures perceptuelles sont considérées comme la référence pour évaluer les troubles de la parole. Bien que largement utilisées, ces mesures souffrent de plusieurs limitations, la plus importante étant leur subjectivité. Par conséquent, l’évaluation automatique des troubles de la parole s’est imposée comme une alternative prometteuse aux mesures perceptuelles depuis les années 90.
Dans cette thèse, nous explorons le potentiel des techniques d’apprentissage profond (DL) pour évaluer les troubles de la parole tout en abordant les lacunes des outils existants. Dans ce contexte clinique sensible où les enjeux sont élevés et la confiance primordiale, nous considérons l’explicabilité et l’interprétabilité des outils DL comme des exigences plutôt que des fonctionnalités optionnelles. Par conséquent, nous proposons une méthodologie en trois étapes basée sur l’apprentissage profond et dédiée à une évaluation interprétable de l’intelligibilité de la parole dans le contexte des troubles de la parole.
Dans la première étape, nous abordons un problème majeur des outils automatiques actuels dédiés à l’évaluation de la parole altérée, à savoir l’aperçu limité de la relation entre les troubles de la parole et l’évaluation résultante. À cette fin, nous mettons en œuvre un modèle basé sur DL, formé sur une parole saine et dédié à une tâche intermédiaire, à savoir la classification phonème française. Ce choix méthodologique sert deux objectifs. Le premier est de tirer parti des connaissances au niveau du phonème obtenues à partir de la tâche de classification pour répondre au problème majeur mentionné ci-dessus. Cela permettra de fournir des informations pertinentes sur le score d’évaluation final au niveau du phonème dans une étape ultérieure. Le second est lié à l’utilisation d’une parole saine (normale). En effet, cela permet de surmonter la quantité très limitée de données pathologiques disponibles tout en répondant aux exigences élevées en matière de quantité de données de l’apprentissage profond.
Dans la deuxième étape, l’objectif principal est de garantir l’interprétabilité de la solution développée, assurant ainsi son acceptation dans le contexte de la pratique clinique. Ainsi, nous examinons la capacité du classificateur de phonèmes implémenté à fournir des connaissances pertinentes liées aux caractéristiques de la pathologie de la parole. Nous proposons ensuite Neuro-based Concept Detector (NCD), notre cadre analytique général pour l’explicabilité des représentations profondes d’un modèle basé sur DL. Ce cadre met en évidence, au sein du modèle de classification résultant de la première étape, une représentation des caractéristiques acoustiques et articulatoires de la parole saine en termes de traits phonétiques, facilement interprétables en cas d’altérations liées aux troubles de la parole. Ainsi, ce choix méthodologique nous permet d’atteindre deux objectifs en une seule démarche. En effet, non seulement nous prenons des mesures actives pour atténuer l’impact de la nature boîte noire des modèles DL, mais nous assurons également un niveau de précision supplémentaire que les cliniciens peuvent utiliser pour relier et interpréter l’évaluation finale de l’intelligibilité.
Enfin, la troisième étape est consacrée à la prédiction d’un score final évaluant l’intelligibilité de la parole d’une personne. Cette étape repose sur les différents niveaux de représentation fournis par les deux étapes précédentes, permettant de relier le score d’intelligibilité prédit au degré d’altération de la parole aux niveaux du phonème et des traits phonétiques.
La méthodologie globale proposée offre ainsi une interprétation du score d’évaluation de la parole dans le domaine de la phonétique pour les cliniciens. Les résultats prometteurs obtenus sur une population de patients atteints de cancer de la tête et du cou suggèrent le potentiel d’une telle méthodologie pour surveiller l’évolution de la thérapie ou développer des protocoles de rééducation adaptés qui amélioreraient la capacité du patient à communiquer efficacement, conduisant par conséquent à une meilleure qualité de vie. La validation de cette méthodologie en pratique clinique est l’une des nombreuses perspectives de cette thèse.