Titre: Analyse et compréhension de l’évaluation des systèmes de reconnaissance automatique de la parole : vers des métriques intégrant la perception humaine
Date: 17 janvier à 14h00
Lieu: Amphithéâtre du bâtiment 34, LS2N, Campus Lombarderie, 2 chemin de la
Houssinière 44000 Nantes.
Cette soutenance se déroulera en français.
Abstract :
De nos jours, le taux d’erreur mot reste la métrique la plus utilisée
pour évaluer les systèmes de reconnaissance automatique de la parole
(RAP). Toutefois, cette métrique présente des limites en matière de
corrélation avec la perception humaine et ne se concentre que sur la
préservation de l’orthographe. Dans cette thèse, nous proposons des
métriques alternatives qui peuvent évaluer l’orthographe, mais aussi la
grammaire, la sémantique ou la phonétique.
Pour analyser la capacité de ces métriques à refléter la qualité des
transcriptions du point de vue des utilisateurs, nous avons constitué un
jeu de données nommé HATS, annoté par 143 sujets francophones. Chaque
annotateur a examiné 50 triplets, composés d’une transcription de
référence manuelle et de deux hypothèses issues de différents systèmes
de RAP, afin de déterminer quelle hypothèse était, selon eux, la plus
fidèle.
En calculant le nombre de fois où une métrique est d’accord avec les
choix des annotateurs, on obtient une mesure de sa corrélation avec la
perception humaine. Ce corpus permet ainsi de hiérarchiser les
différentes métriques selon le jugement d’un lecteur humain. Nos
résultats montrent que SemDist, une métrique basée sur les
représentations sémantiques de BERT pour comparer deux phrases, s’avère
la plus pertinente pour évaluer les transcriptions du point de vue
perceptif. À l’inverse, le taux d’erreur mot figure parmi les moins
performants, ce qui interroge sur son utilisation systématique comme
unique métrique, alors que d’autres alternatives prometteuses sont
largement négligées.
Nous avons également mené une étude sur l’impact de plusieurs
hyperparamètres des systèmes de RAP, tels que le réordonnancement des
hypothèses avec des modèles de langage, la tokenisation et l’utilisation
de modules SSL. En plus de l’analyse qualitative de ces paramètres, nos
recherches révèlent que chaque métrique évalue des aspects différents
des systèmes et que les métriques ne convergent pas toujours dans leur
classement des systèmes. Cette disparité, combinée aux limites du taux
d’erreur mot, justifie l’utilisation de plusieurs métriques pour une
évaluation plus fine.
Enfin, nous proposons une approche innovante pour rendre les métriques
sémantiques plus interprétables. Ces métriques se contentent
actuellement de fournir des scores bruts basés sur des similarités
cosinus entre représentations sémantiques, rendant difficile
l’interprétation des erreurs. Afin de rendre ces mesures plus
accessibles, nous avons développé une méthode appelée minED, qui vise à
améliorer la compréhension et la transparence de l’évaluation des
systèmes de RAP, en prenant en compte les aspects sémantiques ainsi que
la perception humaine. De plus, une variante de cette méthode permet
d’évaluer la gravité de chaque erreur pour la compréhension globale
d’une phrase, offrant ainsi des informations précieuses non seulement
sur les erreurs des systèmes, mais aussi sur le fonctionnement des
métriques elles-mêmes.
Le jury sera composé de :
*Irina ILLINA*, Maîtresse de Conférences HDR, LORIA/INRIA,
Université de Lorraine, Rapporteure
*Cyril GROUIN*, Ingénieur de Recherche HDR, LISN,
Université Paris-Saclay, Rapporteur
*Béatrice DAILLE*, Professeure des Universités, LS2N,
Université de Nantes, Examinatrice
*Martine ADDA-DECKER*, Directrice de Recherche, CNRS,
Sorbonne Nouvelle, Examinatrice
*Benjamin LECOUTEUX*, Professeur des Universités, LIG,
Université Grenoble Alpes, Examinateur
*Richard DUFOUR*, Professeur des Universités, LS2N,
Nantes Université, Directeur de thèse
*Jane WOTTAWA* Maîtresse de Conférences, LIUM,
Université de Nantes, Encadrante de thèse
*Mickael ROUVIER* Maître de Conférences, LIA,
Avignon Université, Encadrant de thèse