Soutenance de thèse de Waad Ben Kheder

soutenance de la thèse intitulée “Reconnaissance du locuteur en milieux difficiles". 

 
La soutenance aura lieu le mardi 18 Juillet 2017 à 14h  dans l’amphithéâtre de l'IUT. 
----------------------------------------------------------------------


Le jury de soutenance sera composé de :

 
Rapporteurs :
M. Denis Jouvet, Professeur, LORIA - INRIA Nancy - Rapporteur
M. Claude Barras, MCF-HDR, Université Paris Sud, LIMSI - Rapporteur 
 
Examinateurs :
M. Thomas Pellegrini, MCF, Université de Toulouse, IRIT - Examinateur 
M. Romain Serizel, MCF, Université de Lorraine, LORIA - Examinateur 
M. Jean-François Bonastre, Professeur, Université d'Avignon, LIA - Examinateur
M. Fabrice Lefèvre, Professeur, Université d'Avignon, LIA - Examinateur
M. Rachid El-Azouzi, Professeur, Université d'Avignon, LIA - Examinateur
 
 
M. Driss Matrouf, MCF-HDR, Université d'Avignon, LIA - Directeur
 
Résumé : 

Le domaine de la RAL a vu des avancées considérables dans la dernière dizaine d'années permettant d'atteindre des taux d'erreurs très faibles dans des conditions contrôlées. Cependant, l'implémentation de cette technologie dans des applications réelles est entravée par la grande dégradation des performances en présence de nuisances acoustiques en phase d'utilisation. Un grand effort a été investi par la communauté de recherche en RAL dans la conception de techniques de compensation des nuisances acoustiques. Ces techniques opèrent à différents niveaux : signal, paramètres acoustiques, modèles ou scores. Avec le développement du paradigme de "variabilité totale", de nouvelles possibilités peuvent être explorées profitant des propriété statistiques simples de l'espace des i-vecteurs.

Notre travail de thèse s'inscrit dans ce cadre et propose des techniques de compensation des nuisances acoustiques qui opèrent directement dans le domaine des i-vecteurs. Ces algorithmes utilisent des relations simples entre les i-vecteurs corrompus et leurs versions propres et font abstraction de l'effet réel des nuisances dans cet espace. Afin de mettre en œuvre cette méthodologie, des exemplaires de données propres / corrompues sont générés artificiellement et utilisés pour construire des algorithmes de compensation des nuisances acoustiques. Ce procédé permet d'éviter les dérivations qui peuvent être complexes, voire très approximatives. Les techniques développées dans cette thèse se divisent en deux classes:

La première classe de techniques se base sur un modèle de distorsion dans le domaine des i-vecteurs. Une relation entre la version propre et la version corrompue d'un i-vecteur est posée et un estimateur permettant de transformer un i-vecteur de test corrompu en sa version propre est construit. Deux stratégies ont été développées dans ce contexte. La première se base sur l'algorithme de Kabsch et modélise l'effet de la corruption acoustique dans l'espace des i-vecteurs sous forme d'une translation suivie d'une rotation. Cet algorithme est testé en présence de bruit additif ; une amélioration relative de 40% a été observée sur les données de l'évaluation NIST SRE 2008 bruitées artificiellement.

Le deuxième algorithme, appelé I-MAP, utilise le critère du maximum à posteriori. A la différence du premier algorithme, I-MAP considère la différence entre la version propre et la version corrompue d'un i-vecteur comme étant un bruit additif dans le domaine des i-vecteurs. La version propre correspondant à un i-vecteur de test corrompu est obtenue en utilisant le critère du maximum à posteriori (MAP) tout en supposant une distribution Gaussienne pour les i-vecteurs propres ainsi que pour le bruit dans l'espace des i-vecteurs. Cet algorithme a permis d'obtenir des gains pouvant atteindre 60% d'amélioration relative en termes d'EER sur les données de l'évaluation NIST SRE 2008 bruitées artificiellement et de 50% sur les données de SITW bruités naturellement. Une combinaison itérative des deux algorithmes s'est avérée efficace permettant d'atteindre 80% d'amélioration relative en EER sur les données de l'évaluation de NIST SRE 2008 bruitées artificiellement.

Mis à part ces deux techniques, une méthodologie de construction automatique de techniques de compensation des nuisances a été mise en place. Cette approche modélise les algorithmes de compensation des nuisances sous forme d'arbre syntaxique et utilise un algorithme de programmation génétique pour générer de nouvelles techniques de compensation des nuisances acoustiques. Un processus itératif qui s'inspire de l'évolution Darwinienne est par la suite adopté. Cette approche sélectionne les meilleures arbres solution générées par l'algorithme génétique et les utilise pour créer de nouvelles solutions. Cette méthode a été testée dans le contexte du bruit additif et s'est avérée efficace pour la construction de techniques de compensation adaptées à un bruit et niveau SNR donnés.

La deuxième classe de techniques n'utilise aucun modèle de distorsion dans le domaine des i-vecteurs. Elle permet de tenir compte à la fois de la distribution des i-vecteurs propres, corrompus ainsi que la distribution jointe. Des améliorations significatives des performances atteignant des gains relatifs de 80% en termes d'EER sont observées sur les données de l'évaluation NIST SRE 2008 bruitées artificiellement et 66% sur les données de SITW bruitées naturellement. Cette approche a aussi été évaluée dans le contexte des segments de courtes durées en se basant sur la distribution jointe entre les i-vecteurs construits sur de longues sessions et leurs versions de courtes durées. Dans ce contexte, on a observé des gains relatifs en termes d'EER qui peuvent atteindre 40% sur les données de l'évaluation NIST SRE 2008 et un gain de 35% sur les segments de courte durée de la base SITW (seuls les segments propres sont utilisés).

Undefined
event_date: 
Tuesday, 18 July, 2017 - 14:00 to 17:00


Laboratoire Informatique d'Avignon

Université d'Avignon et des Pays de Vaucluse
339 chemin des Meinajaries, Agroparc BP 91228, 84911 Avignon cedex 9
+33 (0)4 90 84 35 00