Soutenance de thèse Killian Janod

J'ai le plaisir de vous inviter à ma soutenance de thèse qui aura lieu le lundi 27 novembre 2017 à 14:30h dans L’Amphithéâtre Blaise.

Membres du Jury :
-Rapporteurs :

  • Prof. Frédéric BÉCHET  (Université d’Aix-Marseille, LIF, France)
  • Dr. Gilles Adda (CNRS, LIMSI, France)
-Examinateurs :
  • Prof. Fabrice LEFÈVRE (Université d'Avignon,LIA, France)
  • MCF. Véronique MORICEAU (IUT Paul Sabatier Toulouse, IRIT, France)
  • MCF Benjamin LECOUTEUX (IUT 2 Grenoble, LIG, France)
-Membre invité :
  • Dr. Xavier BOST (Orkis, France)
-Directeur de thèse :
  • Prof. Georges LINARÈS (Université d'Avignon,LIA, France)
-Coencadrant de thèse :
  • MCF Richard DUFOUR (Université d'Avignon,LIA, France)
  • MCF Mohamed Morchid (Université d'Avignon,LIA, France)
 
 
 
-----------------------------------------------------------------------------------------------------------------------------------------------------

Titre de la thèse : La représentation des documents par réseaux de neurones pour la compréhension de documents parlés.

Résumé :

 

Les méthodes de compréhension de la parole visent à extraire des éléments de sens pertinents du signal parlé. On distingue principalement deux catégories dans la compréhension du signal parlé : la compréhension de dialogues homme/machine et la compréhension de dialogues homme/homme. En fonction du type de conversation, la structure des dialogues et les objectifs de compréhension varient.Cependant, dans les deux cas, les systèmes automatiques reposent le plus souvent sur une étape de reconnaissance automatique de la parole pour réaliser une transcription textuelle du signal parlé.Les systèmes de reconnaissance automatique de la parole, même les plus avancés, produisent dans des contextes acoustiques complexes des transcriptions erronées ou partiellement erronées. Ces erreurs s'expliquent par la présence d'informations de natures et de fonction variées, telles que celles liées aux spécificités du locuteur ou encore l'environnement sonore. Celles-ci peuvent avoir un impact négatif important pour la compréhension. Dans un premier temps, les travaux de cette thèse montrent que l'utilisation d'autoencodeur profond permet de produire une représentation latente des transcriptions d'un plus haut niveau d'abstraction. Cette représentation permet au système de compréhension de la parole d'être plus robuste aux erreurs de transcriptions automatiques. Dans un second temps, nous proposons deux approches pour générer des représentations robustes en combinant plusieurs vues d'un même dialogue dans le but d'améliorer les performances du système la compréhension. La première approche montre que plusieurs espaces thématiques différents peuvent être combinés simplement à l'aide d'autoencodeur ou dans un espace thématique latent pour produire une représentation qui augmente l'efficacité et la robustesse du système de compréhension de la parole. La seconde approche propose d'introduire une forme d'information de supervision dans les processus de débruitages par autoencodeur. Ces travaux montrent que l'introduction de supervision de transcription dans un autoencodeur débruitant dégrade les représentations latentes, alors que les architectures proposées permettent de rendre comparables les performances d'un système de compréhension reposant sur une transcription automatique et un système de compréhension reposant sur des transcriptions manuelles.

 
 
Bien cordialement.
 
 
Killian Janod


Laboratoire Informatique d'Avignon

Université d'Avignon et des Pays de Vaucluse
339 chemin des Meinajaries, Agroparc BP 91228, 84911 Avignon cedex 9
+33 (0)4 90 84 35 00