Soutenance de thèse de Timothée Dhaussy – 21/10/2024 – Laboratoire Informatique d’Avignon

Date: lundi 21 octobre 2024 à 14h00

lieu: salle des thèses sur le campus Hannah Arendt.

Le lien de visio-conférence est le suivant: https://bbb.univ-avignon.fr/rooms/vtj-xje-xex-gyw/join .

Le jury sera composé de :

Dr Aurélie Clodic, LAAS-CNRS, Rapporteure
Pr Julien Pinquier, Université de Toulouse, IRIT, Rapporteur
Pr Laurence Devillers, Sorbonne Université, LISN-CNRS, Examinatrice
Pr Olivier Alata, Université Jean Monnet, Laboratoire Hubert Curien, Examinateur
Pr Fabrice Lefèvre, Avignon Université, LIA, Directeur de thèse
Dr Bassam Jabaian, Avignon Université, LIA, Co-encadrant

Titre : L’interaction humain-robot multimodale proactive dans un cadre hospitalier

Dans cette thèse, nous nous concentrons sur la création d’un système multimodal proactif pour le robot social Pepper, destiné à une salle d’attente d’hôpital. Pour ce faire, nous avons développé une architecture cognitive d’interaction humain-robot, fondée sur une boucle continue de perceptions, de représentation et de décision. Le flux de perceptions se divise en deux étapes : d’abord, la récupération des données des capteurs du robot, puis leur enrichissement grâce à des modules de raffinage. Un module de raffinage de diarisation du locuteur, basé sur une modélisation bayésienne de la fusion des perceptions audio et visuelles par coïncidence spatiale, a été intégré. Pour permettre une action proactive, nous avons conçu un modèle analysant la disponibilité des utilisateurs à une interaction dans une salle d’attente.
Les perceptions ainsi raffinées sont ensuite ordonnées et alignées pour créer une représentation de l’environnement constamment mise à jour. Cette image de l’environnement est alors transmise à la couche décisionnelle. Là, un module de planification d’action analyse les données environnementales et élabore des stratégies d’action en informant les modules d’action de manière asynchrone. Cette capacité à fonctionner de manière asynchrone permet au planificateur d’action de continuer à guetter les opportunités proactives que lui confère la scène, malgré le fonctionnement d’un des sous modules d’action tel que le module de parole, chargé de tenir une conversation avec un utilisateur lors d’une interaction . L’ensemble du système est implémenté sur ROS, permettant ainsi son adaptation à divers supports robotiques.
Cette thèse présente les mécanismes nécessaires à la création d’un système d’interaction multimodale proactif entre l’humain et le robot. Ce système inclut tous les modules de perception et d’action, ainsi qu’une architecture cognitive globale de la gestion des perceptions. L’ensemble a été testé dans un environnement de laboratoire contrôlé, ainsi que dans des conditions réelles à l’hôpital de Broca.