Soutenance de thèse Arthur Amalvy – 09/12/2024

Titre de la thèse : Traitement du langage naturel appliqué à la représentation de textes narratifs par réseaux de personnage

Date: 06/12/2024 – 9h00

Lieu: Amphi Ada Lovelace (CERI)

Résumé :

Un réseau de personnages représente des personnages comme des sommets dans un graphe, et leurs relations comme les arêtes entre ces sommets. Dans le cas des œuvres littéraires, ils permettent de modéliser un récit entier en utilisant un seul objet mathématique. En fonction des besoins, leurs arêtes peuvent représenter différents types d’interactions : co-occurrence, conversation, action directe… De plus, les changements temporels dans les relations peuvent être modélisés avec des réseaux dynamiques. Grâce à cette flexibilité, les réseaux de personnages ont été utilisés pour s’attaquer à plusieurs tâches, comme la classification de genre littéraire, la segmentation de récit, la recommandation ou le résumé automatique. Extraire ces réseaux manuellement est cependant coûteux, et de nombreux chercheurs sont donc intéressés par l’automatisation de ce processus. Cette automatisation nécessite de résoudre différentes tâches de traitement du langage naturel telles que la reconnaissance d’entités nommées (REN), la résolution de coréférences ou l’attribution de locuteur.

Dans cette thèse, nous présentons des contributions à ce processus d’extraction automatique dans le cas des romans, ainsi qu’à des applications des réseaux de personnages. Nous proposons Renard, un pipeline d’extraction modulaire que nous mettons à disposition sous une licence libre. Nous l’utilisons pour mieux comprendre la performance des pipelines existants en étudiant l’impact des erreurs de REN et de résolution de coréférences sur la qualité des réseaux extraits. Nous observons que la performance des deux tâches est importante, et dépend fortement du roman étudié. Pour la résolution de coréférences, nous notons également que l’impact dépend du type d’erreur : la précision des liens de coréférence extraits est particulièrement importante afin de détecter des personnages.

En outre, nous identifions et contribuons à deux défis des systèmes d’extraction de réseaux de personnages. Le premier est le manque de données littéraires pour entraîner ces systèmes. Nous nous nous y attaquons 1) en proposant un nouveau jeu de données littéraire couvrant la REN et la résolution d’alias et 2) en proposant d’utiliser une technique d’augmentation de données, le remplacement de mentions, dans le cas de la REN inter-domaines. Le second défi que nous identifions est la portée limitée des modèles à base de transformers, qui peut être préjudiciable à la performance de certaines tâches. Nous proposons de récupérer du contexte pertinent au niveau du document pour atténuer le manque d’information induit par cette faible portée, et montrons que cela peut augmenter la performance de la tâche de REN.

Enfin, nous présentons des contributions aux applications des réseaux de personnages dans le cadre de deux études de cas. Premièrement, nous utilisons des réseaux modélisant différents types d’interactions dans une analyse de Lorenzaccio d’Alfred de Musset. En utilisant la détection de communautés, nous identifions les intrigues de la pièce, quantifions leurs importances relatives et déterminons les interactions entre elles. De plus, nous proposons une méthode automatique pour détecter des conspirations. Deuxièmement, nous proposons d’employer les réseaux de personnages pour résoudre la tâche d’alignement narratif sur trois adaptations du Trône de Fer de George R. R. Martin : les romans originaux, les comics adaptés de ceux-ci et la série télévisée. Nos résultats montrent que les méthodes basées sur les réseaux peuvent être meilleures que celles basées sur le texte, et peuvent être combinées avec ces dernières pour améliorer la performance. Nous mettons aussi en valeur l’importance de réaliser la tâche d’alignement sur des unités narratives commensurables. Dans ces deux études de cas, nous montrons l’intérêt des réseaux dynamiques.

Le Jury sera composé de :

Claire GARDENT, Directrice de Recherche, CNRS/LORIA, Université de Lorraine, Rapporteure

Christophe CERISARA, Chargé de Recherche, CNRS/LORIA, Université de Lorraine, Rapporteur

Farah BENAMARA, Professeure, CNRS/IRIT, Université Paul Sabatier, Examinatrice

David BAMMAN, Professeur Associé, School of Information, UC Berkeley, Examinateur

Vincent LABATUT, Maitre de Conférence, LIA, Université d’Avignon, Directeur de thèse

Richard DUFOUR, Professeur, LS2N, Université de Nantes, Co-directeur de thèse