Soutenance de thèse de Carlos González intitulée « Résumé automatique multimédia et multilingue et Recherche d’information » le mercredi 18 décembre 2019 à 14H00 dans la Salle de thèses (Saint Marthe – Centre Ville).
Jury :
- Mme Violaine PRINCE Professeur, LIRMM, Montpellier 2 Rapportrice
- M. Eric GAUSSIER Professeur, LIG, Grenoble Rapporteur
- Mme. Fatiha SADAT Professeur, GDAC, Montréal Examinatrice
- M. Laurent BESACIER Professeur, LIG, Grenoble Examinateur
- M. Kamel SMAILI Professeur, LORIA, CNRS-Lorraine-Inria Examinateur
- M. Alfonso MEDINA URREA Chercheur, CELL, COLMEX Examinateur
- M. Juan-Manuel TORRES-MORENO Maître de Conférence HDR, LIA, Avignon Directeur
- M. Eric SANJUAN Maître de Conférence HDR, LIA, Avignon Co-directeur
Résumé : Alors que les sources multimédias sont massivement disponibles en ligne, aider les utilisateurs à comprendre la grande quantité d’information générée est devenu un problème majeur. Une façon de procéder consiste à résumer le contenu multimédia, générant ainsi des versions abrégées et informatives des sources. Cette thèse aborde le sujet du résumé automatique (texte et parole) dans un contexte multilingue. Elle a été réalisée dans le cadre du projet CHISTERA-ANR Accès multilingue à l’information (AMIS).
Le résumé multimédia basé sur le texte utilise des transcriptions pour produire des résumés qui peuvent être présentés sous forme textuelle ou dans leur format d’origine. La transcription des sources multimédia peut être effectuée manuellement ou automatiquement par un système de Reconnaissance automatique de la parole (RAP). Les transcriptions peuvent différer de la langue écrite car la source étant parlée. De plus, ces transcriptions manquent d’informations syntaxiques.
Par exemple, les majuscules et les signes de ponctuation sont absents, ce qu’implique des phrases inexistantes. Pour palier ce problème nous proposons une méthode pour la détection des limites de phrases (DLP). Elle est orientée aux transcriptions et utilise des caractéristiques textuelles pour séparer les Unités sémantiques (US) dans un contexte multilingue. Notre approche, basée sur des vecteurs d’information des n-grammes de lettres et des Réseaux de neurones convolutifs, dépasse les performances des méthodes état-de-l’art en identifiant correctement les frontières des US en français, anglais et arabe standard. Nous étudions ensuite l’impact des corpora entre-domaines en arabe standard, en montrant que le raffinement d’un modèle, conçu initialement avec un grand corpus hors du domaine, avec un petit corpus du domaine améliore la performance de la DLP. Enfin, nous étendons ARTEX, un résumeur textuel extractif état de l’art, pour traiter de documents en arabe standard en adaptant ses modules de prétraitement. Les résumés peuvent être présentés sous une forme textuelle ou dans leur format multimédia original en alignant les US sélectionnées.
En ce qui concerne le résumé multimédia basée sur l’audio, nous introduisons une méthode extractive qui représente l’informativité de la source à partir de ses caractéristiques audio pour sélectionner les segments les plus pertinents pour le résumé. Pendant la phase d’entraînement, notre méthode utilise les transcriptions des documents audio pour créer un modèle informatif qui établit une correspondance entre un ensemble de caractéristiques audio et une mesure de divergence. Dans notre système, les transcriptions ne sont plus nécessaires pour résumer des nouveaux documents audio.
Les résultats obtenus sur un schéma multi-évaluation montrent que notre approche génère des résumés compréhensibles et informatifs.
Nous avons étudié également les mesures d’évaluation et nous avons développé la méthode Window-based Sentence Boundary Evaluation (WiSeBE), une métrique semi-supervisée basée sur le (dés)accord multi-références. On examine si l’évaluation basée sur une référence unique d’un système de DLP suffit à évaluer son performance. Nous explorons également la possibilité de mesurer la qualité des transcriptions automatiques en fonction de leur informativité. De plus, nous étudions dans quelle mesure le résumé automatique peut compenser les problèmes posés au cours de la transcription. Enfin, nous étudions comment les mesures d’évaluation d’informativité peuvent être étendues pour l’évaluation de l’intérêt des passages textuels.