Vous êtes ici

Accueil » Thématiques » Langage » TALNE

Analyse rhétorique

Discourse parsing is a very prominent research topic, since it is useful for text generation, automatic summarization, automatic translation, information extraction, etc. There are several discourse parsers for English, Japanese and Brazilian Portuguese. Most of them use the framework of the Rhetorical Structure Theory (RST) of Mann and Thompson. TALNE teams works in two Discours and Segmentation Parsing projects: ADAe (spanish), ADAf (french) and DiSeg. Participants: Iria da Cunha, Eric SanJuan, Juan-Manuel Torres Projets financés: Post-doc MCI (Espagne)

Classification, Segmentation thématique et Détection d'opinion

Le LIA travaille sur la mise à disposition d'outils génériques de traitement linguistique et plus particulièrement d'outils et de bibliothèques (APIs) de segmentation thématique et automatique de textes en français, anglais et espagnol. TALNE participe activement dans les évaluations (DEFT) et les tâches de Détection d'opinion Participants: Marc El-Bèze, Juan-Manuel Torres, Rémy Kessler, Rémi Lavalley, Benjamin Maza

Compression automatique de phrases

La compression de phrases consiste en la suppression de certains de constituants non essentiels de la phrase avec l'objectif d'en obtenir une plus courte que l'originelle, tout en conservant son sens et sa grammaticalité. TALNE a participé au devéloppement de corpus et des systèmes de compression de phrases (français et anglais). Participants: Juan-Manuel Torres, Alejandro Molina, Iria da Cunha Projets financés: Bourse CONACYT (Mexique)

Désambiguïsation sémantique

Le problème de la désambiguïsation sémantique (WSD) a été abordé au LIA par une combinaison d'approches symboliques et numériques (modèles de Markov cachés, arbres de décision, plus proches voisins, règles de décision bayésienne, etc.). Les expériences menées sur le corpus sémantique étiqueté A partir du lexique WordNet, ainsi que l'évaluation du système lors des campagnes SENSEVAL, ont montré l'originalité et l'efficacité de nos méthodes. Participants: Marc El-Bèze

Génération automatique de texte

La génération automatique de texte est un domaine du TALN ayant l'objectif de générer une sortie linguistique à partir de données brutes et d'une représentation formelle du contenu. Le LIA travaille sur la Génération automatique de texte multilingue (francais/anglais/espagnol). Participants: Juan-Manuel Torres

Multilinguisme

Le LIA a été le porteur du projet CARMEL (Technolangue + RIAM) sur la conception d'un navigateur innovant intégrant plusieurs composants développés par l'équipe (désambiguïsation sémantique, classification thématique, et alignement multilingue). Ce projet fédérant les activités de l'équipe TALN avait pour but de vérifier que la conjugaison des 3 composants permettait d'améliorer le fonctionnement de chacun d'eux. Les partenaires du LIA dans ce projet d'une durée de 24 mois ont été le Lidilem, Sinequa et ACCE. Participants: Marc El-Bèze

Résumé automatique de documents

Le résumé automatique de documents est abordé au LIA majoritairement via une approche numérique. Avec l'introduction de nouvelles heuristiques (multilingue, multi-documents,...) et la génération de résumés personnalisés selon les besoins de l'utilisateur, le système Cortex combine des métriques et un algorithme de décision. L'équipe TALNE a participé aux campagnes d'évaluation internationale comme DUC (Document Understing Conference) ou TAC de resumé automatique organisées par le NIST. Le couplage de systèmes de résumé automatique plus un algorithme sophistiqué de vote a permis de placer le LIA au peloton de tête des équipes. Participants: Juan-Manuel Torres, Florian Boudin, Marc-El-Bèze, Iria da Cunha, Eric SanJuan, Stéphan Huet, Andréa Carneiro Linhares Projets: ANR RPM2 (collaborations avec Thématique Parole: Pascal Nocera, Georges Linares), Funcap-Brésil (collaborations avec l'Université Fédérale du Ceara)

Recherche d’informations, Questions-Réponses

Les travaux réalisés au LIA en QR ont conduit à l'élaboration de systèmes testés dans différentes campagnes d'évaluation. Les méthodes employées sont originales et dépassent très largement les objectifs des tests proposés. Dans la collaboration avec Sinequa, le LIA a contribué au développement d'un ensemble de composants logiciels optimisés pour la recherche d'informations dans les grandes bases de données textuelles. Nous participons régulierement aux campagnes internationales d'évaluation organisée par NIST/TREC (TREC Enterprise 2007 et TREC Entity 2010). Le LIA a développé l'intégralité des composants d'un moteur de Questions Réponses (classification de questions, étiquetage en Entités Nommées, Recherche Documentaire, Segmentation Thématique, Extracteur de Réponses, ...). En QA nous avons participé à TREC 2003, Technolangue EQUER 2004 et CLEF 2004. Nous avons également travaillé sur l'analyse automatique d'offres d'emploi et CV et à la detéction du plagiat dans un contexte interlingue. Participants: Marc El-Bèze, Juan-Manuel Torres, Eric SanJuan, Rémy Kessler, Benjamin Maza, Ludovic Bonnefoy, Romain Duveaud, Alejandro Molina Projets: ANR Piithie

Terminologie - TextMining

Termwatch is a clustering system offering two clustering principles : symbolic and statistical. In its original design, TermWatch primarily focuses on clusterinfg meaningful domain terms (no limit on the length of multi-word terms) based on different linguistic relations (lexical, syntactic and semantic). The aim is to identify the main topics contained in a corpus of texts. To achieve this, TermWatch integrates research from three fields: NLP (terminology engineering), exploratory data analysis (clustering algorithms) and information visualization. Participants: Eric SanJuan, Juan-Manuel Torres, Pierre Jourlin Projets: TermWatch ; RicoTERM (IULA, Espagne)