Projet du Cours Résumé automatique (TP 2) -- Master 2

Avignon le 20 octobre 2011

Les TP de resume automatique vont s'orienter au developpement d'un système de resume automatique guidé par les besoins de l'utilisateur. Plusieurs modules sont envisages : Segmentation, Filtrage I et II, Lemmatisation, representation vectoriel, Metriques, algorithme de decision et generation de l'abstract.

LEMMATISATION (Stemming)

 Il s’agit de développer le quatrième module : la lemmatisation de texte. On fera uniquement un stemmeing des mots et pas une vraie lemmatisation. Les objectifs que l’on veut atteindre se décomposent ainsi : développer un programme appelé lemmatisation qui permettra :

  1. Parser un texte .fon d'une phrase par ligne avec le titre en ligne 0 (issu du processus de filtrage de mots fonctionnels)

  2. Effectuer un stemming des mots (voir sur le site du cours) avec l'algorithme de Porter (etudier le code surtourt au niveau de l'interface avec vos programmes)

  1. Générer un fichier stemmisé .stem

  2. Utilisation : $ lemmatisation < texte_entree.fon > texte_lemmatise.stemm (Veiller à éliminer les lignes vides !)

      6. Tester sur les fichiers disponibles sur le site web du cours : http://lia.univ-avignon.fr/fileadmin/documents/Users/Intranet/chercheurs/torres/cours/ra/tp/

      7. Quels sont les principaux pbs liés à la lemmatisation ? Quelles ont été vos tratégies pour les resoudre ? Il faut eliminer les mots d'une seule lettre ? Oui, non, pourquoi ?

      8. Rendu du TP: CODE SOURCE + Reponse aux questions LE JEUDI 2O OCTOBRE 2011 AVANT 24h00

Envoyer par mail a: juan-manuel.torres@univ-avignon avec le subject : RA:TP4

On veillera à : 

0. On vous conseille à utiliser PERL comme langage. Autres choix: AWK, C/C++ (Java... bof)

1.      Vérifier l’existence de fichiers, nombre d’arguments, etc.

2.      Code commenté, lisible et nombre minimal d’expressions régulières.     

 Bonne lemmatisation !!!

Enseignant : Juan-Manuel Torres Moreno