Projet du Cours Résumé automatique (TP 2) -- Master 2
Avignon le 20 octobre 2011
Les
TP de resume automatique vont s'orienter au developpement d'un
système de resume automatique guidé par les besoins de
l'utilisateur. Plusieurs modules sont envisages : Segmentation,
Filtrage I et II, Lemmatisation,
representation vectoriel, Metriques, algorithme de decision et
generation de l'abstract.
LEMMATISATION (Stemming)
Il sagit de développer le quatrième module : la lemmatisation de texte. On fera uniquement un stemmeing des mots et pas une vraie lemmatisation. Les objectifs que lon veut atteindre se décomposent ainsi : développer un programme appelé lemmatisation qui permettra :
Parser un texte .fon d'une phrase par ligne avec le titre en ligne 0 (issu du processus de filtrage de mots fonctionnels)
Effectuer un stemming des mots (voir sur le site du cours) avec l'algorithme de Porter (etudier le code surtourt au niveau de l'interface avec vos programmes)
Générer un fichier stemmisé .stem
Utilisation : $ lemmatisation < texte_entree.fon > texte_lemmatise.stemm (Veiller à éliminer les lignes vides !)
6. Tester sur les fichiers disponibles sur le site web du cours : http://lia.univ-avignon.fr/fileadmin/documents/Users/Intranet/chercheurs/torres/cours/ra/tp/
7. Quels sont les principaux pbs liés à la lemmatisation ? Quelles ont été vos tratégies pour les resoudre ? Il faut eliminer les mots d'une seule lettre ? Oui, non, pourquoi ?
8. Rendu du TP: CODE SOURCE + Reponse aux questions LE JEUDI 2O OCTOBRE 2011 AVANT 24h00
Envoyer par mail a: juan-manuel.torres@univ-avignon avec le subject : RA:TP4
On veillera à :
0. On vous conseille à utiliser PERL comme langage. Autres choix: AWK, C/C++ (Java... bof)
1. Vérifier lexistence de fichiers, nombre darguments, etc.
2. Code commenté, lisible et nombre minimal dexpressions régulières.
Bonne lemmatisation !!!
Enseignant : Juan-Manuel Torres Moreno