Projet du Cours Résumé automatique (TP 3) -- Master 2
Avignon le 19 octobre 2011
Les
TP de resume automatique vont s'orienter au developpement d'un
système de resume automatique guidé par les besoins de
l'utilisateur. Plusieurs modules sont envisages : Segmentation,
Filtrage I et
II, Lemmatisation, representation vectoriel, Metriques,
algorithme de decision et generation de l'abstract.
FILTRAGE II
Il sagit de développer le troisième module : le filtrage automatique de texte II (mots fonctionnels). Les objectifs que lon veut atteindre se décomposent ainsi : développer un programme appelé fonctionnel qui permettra :
Parser un texte .fil d'une phrase par ligne avec le titre en ligne 0 (issu du processus de filtrage)
Filtrer les mots fonctionnels (voir sur le site du cours)
Générer un fichier filtré .fon
Utilisation : $ fonctionnels < texte_entree.fil > texte_filtre.fon (Veiller à éliminer les lignes vides !)
6. Tester sur les fichiers disponibles sur le site web du cours
7. Quels sont les principaux pbs liés au filtrage de mots fonctionels des textes ? Quelles ont été vos tratégies pour les resoudre ? Il faut utiliser a ce niveau l'elimination des verbes fonctionnels (etre, pouvoir, falloir, avoir... ) ? Oui, non, pourquoi ?
8. Rendu du TP: CODE SOURCE + Reponse aux questions LE MERCREDI 19 NOVEMBRE 2011 AVANT 24h00
Envoyer par mail a: juan-manuel.torres@univ-avignon avec le subject : RA:TP3
On veillera à :
0. On vous conseille à utiliser PERL comme langage. Autres choix: AWK, C/C++ (Java... bof)
1. Vérifier lexistence de fichiers, nombre darguments, etc.
2. Code commenté, lisible et nombre minimal dexpressions régulières.
Bon filtrage !!!
Enseignant : Juan-Manuel Torres Moreno