Projet
du Cours Résumé automatique (TP 2) -- Master
Avignon 19 octobre 2011
Les
TP de résumé automatique s'orientent au developpement d'un
système de résumé automatique guidé par les besoins de
l'utilisateur. Plusieurs modules sont envisages : Segmentation,
Filtrage, Lemmatisation, representation vectoriel, Metriques,
algorithme de decision et generation de l'abstract.
FILTRAGE
Il s’agit de développer le deuxième module : le filtrage automatique de texte. Les objectifs que l’on veut atteindre se décomposent ainsi : développer un programme perl appelé filtrage qui permettra :
Parser un texte .seg d'une phrase par ligne avec le titre en ligne 0 (issu du processus de segmentation)
Filtrer les signes de ponctuation
Enlever le texte entre parenthèses
Générer un fichier filtré .fil
Utilisation : $ filtrage < texte_entree.seg > texte_filtre.fil (Veiller à éliminer les lignes vides !)
6. Tester sur les fichiers disponibles sur le site web du cours : http://lia.univ-avignon.fr/fileadmin/documents/Users/Intranet/chercheurs/torres/cours/ra/tp/
7. Quels sont les principaux pbs liés au filtrage de textes ? Quelles ont été vos tratégies pour les resoudre ? (A vous de definir l'ensemble de symboles à filtrer et de justifier ce choix)
8. Rendu du TP: CODE SOURCE + Reponse aux questions LE JEUDI 19 OCTOBRE 2011 AVANT 24h00
Envoyer par mail a: juan-manuel.torres@univ-avignon ; avec le subject : RA:TP2
On veillera à :
0. On vous conseille à utiliser PERL comme langage. Autres choix: AWK, C/C++ (Java... bof)
1. Vérifier l’existence de fichiers, nombre d’arguments, etc.
2. Code commenté, lisible et nombre minimal d’expressions régulières
Bon filtrage !!!
Enseignant : Juan-Manuel Torres Moreno