Projet du Cours Résumé automatique (TP 2) -- Master

Avignon 19 octobre 2011

Les TP de résumé automatique s'orientent au developpement d'un système de résumé automatique guidé par les besoins de l'utilisateur. Plusieurs modules sont envisages : Segmentation, Filtrage, Lemmatisation, representation vectoriel, Metriques, algorithme de decision et generation de l'abstract.

FILTRAGE

 Il sÂ’agit de développer le deuxième module : le filtrage automatique de texte. Les objectifs que lÂ’on veut atteindre se décomposent ainsi : développer un programme perl appelé filtrage qui permettra :

  1. Parser un texte .seg d'une phrase par ligne avec le titre en ligne 0 (issu du processus de segmentation)

  2. Filtrer les signes de ponctuation

  1. Enlever le texte entre parenthèses

  2. Générer un fichier filtré .fil

  3. Utilisation : $ filtrage < texte_entree.seg > texte_filtre.fil (Veiller à éliminer les lignes vides !)

      6. Tester sur les fichiers disponibles sur le site web du cours : http://lia.univ-avignon.fr/fileadmin/documents/Users/Intranet/chercheurs/torres/cours/ra/tp/

      7. Quels sont les principaux pbs liés au filtrage de textes ? Quelles ont été vos tratégies pour les resoudre ? (A vous de definir l'ensemble de symboles à filtrer et de justifier ce choix)

      8. Rendu du TP: CODE SOURCE + Reponse aux questions LE JEUDI 19 OCTOBRE 2011 AVANT 24h00

Envoyer par mail a: juan-manuel.torres@univ-avignon ; avec le subject : RA:TP2

On veillera à : 

0.     On vous conseille à utiliser PERL comme langage. Autres choix: AWK, C/C++ (Java... bof)

1.      Vérifier lÂ’existence de fichiers, nombre dÂ’arguments, etc.

2.      Code commenté, lisible et nombre minimal dÂ’expressions régulières

 Bon filtrage !!!

Enseignant : Juan-Manuel Torres Moreno