Projet du Cours Résumé automatique (TP 3) -- Master 2

Avignon le 19 octobre 2011

Les TP de resume automatique vont s'orienter au developpement d'un système de resume automatique guidé par les besoins de l'utilisateur. Plusieurs modules sont envisages : Segmentation, Filtrage I et II, Lemmatisation, representation vectoriel, Metriques, algorithme de decision et generation de l'abstract.

FILTRAGE II

 Il s’agit de développer le troisième module : le filtrage automatique de texte II (mots fonctionnels). Les objectifs que l’on veut atteindre se décomposent ainsi : développer un programme appelé fonctionnel qui permettra :

  1. Parser un texte .fil d'une phrase par ligne avec le titre en ligne 0 (issu du processus de filtrage)

  2. Filtrer les mots fonctionnels (voir sur le site du cours)

  1. Générer un fichier filtré .fon

  2. Utilisation : $ fonctionnels < texte_entree.fil > texte_filtre.fon (Veiller à éliminer les lignes vides !)

      6. Tester sur les fichiers disponibles sur le site web du cours  

      7. Quels sont les principaux pbs liés au filtrage de mots fonctionels des textes ? Quelles ont été vos tratégies pour les resoudre ? Il faut utiliser a ce niveau l'elimination des verbes fonctionnels (etre, pouvoir, falloir, avoir... ) ? Oui, non, pourquoi ?

      8. Rendu du TP: CODE SOURCE + Reponse aux questions LE MERCREDI 19 NOVEMBRE 2011 AVANT 24h00

Envoyer par mail a: juan-manuel.torres@univ-avignon avec le subject : RA:TP3

On veillera à : 

0. On vous conseille à utiliser PERL comme langage. Autres choix: AWK, C/C++ (Java... bof)

1.      Vérifier l’existence de fichiers, nombre d’arguments, etc.

2.      Code commenté, lisible et nombre minimal d’expressions régulières.     

 Bon filtrage !!!

Enseignant : Juan-Manuel Torres Moreno