Projet du Cours Résumé automatique (TP 5) -- Master 2

Avignon le 20 octobre 2011

Les TP de resume automatique vont s'orienter au developpement d'un système de resume automatique guidé par les besoins de l'utilisateur. Plusieurs modules sont envisages : Segmentation, Filtrage I et II, Lemmatisation, representation vectoriel, Metriques+ algorithme de decision et génération de l'abstract.

REPRESENTATION VECTORIELLE

 Il s’agit de développer le cinquième module : la representation vectorielle du texte. Les objectifs que l’on veut atteindre se décomposent ainsi : développer un programme appelé vectoriel qui permettra :

  1. Lire un texte .stem d'une phrase par ligne avec le titre en ligne 0

  2. Calculer une liste des V mots type (un vocabulaire composé des V mots différents) avec leur frequence

  3. Calculer une liste des M mots dont leur fréquence f > 1

  1. Générer un fichier contenant la representation sous forme de matrice de P x M (P phrases et M mots). Ceci corresponde a la matrice gamma du cours, avec la fréquence f ou 0 de chaque mot.

  2. Utilisation : $ vectoriel < texte_entree.stem > matrice_texte.mat

  3. Tester sur les fichiers disponibles sur le site web du cours

  4. Quels sont les principaux problemes liés à la vectorisation ? Quelles ont été vos tratégies pour les resoudre ?

  5. Rendu du TP: CODE SOURCE + Reponse aux questions LE 21 OCTOBRE 2011 AVANT 18h00

Envoyer par mail a: juan-manuel.torres@univ-avignon avec le subject : RA:TP5

On veillera à : 

0. On vous conseille à utiliser PERL comme langage. Autres choix: AWK, C/C++ (Java... bof)

1.      Vérifier l'existence de fichiers, nombre d'arguments, etc.

2.      Code commenté, lisible et nombre minimal d’expressions régulières.     

 Bonne vectorisation !!!

Enseignant : Juan-Manuel Torres Moreno