Projet du Cours Résumé automatique (TP 5) -- Master 2
Avignon le 20 octobre 2011
Les
TP de resume automatique vont s'orienter au developpement d'un
système de resume automatique guidé par les besoins de
l'utilisateur. Plusieurs modules sont envisages : Segmentation,
Filtrage I et II, Lemmatisation,
representation vectoriel, Metriques+ algorithme de decision et
génération de l'abstract.
REPRESENTATION VECTORIELLE
Il sagit de développer le cinquième module : la representation vectorielle du texte. Les objectifs que lon veut atteindre se décomposent ainsi : développer un programme appelé vectoriel qui permettra :
Lire un texte .stem d'une phrase par ligne avec le titre en ligne 0
Calculer une liste des V mots type (un vocabulaire composé des V mots différents) avec leur frequence
Calculer une liste des M mots dont leur fréquence f > 1
Générer un fichier contenant la representation sous forme de matrice de P x M (P phrases et M mots). Ceci corresponde a la matrice gamma du cours, avec la fréquence f ou 0 de chaque mot.
Utilisation : $ vectoriel < texte_entree.stem > matrice_texte.mat
Tester sur les fichiers disponibles sur
le site web du cours
Quels sont les principaux problemes liés à la vectorisation ? Quelles ont été vos tratégies pour les resoudre ?
Rendu du TP: CODE SOURCE + Reponse aux questions LE 21 OCTOBRE 2011 AVANT 18h00
Envoyer par mail a: juan-manuel.torres@univ-avignon avec le subject : RA:TP5
On veillera à :
0. On vous conseille à utiliser PERL comme langage. Autres choix: AWK, C/C++ (Java... bof)
1. Vérifier l'existence de fichiers, nombre d'arguments, etc.
2. Code commenté, lisible et nombre minimal dexpressions régulières.
Bonne vectorisation !!!
Enseignant : Juan-Manuel Torres Moreno