Vous êtes ici

Accueil

ContNomina :


2 partenaires, LIA et LORIA
porteur : LORIA (Irina Illina)
Resp LIA / Georges Linarès
Durée : 3 ans


Sujet : Contextualisations pour la reconnaissance de noms propres dans les documents diachroniques audio

Résumé :

Les technologies impliquées dans la recherche d’informations dans de grandes bases de données audio/vidéo reposent le plus souvent sur l'analyse de grands corpus fermés et sur des techniques d'apprentissage automatique et de modélisation statistique du langage écrit ou oral. L'efficacité de ces approches est maintenant unanimement reconnue mais elle présentent néanmoins des défauts majeurs, en particulier pour la prise en charge des néologismes et des noms propres, deux types d'entrées qui sont cruciales pour l'interprétation des contenus mais qu'il est extrêmement difficile de modéliser par une analyse sur des corpus fermés. Dans le cadre des données diachroniques (qui évoluent dans le temps) de nouveaux noms propres apparaissent continuellement ce qui nécessite de gérer dynamiquement les lexiques et modèles de langage utilisés par le système de reconnaissance de la parole. Le projet ContNomina se concentre sur le problème des noms propres dans les systèmes de traitement automatique des contenus audio en exploitant au mieux le contexte des documents traités. Pour ce faire, le projet s’intéressera : · à la modélisation statistique des contextes et des liens entre contextes et noms propres ;
· à la contextualisation de la reconnaissance à travers l’ajustement dynamique du
lexique et du modèle de langage, de manière à les rendre plus précis, et surtout
plus pertinents du point de vue de la couverture lexicale, en particulier en ce
qui concerne les noms propres ;
· à la détection des noms propres, d’une part dans les documents textuels pour la
constitution de liste de noms propres, d’autre part dans les sorties du système
de reconnaissance pour identifier les noms propres prononcés dans les
documents audio/vidéo.