| Intitulé du stage | Extraction d’informations dans fr.wikipedia |
| Nom de la personne proposant le stage | Pierre Jourlin |
| Lieu du stage | L.I.A |
| Descriptif du stage : Le stage se situe dans le cadre d’un projet nommé ‘Les élus français dans Wikipédia’ qui sera soumis pour financement à la SFR Agorantic en octobre prochain par Pierre Jourlin (LIA) et Guillaume Marrel (LBNC).Dans le cadre d’une étude sociologique sur les « dictionnaires biographiques » des élu.e.s politiques français.e.s, nous disposons d’une version informatisée du Registre National des Élus (RNE) comme base nominative de référence : la totalité des candidats élus ou nommés sur le territoire national dans toutes les assemblées municipales, intercommunales, départementales, régionales, nationales et européenne, y sont recensés et caractérisés succinctement (nom, prénom, date de naissance, profession déclarée, nuance politique), soit environ 900000 personnes répartis sur plus de 500000 mandats, de 2001 à nos jours.
Il s’agit de croiser cette base nominative avec Wikipédia pour extraire, lorsqu’elles sont disponibles, toutes les informations biographiques concernant ces élus. Dans certains cas, ces informations sont déjà structurées sous la forme d’infoboites. Certaines sont même déjà extraites sous forme de triplets RDF (Resource Description Framework, voir Web Sémantique et dbpedia) , donc facilement exploitables sous forme relationnelle. Le croisement des données issues de dbpedia, n’est pourtant pas trivial. Par exemple, certains maire de communes de petite taille peuvent être mentionnés dans l’infoboite relative à la commune sans disposer pour autant d’une page dédiée à leur personne. Le RNE contient les informations indispensables à la jointure (nom, prénom, date de naissance), mais pas forcément dbpedia (par ex : pas de date de naissance). Or, compte-tenu de la taille du RNE et de celle du Wikipedia, il faut s’attendre à ce que chaque personne puisse avoir plusieurs homonymes répertoriés. Il faudra donc imaginer des techniques relativement sophistiquées, probabilistes ou à base de contraintes pour réaliser ces croisements. (ex : Michel Gentil, maire de Bey, dans le département de l’Ain depuis 2014, peut-il être le Michel Gentil qui possède une notice Wikipedia, député du Loiret de 1791 à 1799?). Dans d’autres cas, les informations ne sont pas du tout structurées. Il faudra alors avoir recours à des techniques de traitement automatique du langage naturel. Des outils d’annotation syntaxique automatique et d’extraction d’entités nommées sont utilisés au LIA et pourront être mis à profit pour réaliser cette tâche. Ce projet a pour but de faciliter le travail des chercheur.e.s en sociologie politique et de leur permettre de répondre à un certain nombre de questions sur les usages de Wikipédia en termes de communication politique, dont voici une liste non exhaustive : Combien d’élus du RNE disposent d’une notice biographique ? Qui sont-ils ? Quels sont leurs propriétés sociales et politiques ? Peut-on repérer des variables socio-politiques statistiquement significatives dans la distribution de cette population ? Qu’étaient-ils au moment de la création de leurs notices ? Leur notice a-t-elle évolué et comment cette évolution est-elle liée ou non aux événements de la carrière de l’individu ? Ces élus qui disposent d’une notice sont-ils cités dans d’autres notices biographiques ou non biographiques ? Si oui lesquelles ? A quelle fréquence ? Selon quelle “tonalité” ? Les élus qui ne disposent pas de notice biographiques sont-ils cités dans d’autres notices biographiques ou non biographiques ? Si oui lesquelles ? A quelle fréquence ? Comment représenter et cartographier ces informations ? Plus généralement, comment les corpus de biographies politiques se développent-ils dans la courte histoire de Wikipédia ? Quand Wikipédia devient-il un espace de publication de biographies de personnalités politiques vivantes pertinent et recherché ? Par qui et pourquoi ? Qui sont les auteurs et les correcteurs des notices ? A quels types de controverses l’écriture biographique politique donne-t-elle lieu ? Peut-on caractériser et décrire ces controverses ? Que nous apprennent ces wiki-controverses sur l’écriture biographique politique aujourd’hui ? |
|
| Thématique(s) associée(s) au stage | Web sémantique / TALN(E) |