NACHOS – Corpus Biomédical français

19 décembre 2023

NACHOS est un corpus biomédical français. Il est uniquement disponible pour la recherche académique. Si vous êtes intéressé, contactez Mickael Rouvier. Veuillez inclure votre nom, prénom, affiliation, coordonnées et une brève description de la manière dont vous comptez utiliser NACHOS. Site : https://drbert.univ-avignon.fr/

BRÉF – Base Révisée des Élu·es de France

4 décembre 2023

La Base de données Révisée des Élu·es de France (BRÉF) à partir d’une source principale, le Répertoire National des Élus (RNE) et de plusieurs sources secondaires, les bases de données de l’Assemblée Nationale, du Sénat et du Parlement Européen. Cette base a vocation à être étendue ultérieurement, en exploitant plus complètement ces sources secondaires, et à plus long terme en intégrant de nouvelles bases de données et des apports ponctuels. Plus d'infos

FOPPA – Base de données ouvertes d’annonces de marchés publics

1 mai 2023

La FOPPA (French Open Public Procurement Award notices) est une base de données élaborée dans le contexte du projet ANR DéCoMaP (ANR-19-CE38-0004). Elle contient les annonces de marchés publics et de leurs attributions, en France, pour la période 2010–2020. Elle est basée sur les données issues du TED (Tenders Electronic Daily, une annexe du bulletin officiel de l’UE). Celles-ci contiennent de nombreux problèmes, identifiés dans le rapport technique ci-dessous. La FOPPA a été obtenue en corrigeant un grand nombre de ces problèmes, et en augmentant les données à l’aide de sources secondaires.  Date de production : 2019–2024 Base de données librement accessible : 10.5281/zenodo.7433154  Code source utilisé pour construire la base : https://github.com/CompNet/FoppaInit/  Rapport technique décrivant le traitement effectué : Lucas Potin, Vincent Labatut, Rosa Figueiredo, Christine Largeron, Pierre-Henri Morand. FOPPA: A database of French Open Public Procurement Award notices. Research Report, Avignon Université. 2022. ⟨hal-03796734⟩ Data paper décrivant la base de données (à citer si vous les utilisez) : Lucas Potin, Vincent Labatut, Pierre-Henri Morand, Christine Largeron. FOPPA: an open database of French public procurement award notices from 2010–2020. Scientific Data 10:303 (2023). DOI: 10.1038/s41597-023-02213-z ⟨hal-04101350⟩

WAC – Wikipedia Abusive Conversations

4 décembre 2020

Ce jeu de données contient des conversations entre les éditeurs de Wikipedia, annotées en termes de divers types d’abus, au niveau des messages. Il aligne deux corpus existants : Les messages et les structures de conversation de WikiConv (https://github.com/conversationai/wikidetox/tree/master/wikiconv) Les annotations manuelles de toxicité de Wikipedia Comment Corpus (WCC — https://doi.org/10.6084/m9.figshare.4054689)   URL : https://zenodo.org/doi/10.5281/zenodo.6817092 Date de production : 2019–2020 Publication liée :  Noé Cécillon, Vincent Labatut, Richard Dufour et Georges Linarès, “WAC: A Corpus of Wikipedia Conversations for Online Abuse Detection,” in 12th Language Resources and Evaluation Conference (LREC), 2020, pp. 1375–1383. LREC ⟨hal-02497514⟩