WAC – Wikipedia Abusive Conversations

Ce jeu de données contient des conversations entre les éditeurs de Wikipedia, annotées en termes de divers types d’abus, au niveau des messages. Il aligne deux corpus existants :

  1. Les messages et les structures de conversation de WikiConv (https://github.com/conversationai/wikidetox/tree/master/wikiconv)
  2. Les annotations manuelles de toxicité de Wikipedia Comment Corpus (WCC — https://doi.org/10.6084/m9.figshare.4054689)

 

  • URL : https://zenodo.org/doi/10.5281/zenodo.6817092
  • Date de production : 2019–2020
  • Publication liée : 
    • Noé Cécillon, Vincent Labatut, Richard Dufour et Georges Linarès, “WAC: A Corpus of Wikipedia Conversations for Online Abuse Detection,” in 12th Language Resources and Evaluation Conference (LREC), 2020, pp. 1375–1383. LREChal-02497514