Ce jeu de données contient des conversations entre les éditeurs de Wikipedia, annotées en termes de divers types d’abus, au niveau des messages. Il aligne deux corpus existants :
- Les messages et les structures de conversation de WikiConv (https://github.com/conversationai/wikidetox/tree/master/wikiconv)
- Les annotations manuelles de toxicité de Wikipedia Comment Corpus (WCC — https://doi.org/10.6084/m9.figshare.4054689)
- URL : https://zenodo.org/doi/10.5281/zenodo.6817092
- Date de production : 2019–2020
- Publication liée :
- Noé Cécillon, Vincent Labatut, Richard Dufour et Georges Linarès, “WAC: A Corpus of Wikipedia Conversations for Online Abuse Detection,” in 12th Language Resources and Evaluation Conference (LREC), 2020, pp. 1375–1383. LREC ⟨hal-02497514⟩