Serial Speakers – Collection of Annotated TV Serials

Ce jeu de données contient les annotations manuelles de 3 séries télévisées :

  1. Breaking Bad : S01 à S05
  2. Game of Thrones : S01 à S08
  3. House of Cards : S01 à S02

Les trois fichiers sont au format .json et contiennent des données annotées sur les séries télévisées. Chaque série est identifiée par son nom. Une série télévisée se compose de saisons, identifiées par leurs identifiants. Chaque saison est composée d’épisodes, décrits par leurs identifiants, titres, durées et images par seconde (FPS). Chaque épisode contient deux types de données de base : les scènes et les segments de discours. Les scènes sont décrites par des points de départ et sont composées de plans (pour la saison 1 uniquement). Un plan est défini par des positions de début et de fin, ainsi que des identifiants de plan récurrents. Les segments de discours sont définis par leurs points de début et de fin, leur contenu textuel (ici chiffré pour des raisons de droits d’auteur), le locuteur et les éventuels interlocuteurs.

  • URL : https://zenodo.org/doi/10.5281/zenodo.6815775
  • Date de production : 2015–2020
  • Publication liée :
    • Xavier Bost, Vincent Labatut et Georges Linarès. « Serial Speakers : a Dataset of
      TV Series ». In : 12th Language Resources and Evaluation Conference (LREC). Marseille,
      FR, 2020, p. 4249-4257. LREChal-02477736