Soutenance de thèse de Luis-Gil Moreno-Jiménez – 18 novembre 2022

Date : 18 novembre à 14h.

Lieu : salle de thèses du campus Hanna Arendt (Centre ville).

Le jury est composé de:

  • Mme B Daille et M G Reyes; rapporteurs
  • M R Elazouzi, M A Doucet, Mme P Sébillot, M R Perez, M L Meneses; examinateurs
  • M J-M Torres, et  Mme R Wedemann; Co-directeurs

Résumé : Dans cette thèse nous abordons de manière générale l’étude de la créativité, avec un intérêt particulier pour la manière dont elle est créée à l’aide de dispositifs artificiels, et nous présentons un traitement plus ciblé et plus formel de la génération artificielle de texte littéraire. Dans << The creative mind : Mythes and mécanismes >> (Boden, 2004), Margaret Boden explique que le processus créatif est un chemin intuitif suivi par les humains pour générer de nouveaux artefacts qui sont appréciés pour leur nouveauté, leur importance pour la société et leur beauté. Elle propose une classification de la créativité dans les trois catégories suivantes :
— Créativité combinatoire, où des éléments connus sont fusionnés pour la génération de nouveaux éléments ;
— Créativité exploratoire, où la génération se fait à partir de l’observation ou de l’exploration ; et
— Créativité transformationnelle, où les éléments générés sont le produit de modifications ou d’expériences appliquées aux objets produits par la créativité exploratoire.

La recherche de processus automatisés capables de générer des artefacts de manière créative a récemment donné naissance à un domaine de recherche appelé Créativité computationnelle, qui offre des perspectives intéressantes dans divers domaines artistiques tels que les arts visuels, la musique et la littérature. Bien que des avancées significatives aient été réalisées dans ce domaine, il existe des difficultés et des limites liées à la complexité inhérente à la compréhension du processus créatif chez l’humain.
Notre objectif principal dans cette étude concerne la Génération Automatique de Texte (GAT) et, plus particulièrement, la génération de phrases littéraires. Nous visons donc le problème du développement de techniques automatiques (algorithmes) pour générer des objets linguistiques qui sont des phrases ou des parties de paragraphes qui peuvent être perçues comme appartenant à un texte littéraire. La plupart des recherches concernant la GAT évitent le genre littéraire en raison de sa complexité. Certaines difficultés fondamentales concernent l’ambiguïté du sens et même l’absence d’une définition universelle de ce qu’est un texte littéraire. Également, les documents littéraires font souvent référence à des mondes ou des situations imaginaires ou allégoriques, contrairement aux genres qui traitent de la communication écrite de faits. Ces caractéristiques et d’autres, comme l’élégance ou l’utilisation de mots rares dans la littérature, font de la génération et de l’analyse automatiques de textes littéraires une tâche complexe et difficile.

En raison des difficultés évoquées et afin d’aborder le problème de la GAT de manière réalisable, nous partons d’un point de vue pragmatique et nous adoptons une définition opérationnelle de ce qu’est une phrase littéraire, basée sur la structure des corpora littéraires. Nous considérons ainsi qu’une phrase est littéraire, si elle est possède une structure grammaticale et un vocabulaire existant dans un corpus suffisamment large et considéré comme littéraire par les personnes. Pour atteindre nos objectifs, nous avons collecté des textes littéraires et constitué trois corpora en français, espagnol et portugais, composés exclusivement de documents littéraires, tels que des romans, des nouvelles, des récits, du théâtre et poésie.

Nous présentons dans cette thèse une nouvelle approche pour la génération de phrases littéraires. Notre proposition est basée sur trois nouveaux corpora littéraires que nous avons construits, ainsi que des techniques de réseaux de neurones artificiels, des modèles de langage et une d’analyse syntaxique superficielle. Nos modèles GAT analysent les corpora littéraires afin d’extraire et d’exploiter leurs structures grammaticales, sémantiques et linguistiques. Nous avons également considéré la génération de rimes (assonante et consonante), en tenant compte la rime sémantique. Nous avons également proposé plusieurs protocoles d’évaluation manuelle, permettant de mesurer la qualité des phrases générées par nos modèles GAT littéraires. Les résultats que nous avons obtenus sont assez encourageants. Nos systèmes génèrent des phrases  grammaticalement correctes et suffisamment cohérentes, perçues comme littéraires dans une bonne mesure. De plus, ces résultats soutiennent notre affirmation (notre hypothèse) selon laquelle il est possible de générer, à partir de structures de phrases littéraires connues, de nouvelles phrases avec une nouvelle sémantique, et en tenant compte également de la signification émotionnelle des textes d’origine.