Offre de Stage: Génération de textes simulant le mal-être psychologique par modèles de langage génératifs

Informations générales

Durée : 6 mois

Début : à partir de janvier 2026, au plus tard février 2026

Lieu : Université d’Avignon – LIA – Campus

Contexte et données

De nombreux acteurs de la prévention (écoutants, médecins, travailleurs sociaux…) se trouvent confrontés à des personnes exprimant leur détresse ou un mal-être profond. Disposer d’outils simulant diverses formes d’expression du mal-être offrirait des outils précieux pour entraîner des professionnels, tester des dispositifs de détection, ou encore sensibiliser des tiers à ce type de situations.

Grâce à l’essor des grands modèles de langage (LLM), il est désormais envisageable de créer des outils capables de générer automatiquement des exemples réalistes et diversifiés de discours de personnes en souffrance, tout en maîtrisant la confidentialité (solution offline).

Données

Les données utilisées dans le cadre de ce stage proviendront notamment du jeu de données Suicide and Depression Detection disponible sur Kaggle. Ce corpus, collecté en utilisant l’API Pushshift, contient plusieurs centaines de milliers de messages souvent authentiques exprimant détresse, souffrance ou idées suicidaires. Il constitue une ressource de référence pour les travaux récents en détection ou simulation de discours liés au mal-être psychologique.

Objectif du stage

L’objectif principal du stage sera de concevoir un prototype de génération de textes exprimant de façon réaliste différents degrés de mal-être psychologique. Les différentes étapes envisagées sont :

  • Un état de l’art sur les méthodes et modèles génératifs de langage (LLM ou modèles plus légers) appliqués à la génération de dialogues simulant des états psychologiques (particulièrement des solutions offlines et open sources).
  • La mise en œuvre du finetuning de ces modèles sur le jeu de données Kaggle mentionné, en veillant à l’équilibre entre réalisme, diversité des profils psychologiques et sécurité/déontologie.
  • La conception et l’évaluation d’un prototype de modèle finetunnés capable de générer, à la demande, des textes caractérisant plusieurs profils de mal-être.
  • L’évaluation de la pertinence et des limites du modèle.

Candidature

Le ou la candidat·e devra être inscrit·e en Master 2 Informatique (ou équivalent), avec de solides connaissances en intelligence artificielle et traitement du langage naturel. Un intérêt marqué pour l’IA responsable et les applications interdisciplinaires (psychologie, éthique) sera apprécié.

Merci d’adresser vos candidatures (CV, lettre de motivation, relevé de notes Bac+4) avant le 15/12/2026 à remy.kessler@univ-avignon.fr et nicolas.bechet@irisa.fr.

Références bibliographiques

[1] Présentation du dataset Kaggle : Suicide and Depression Detection : https://www.kaggle.com/datasets/nikhileswarkomati/suicide-watch

[2] EmoSApp: An Offline Mobile Conversational Agent for Mental Health Support : https://arxiv.org/html/2507.10580v1

[3] Eeyore: Realistic Depression Simulation via Expert-in-the-Loop Supervised and Preference Optimization : https://aclanthology.org/2025.findings-acl.707.pdf

[4] Secure and Private Offline Mental-Health Analysis Using Open Lightweight LLMs with RAG : https://isate.sakura.ne.jp/wp_system/wp-content/uploads/2025/09/03-46-ST3-2JP_07.pdf

[5] A Systematic Evaluation of LLM Strategies for Mental Health Text Analysis: Fine-tuning vs. Prompt Engineering vs. RAG : https://arxiv.org/html/2503.24307v1

[6] MentaLLaMA: Interpretable Mental Health Analysis on Social Media with Large Language Models : https://arxiv.org/abs/2309.13567

[7] Mental-LLM: Leveraging Large Language Models for Mental Health Prediction Tasks : https://dl.acm.org/doi/10.1145/3643540

Autres datasets

[8] https://arxiv.org/html/2507.11559v1

[9] https://github.com/SteveKGYang/MentalLLaMA/tree/main (dataset de [6])