Date : jeudi 18 janvier 2024 à 14h00
Lieu : amphithéâtre Ada Lovelace sur le campus JH Fabre
La soutenance sera suivie d’un pot dans l’ancienne BU.
Jury :
- Irina Illina, Maîtresse de Conférence, Université de Lorraine (Rapporteuse)
- Julien Velcin, Professeur, Université Lyon 2 (Rapporteur)
- Serena Villata, Directrice de Recherche, Institut 3IA Côte d’Azur (Examinatrice)
- Harold Mouchère, Professeur, Nantes Université (Examinateur)
- Vincent Labatut, Maître de Conférence, Avignon Université (Directeur de thèse)
- Richard Dufour, Professeur, Nantes Université (Co-directeur de thèse)
Titre : Combinaison des graphes et du texte pour la modélisation de conversations: Application à la détection d’abus en ligne
Résumé : Les comportements abusifs en ligne peuvent avoir des conséquences dramatiques sur les utilisateurs et les communautés. Avec l’avènement d’internet et des réseaux sociaux, personne n’est à l’abri de ce genre de comportement. Ces dernières années, de nombreux pays ont mis en place des lois visant à réduire ce type d’abus. Cependant, la responsabilité incombe principalement aux entreprises hébergant ces plateformes de discussion. Celles-ci se doivent de surveiller le comportement de ses utilisateurs afin d’éviter la prolifération de propos abusifs. Une détection et un traitement rapide des cas abusifs est un facteur important afin de réduire leur impact et leur nombre. Cependant, les plateformes en ligne ont souvent du mal à fournir les ressources nécessaires à cette détection à cause de la très grande quantité de messages postés chaque jour. Cette tâche de modération impliquant d’importants coûts humains et financiers, les entreprises ont un gros intérêt à l’automatiser. Bien que celà puisse paraître assez basique au premier abord, la détection automatique de contenu abusif se révèle assez complexe. En effet, les utilisateurs malveillants ont développé de nombreuses techniques pour tromper les méthodes automatiques. Par exemple, les propos implicites et l’utilisation de sous-entendus permettent souvent de ne pas se faire détecter par les méthodes automatiques standards. Pour contrer ce problème, il a été montré que prendre en compte le contexte dans lequel un message est posté permet d’améliorer la détection. Cependant la méthode la plus courante dans la littérature consiste à traiter des messages individuels, pris en dehors de leur contexte.
Dans ce manuscrit, on s’intéresse plus particulièrement à la combinaison du contenu et de la structure pour la détection de contenu abusif. Utiliser le contenu textuel des messages est l’approche la plus courante dans la littérature. Cette méthode présente l’avantage d’être facile à mettre en place, mais elle est aussi très vulnérable aux attaques basées sur le texte, notamment aux techniques d’obfuscation. La structure de la conversation, représentant le contexte, est beaucoup moins étudiée car elle est plus complexe à manipuler. Pourtant, elle permet d’introduire une notion de contexte qui permet de détecter des cas abusifs là où le texte seul n’en est pas capable. Ce contexte peut être modélisé sous la forme d’un graphe conversationnel représentant la conversation contenant le message étudié. En comparant deux méthodes construites à partir d’un procédé d’extraction de caractéristiques (feature engineering), nous avons montré qu’une méthode n’utilisant que des graphes conversationnels et ignorant le contenu textuel des messages était capable d’obtenir de meilleures performances. Des auteurs dans la littérature suggèrent que combiner plusieurs modalités d’information permet d’améliorer la détection de messages abusifs. À cet effet, nous proposons plusieurs stratégies pour combiner le contenu et la structure des conversations et par nos expériences, nous prouvons que celà est en effet bénéfique pour la détection.
Une limitation de ces méthodes basées sur un ensemble de mesures est qu’elle sont assez coûteuses tant en ressources informatiques qu’en temps de conception. Notre étude montre également que seule une fraction des mesures calculées sont réellement importantes pour cette tâche. Les méthodes d’apprentissage de représentations peuvent être une solution à ce problème, en permettant d’apprendre automatiquement la représentation numérique d’un message ou d’un graphe conversationnel. Pour les graphes, nous avons démontré que considérer les attributs des liens, à savoir la direction, le poids et le signe, permet d’améliorer les performances. La littérature ne proposant aucune méthode de plongement de graphe entier signé, nous comblons ce vide en développant deux méthodes de ce type. Nous les évaluons sur un benchmark nouvellement créé et constitué de trois jeux de données de graphes signés, et prouvons qu’ils obtiennent de meilleurs résultats que leurs équivalents ne prenant pas en compte les signes.
Finalement, nous menons une étude comparative de plusieurs méthodes de plongement lexical et de graphes pour la détection de messages abusifs en les appliquant à un jeu de données de conversations. Nos résultats montrent qu’elles sont plus efficaces que les méthodes se basant sur un ensemble de mesures pour le texte, et légèrement moins efficaces pour les graphes. Cependant, ces résultats restent très encourageants car ces méthodes possèdent de nombreux autres avantages tels qu’être complètement indépendantes de la tâche, plus faciles à adapter à d’autres environnements d’utilisation, et beaucoup plus efficaces en termes de temps.
Dans ce manuscrit, on s’intéresse plus particulièrement à la combinaison du contenu et de la structure pour la détection de contenu abusif. Utiliser le contenu textuel des messages est l’approche la plus courante dans la littérature. Cette méthode présente l’avantage d’être facile à mettre en place, mais elle est aussi très vulnérable aux attaques basées sur le texte, notamment aux techniques d’obfuscation. La structure de la conversation, représentant le contexte, est beaucoup moins étudiée car elle est plus complexe à manipuler. Pourtant, elle permet d’introduire une notion de contexte qui permet de détecter des cas abusifs là où le texte seul n’en est pas capable. Ce contexte peut être modélisé sous la forme d’un graphe conversationnel représentant la conversation contenant le message étudié. En comparant deux méthodes construites à partir d’un procédé d’extraction de caractéristiques (feature engineering), nous avons montré qu’une méthode n’utilisant que des graphes conversationnels et ignorant le contenu textuel des messages était capable d’obtenir de meilleures performances. Des auteurs dans la littérature suggèrent que combiner plusieurs modalités d’information permet d’améliorer la détection de messages abusifs. À cet effet, nous proposons plusieurs stratégies pour combiner le contenu et la structure des conversations et par nos expériences, nous prouvons que celà est en effet bénéfique pour la détection.
Une limitation de ces méthodes basées sur un ensemble de mesures est qu’elle sont assez coûteuses tant en ressources informatiques qu’en temps de conception. Notre étude montre également que seule une fraction des mesures calculées sont réellement importantes pour cette tâche. Les méthodes d’apprentissage de représentations peuvent être une solution à ce problème, en permettant d’apprendre automatiquement la représentation numérique d’un message ou d’un graphe conversationnel. Pour les graphes, nous avons démontré que considérer les attributs des liens, à savoir la direction, le poids et le signe, permet d’améliorer les performances. La littérature ne proposant aucune méthode de plongement de graphe entier signé, nous comblons ce vide en développant deux méthodes de ce type. Nous les évaluons sur un benchmark nouvellement créé et constitué de trois jeux de données de graphes signés, et prouvons qu’ils obtiennent de meilleurs résultats que leurs équivalents ne prenant pas en compte les signes.
Finalement, nous menons une étude comparative de plusieurs méthodes de plongement lexical et de graphes pour la détection de messages abusifs en les appliquant à un jeu de données de conversations. Nos résultats montrent qu’elles sont plus efficaces que les méthodes se basant sur un ensemble de mesures pour le texte, et légèrement moins efficaces pour les graphes. Cependant, ces résultats restent très encourageants car ces méthodes possèdent de nombreux autres avantages tels qu’être complètement indépendantes de la tâche, plus faciles à adapter à d’autres environnements d’utilisation, et beaucoup plus efficaces en termes de temps.