Défense de thèse de Nicolás Benjamín OCAMPO

Nicolás Benjamín OCAMPO défendra sa thèse de doctorat le jeudi 5 juin 2025 à 9h30 dans la salle Euler Violet au Centre Inria d'Université Côte d'Azur. 

Sa thèse intitulée « Démasquer les Discours Haineux Implicites et Subtils : Approches du TALN pour Détecter et Contrer les Préjudices en Ligne » a été réalisée dans le pôle SPARKS sous la direction de Elena CABRIO et co-dirigée par Serena VILLATA.

 

Résumé :

La recherche sur la détection de contenus abusifs sur les réseaux sociaux s'est principalement focalisée sur les discours de haine explicites, qui sont plus faciles à identifier en raison de la présence d'un langage manifestement haineux. Cependant, les formes implicites de discours de haine telles que la périphrase, la métaphore et le sarcasme, posent des défis importants pour les systèmes de détection automatique. Bien que ces expressions implicites puissent sembler moins nuisibles, elles sont tout aussi néfastes et peuvent attiser des récits nocifs. Cette thèse apporte plusieurs contributions pour relever ces défis : i) Analyse des données sur les discours de haine implicites et subtils en relation avec d'autres phénomènes de langage abusif. ii) Introduction d'ISHate, un jeu de données précisément annoté avec des labels de haine implicites et subtils, à partir de sept jeux de données existants . iii) Proposition de neuf méthodes pour générer des données synthétiques en utilisant des perturbations d’entrée (input perturbations) ainsi qu’une méthode supplémentaire exploitant un modèle GPT-2 fine-tuné. iv) Développement d’une approche novatrice pour générer des instances de discours de haine contradictoires en utilisant la recherche par faisceau contraint (constrained beam search). v) Proposition de trois nouvelles approches de détection de messages haineux: une approche Build-It-Break-It-Fix-It (BIBIFI) utilisant un entraînement incrémental avec des exemples synthétiques de discours de haine implicite difficiles ; ContBERT et ContHateBERT, qui exploitent l’apprentissage contrastif (contrastive learning) pour améliorer la représentation des discours de haine implicites en s’appuyant sur des étiquettes cibles ; ISContBERT et ISContHateBERT, qui affinent davantage l’apprentissage contrastif en reliant les messages implicites à des messages explicites via leurs représentations d’énoncés sous-entendus. Ces méthodes visent à combler l’écart entre les discours de haine implicites et explicites, afin que les messages implicites soient correctement classifiés. vi) Exploration de stratégies pour la détection et l’explication des discours de haine en utilisant des grands modèles de langage (Large Language Models, LLMs) dans des configurations zero-shot, few-shot et fine-tuning. Nous examinons également la manière dont les LLMs réagissent lorsqu’ils sont guidés par des informations issues des modèles de détection, telles que les tokens d’attention de BERT, les labels prédits, les probabilités et les représentations des énoncés sous-entendus. vii) Intégration de nos résultats dans un système appelé PEACE (Providing Explanations and Analysis for Combating hate Expressions), qui unifie l'analyse explicative, la détection et l'interprétabilité pour des discours de haine. viii) Exploration du contre-discours comme stratégie d'intervention, en générant des réponses non agressives qui contrent les discours de haine par des arguments factuels et des points de vue alternatifs. Nous évaluons notamment si des LLMs sans garde-fous améliorent la qualité du contre-discours et si l’accent mis sur la structure argumentative des messages haineux renforce l’efficacité du contre-discours. Nos résultats suggèrent que l’intégration des structures de messages implicites et l’identification des éléments haineux dans un texte peuvent améliorer la génération de contre-discours. Cette thèse ouvre le chemin de futures recherches interdisciplinaires sur les discours de haine implicites, un problème souvent considéré comme résolu mais qui demeure un enjeu complexe et persistant dans les échanges en ligne.