Soutenance de thèse de Hadi NASSER

Hadi NASSER, soutiendra sa thèse le mardi 18 Novembre 2025 à 15h dans la salle 007 (Les Algorithmes - bât. Euclide B).

La thèse intitulée « Recherche d’information orientée objectif : Modélisation des connaissances, estimation de gain et classement adaptatif dans le cadre de la recherche en tant qu’apprentissage » a été réalisée dans le pôle SPARKS, sous la direction de Célia DA COSTA PEREIRA.

La présentation sera en anglais.

Résumé :

Cette thèse explore la recherche d'information orientée objectifs au sein du paradigme de la recherche comme processus d’apprentissage (Search as Learning), en introduisant des méthodes permettant d’estimer et de favoriser le développement des acquis de l’utilisateur. Au cœur de ce travail se trouve le développement de modèles d’estimation du gain de connaissances, visant à suivre l’évolution de l’état de savoir de l’utilisateur en fonction d’un objectif à atteindre. Pour représenter ce savoir, nous proposons une approche fondée sur les graphes de connaissances, qui offrent une sémantique plus riche et une structure plus explicite que les représentations vectorielles classiques. Cette représentation graphique permet une comparaison à la fois structurelle et sémantique, tout en renforçant l’interprétabilité et en facilitant l’inférence logique via des ontologies. En nous appuyant sur l’importance des objectifs d’apprentissage dans les modèles d’estimation, nous abordons également une limitation majeure des approches existantes : la leur dépendance à des objectifs prédéfinis. Nous proposons une méthode innovante permettant d’estimer le gain de connaissance en inférant automatiquement les objectifs d’apprentissage à partir de la requête de l’utilisateur. Cette inférence repose sur le regroupement des documents récupérés suite à une requête, afin de générer des représentations de sous-thèmes. Des retours implicites, tels que les clics de l’utilisateur, permettent alors d’identifier le sous-thème qui l’intéresse, rendant ainsi l’inférence des objectifs possible dans des scénarios réalistes sur le Web ouvert. L’évaluation conduite sur 10 sujets de recherche montre une corrélation positive entre le gain estimé et le gain réel, avec une amélioration supplémentaire lorsqu’on intègre les connaissances préalables de l’utilisateur, permettant ainsi une modélisation plus personnalisée. Enfin, nous intégrons l’estimation du gain de connaissances dans un cadre de recherche d’information en deux étapes. La première étape récupère des documents à l’aide de méthodes « sparses » ou « denses ». La seconde réorganise les résultats en fonction de leur contribution estimée aux objectifs d’apprentissage de l’utilisateur. Nous évaluons différentes configurations, incluant la modélisation des connaissances basée sur des mots-clés ou sur des modèles de langage basés sur BERT, ainsi que des objectifs d’apprentissage prédéfinis ou inférés depuis les requêtes. Les résultats expérimentaux montrent que le reclassement basé sur la connaissance surpasse systématiquement les approches de recherche traditionnelles, en particulier lorsque la recherche et la modélisation sémantique sont combinées à une définition précise des objectifs. Ce travail comble ainsi le fossé entre la recherche d'information traditionnelle et la Recherche en tant qu’Apprentissage, en proposant des expériences de recherche personnalisées, guidées par les objectifs et sensibles aux besoins d’apprentissage des utilisateurs.