i3S - Soutenance de thèse de Rémi Felin

Soutenance de thèse de Rémi Felin

vendredi 22 novembre 2024

par Nathalie BUTEL

Rémi Felin soutiendra sa thèse de doctorat vendredi 22 Novembre 2024 à 14h30 à Inria dans la salle Euler Violet.

Sa thèse intitulée « découverte évolutive de connaissance à partir de graphes de données RDF » a été réalisée dans le pôle SPARKS sous la direction de Andrea TETTAMANZI.

La présentation sera en anglais.

Résumé :

Les graphes de connaissance sont des collections de descriptions interconnectées d’entités (objets, événements ou concepts). Ils mettent les données en contexte par le biais de liens sémantiques, fournissant ainsi un cadre pour l’intégration, l’unification, l’analyse et le partage des données. Aujourd'hui, nous disposons d'un grand nombre de graphes de connaissance riches en données factuelles, dont la construction et l'enrichissement est une tâche relativement bien maîtrisée. Ce qui est plus difficile et plus coûteux, c'est de doter ces graphes de schémas, règles et contraintes qui permettent de vérifier leur cohérence et de déduire des connaissances implicites par raisonnement. Cette thèse présente une approche basée sur la technique d'évolution grammaticale pour la découverte automatique de nouvelles connaissances à partir d'un graphe de données représenté en RDF. Cette approche repose sur l'idée que les connaissances candidates sont générées à partir d'un mécanisme heuristique (exploitant les données du graphe), testés contre les données du graphe, et évoluent à travers un processus évolutionnaire de sorte à ce que seules les connaissances candidates les plus crédibles soient conservées. Dans un premier temps, nous nous sommes concentrés sur la découverte d'axiomes OWL qui permettent, par exemple, d'exprimer des relations entre concepts et d'inférer, à partir de ces relations, de nouvelles informations factuelles. Les axiomes candidats sont évalués à partir d'une heuristique existante basée sur la théorie des possibilités, permettant de considérer l'incomplétude des informations d'un graphe de données. Cette thèse présente les limites de cette heuristique et une série de contributions permettant une évaluation significativement moins coûteuse en temps de calcul. Cela a permis l'évaluation efficace d'axiomes candidats lors du processus évolutif, nous menant ainsi à la découverte d'un grand nombre d'axiomes candidats pertinents vis-à-vis d'un graphe de données RDF. Dans un second temps, nous avons proposé une approche pour la découverte de shapes SHACL qui expriment des contraintes que les données RDF doivent respecter. Elles sont utiles pour contrôler la cohérence (par exemple, structurelle) des données du graphe et facilitent l'intégration de nouvelles données. L'évaluation de shapes candidates repose sur l'évaluation SHACL des données vis-à-vis de ces formes, à laquelle nous ajoutons un cadre probabiliste pour prendre en compte les erreurs et l'incomplétude inhérente des graphes de données lors de l'évaluation de shapes candidates. Enfin, nous présentons RDFminer, une application Web open-source permettant d'exécuter notre approche pour découvrir des axiomes OWL ou des formes SHACL à partir d'un graphe de données RDF. L'utilisateur peut contrôler l'exécution et analyser les résultats en temps réels à travers une interface graphique interactive. Les résultats obtenus montrent que l'approche proposée permet de découvrir un large ensemble de nouvelles connaissances crédibles et pertinentes à partir de graphes de données RDF volumineux.