Enseignement


Le but du projet est de développer un moteur de recherche dans des grandes bases d'images, pour lequel l'interaction entre l'utilisateur et le moteur est piloté à l'aide d'une Kinect de Microsoft. Inspiré par ce qui se fait pour la manipulation des nouveaux écrans plats (http://www.youtube.com/watch?NR=1&feature=endscreen&v=5C1nADiC6OE), des développements ont déjà permis de reproduire ces fonctionnalités grâce à une Kinect (http://www.youtube.com/watch?v=bCuetTWdaJQ).

Dans ce projet nous allons adopter le même type d'Interface Homme-Machine pour qu'un utilisateur puisse fouiller dans une base d'images par de simples gestes et retrouver toutes les images de chats ou de bus ou autre qui se trouvent dans la base.

Pour ce faire, il faudra implémenter les algorithmes d'apprentissage automatique qui permettronnt de classifier les images de la base (on s'appuiera pour ça sur l'étude des SVMs réalisée en cours mais on pourra bien sûr considérer aussi les Randoms Forests). Il faudra extraire des caractéristiques visuelles (couleur, texture, contours…) à mettre en entrée des SVMs ou des Random Forests.

Enfin, il faudra implémenter différentes stratégies interactives pour otpimiser la recherche en fonction des interactions de l'utilisateur avec le moteur. On espère avoir un résultat proche de http://retin.ensea.fr/ mais piloté par une kinect.

De nombreuses extensions sont possibles, comme par exemple de déterminer une région dans une image avec les doigts pour rechercher toutes les images qui ont des régions similaires, dessiner une forme à retrouver dans les images…


Le but du projet est de développer un système de reconnaissance de l'activité humaine. Que ce soit pour le maintient à domicile de personnes âgées, l'aide aux personnes handicapées, ou pour l'analyse et l'indexation des données vidéos, ce domaine de recherche et de développement industriel est en plein essor. En témoignent l'école d'été organisée à Sophia Antipolis au début du mois d'Octobre “Human Activity and Vision Summer School” qui a regroupé des chercheurs internationaux du domaine (http://www.multitel.be/events/human-activity-and-vision-summer-school/home.php) ou les “épreuves” du Multimedia Grand Challenge depuis 4 ans (http://sigmm.org/records/records1201/featured04.html).

Si depuis 4 ans, des travaux très intéressants ont été réalisés par des chercheurs chevronnés (http://www.di.ens.fr/~laptev/actions/) avec des résultats souvent bluffants sur des données multimédia, le problème se complique quand on s'attaque à la reconnaissance d'action en “direct live”.

En exploitant le potentiel informatif de la Kinect, il est sans aucun doute possible d'améliorer les résultats actuels, encore faut il être capable d'apprendre à partir des données hétérogènes fournies par la Kinect (vidéo, 3D, squelette…) pour en extraire une information globale pertinente. C'est l'objectif de ce projet.

Pour ce faire, il faudra implémenter les algorithmes d'apprentissage automatique qui permettront de classifier les vidéos acquises (on s'appuiera plutôt sur des approches par Randoms Forests qui permettront de fusionner les décisions intermédiaires et de combiner les décisions sur des données hétérogènes). Il faudra extraire des caractéristiques visuelles (mouvement, parties du corps, infos 3D…) à mettre en entrée des Random Forests.

De nombreuses extensions sont possibles, comme par exemple de créer un logiciel de cours de danse qui pourra reconnaître si les séquences de pas ont été respectées ou bien exécutées… Vous pourrez alors laisser libre court à votre imagination.