Indexation vidéo non-supervisée basée sur la caractérisation audiovisuelle des personnes

Date: 
11/10/2010
Heure: 
14h00
Orateur: 
Elie Khoury
Laboratoire: 
LIUM - Salle des conseils
Groupe: 
LST
Résumé du séminaire: 
Ce travail consiste à proposer une méthode de caractérisation non-supervisée des intervenants dans les documents audiovisuels, en exploitant des données liées à leur apparence physique et à leur voix. De manière générale, les méthodes d'identification automatique, que ce soit en vidéo ou en audio, nécessitent une quantité importante de connaissances a priori sur le contenu. Dans ce travail, le but est d'étudier les deux modes de façon corrélée et d'exploiter leur propriété respective de manière collaborative et robuste, afin de produire un résultat fiable aussi indépendant que possible de toute connaissance a priori. Plus particulièrement, j'ai étudié les caractéristiques du flux audio et j'ai proposé une méthode pour la segmentation et le regroupement en locuteurs. Ensuite, j'ai mené une étude approfondie sur les descripteurs visuels (visage, costume) qui m'ont servi à proposer de nouvelles approches pour la détection, le suivi et le regroupement des personnes. Enfin, le travail s'est focalisé sur la fusion audiovisuelle en proposant une approche basée sur une matrice de cooccurrence calculée sur les index audio et vidéo et d'effectuer leur correction. Ainsi un modèle audiovisuel de chaque personne peut être établi.
PDF 1: 
http://www-lium.univ-lemans.fr/sites/default/files/EKhoury_11102010_IndexationVideo.pdf