Représentation sémantique de l'information à l'aide de méthodes d'apprentissage automatique : applications à la parole

Date: 
17/03/2011
Heure: 
13h00
Orateur: 
Nathalie Camelin
Laboratoire: 
LIA - Avignon
Groupe: 
Parole
Résumé du séminaire: 
Ce séminaire abordera deux aspects de la représentation sémantique de l'information issue de la parole : la détection d'opinion à partir de corpus oraux et la portabilité des modules de compréhension. <p> La détection d'opinions dans un texte est un domaine de recherche en pleine expansion dans la communauté de Traitement Automatique du Langage Ecrit (TALNE) mais très peu étudié dans le domaine de la Parole. Une des principales caractéristiques de mon étude est la détection d'opinions à partir de messages vocaux, contenant de la parole complètement spontanée, collectée dans des conditions réelles. Ces conditions rendent la tâche de détection automatique d'opinions très complexe et ne permettent pas d'appliquer telles quelles les méthodes en vogue en TALNE. La stratégie proposée est inspirée de la théorie des sondages. Le but est d'estimer une distribution des proportions d'opinions aussi proche que possible de la distribution de référence. Tout d'abord, un module de Reconnaissance de la Parole spécifique extrait les expressions subjectives relatives aux opinions des utilisateurs sur une dimension particulière (efficacité, accueil, etc.); puis les messages fiables sont sélectionnés selon un ensemble de mesures de confiance. Enfin, la distribution des diverses opinions sur le corpus de test est estimée à l'aide d'une méthode de classification. </p><p>L'étude de la création de modules de compréhension automatique de la parole est étudiée depuis très longtemps. Malgré cela, ces modules sont toujours implémentés pour la résolution de la tâche visée, cela nécessite généralement beaucoup de temps et l'intervention d'« experts » humains. Au final, ces systèmes sont peu voir pas portable vers un nouveau domaine et l'ensemble des techniques appliquées est peu généralisable. L'approche étudiée pour l'adaptation d'un système existant à un nouveau domaine est double. Dans un premier temps, il est nécessaire de connaître les concepts spécifiques au domaine et ceux indépendants de l'application afin de réutiliser au mieux le système existant. Dans un second temps, il s'agit de faire émerger les concepts spécifiques à l'application. L'idée maîtresse pour une génération automatique de ces concepts est basée sur le fait qu'ils partagent souvent le même contexte (syntaxique ou lexical).</p>
PDF 1: 
http://www-lium.univ-lemans.fr/sites/default/files/NCamelin_17032011_RepresentationSemantiqueApprentissageAutomatique.pdf