Seminaires

Tous les mois, le LIUM invite des chercheurs pour qu’ils présentent leurs travaux à l’équipe.

Les séminaires concernent essentiellement les Environnements Informatiques pour l’Apprentissage Humain, la reconnaissance de la parole et la traduction automatique mais l’équipe accueille volontiers des chercheurs d’autre domaine, pouvant mener à des partenariats. Ces séminaires sont aussi l’occasion de discuter de ses travaux et tester ses prototypes avec une équipe de passionnés qui ne manquera pas de vous faire des retours constructifs.

Les séminaires ont lieu soit à Laval, soit au Mans et sont retransmis en direct sur l’autre site.

N’hésitez pas à contacter Iza Marfisi (iza.marfisi@univ-lemans.fr) ou Loïc Barrault (loic.barrault_AT_univ-lemans.fr) si vous souhaitez participer !

seminaries LIUM 1 seminaries LIUM 2 seminaries LIUM 3


Détection automatique de l'ironie dans les contenus générés par les utilisateurs
  Jihen Karoui (LIUM - LST)
  Le 24/11/2017 à 11h00
Résumé du séminaire : L’analyse des sentiments est un domaine de recherche extrêmement actif en traitement automatique des langues (TAL). En effet, ces dernières années ont vu se multiplier les sources de données textuelles porteuses d'opinion disponibles sur le web : avis d'internautes, de plus en plus centralisés par les moteurs de recherche, forums, réseaux sociaux, enquêtes consommateurs effectuées par les grandes marques, etc. Devant cette abondance de données et de sources, l'automatisation de la synthèse des multiples avis devient cruciale pour obtenir efficacement une vue d'ensemble des opinions sur un sujet donné. L'intérêt de ces données est considérable pour les sociétés qui souhaitent obtenir un retour client sur leurs produits comme pour les personnes souhaitant se renseigner pour un achat, une sortie, ou un voyage.

Depuis les années 2000, un grand nombre de travaux ont été publiés sur le sujet, faisant de l’extraction d’opinion un domaine très actif dans la recherche en TAL. Globalement, les systèmes actuels ont obtenus de bons résultats sur la classification automatique du caractère subjectif ou objectif d’un document. En revanche, ceux obtenus sur la tâche d’analyse de polarité (qui consiste à classer le document sur une échelle de subjectivité allant du plus positif au plus négatif) restent encore peu concluants. La raison principale de cet échec est l’incapacité des algorithmes actuels à comprendre toutes les subtilités du langage humain, telles que l’usage du langage figuratif.

Contrairement au langage littéral, le langage figuratif exploite quelques dispositifs linguistiques tels que l'ironie, l'humour, le sarcasme, la métaphore, l'analogie, etc., afin de communiquer des significations indirectes qui, habituellement, ne sont pas interprétables en décodant simplement des informations syntaxiques ou sémantiques. Ceci entraîne une difficulté au niveau de la représentation linguistique ainsi qu’au niveau du traitement automatique du langage figuratif. Dans le cadre de cette thèse, nous nous focalisons sur l’ironie et le sarcasme avec un type particulier de données à savoir les tweets.

Dans ce cadre, nous proposons une approche par apprentissage supervisé afin de prédire si un tweet est ironique ou pas. Pour ce faire, nous avons suivi une démarche en trois étapes. Dans un premier temps, nous nous sommes intéressés à l’analyse des phénomènes pragmatiques utilisés pour exprimer l’ironie en nous inspirant des travaux en linguistique afin de définir un schéma d’annotation multi-niveaux pour l’ironie. Ce schéma d’annotation a été exploité dans le cadre d’une campagne d’annotation d’un corpus formé de 2000 tweets français. Dans une deuxième étape, en exploitant l’ensemble des observations faites sur le corpus annoté, nous avons développé un modèle de détection automatique pour les tweets en français qui exploite à la fois le contexte interne du tweet à travers des traits lexicaux et sémantiques et le contexte externe en recherchant des informations disponibles sur le web. Enfin, dans la troisième étape, nous avons étudié la portabilité du modèle pour la détection de l’ironie dans un cadre multilingue (italien, anglais et arabe). Nous avons ainsi testé la performance du schéma d’annotation proposé sur l’italien et l’anglais et nous avons testé la performance du modèle de détection automatique à base de traits sur la langue arabe.

Les résultats obtenus pour cette tâche extrêmement complexe sont très encourageants et sont une piste à explorer pour l'amélioration de la détection de polarité lors de l'analyse de sentiments.

Mot(s)-clé(s) : Opinion, opinion implicite, langage figuratif, ironie, sarcasme, schéma d’annotation.


Pérégrinations de recherche : de l'Ingénierie des Connaissances au Learning Analytics en direction du Big Data
  Olivier Champalle (ATER au LIUM) (LIUM - EIAH)
  Le 11/01/2017 à 10h30
Résumé du séminaire : Les traces numériques d'activités sont le reflet d'une activité ou d'activités en cours ou passées concernant des entités humaines ou non. Elles peuvent être exploitées dans un but d'analyse, de compréhension voir d'apprentissage automatique. Dés lors elles sont "sources de connaissances »... à condition d'utiliser les bons outils et les bons modèles de connaissances ! Ces réflexions sont le centre d'intérêt de l'Ingénierie des Connaissances "Tracées" et le sujet de mes recherches. Dans ce séminaire je présenterais deux aspects de l'IC tracée.

J'ai gardé de ces deux expériences un intérêt pour le traitement des données et souhaiterais poursuivre mes recherches dans ce domaine avec une orientation EIAH. Je vous propose d'en discuter par la suite.

http://liris.cnrs.fr/d3kode/D3KODE/D3KODE_Presentation.html

PDF

Modélisation et évaluation de l’expérience utilisateur en environnement virtuel immersif
  Katy Tcha-Tokey, doctorante au Laboratoire Presence & Innovation (Arts et Métiers ParisTech) (LIUM - EIAH)
  Le 20/04/2016 à 10h30
Résumé du séminaire : L’engouement pour les technologies et les périphériques de la réalité virtuelle tels que l’Oculus, le Cave Automatic Virtual Environment (CAVE), les dômes ou les simulateurs, pousse les chercheurs à s’y intéresser dans le but de les améliorer afin que « l’illusion » du monde virtuel soit totale. Cependant, peu de modèles proposés dans la littérature aujourd’hui font référence à l’expérience utilisateur ou User eXperience (UX) en Environnement Virtuel Immersif (EVI) et ceux qui y font référence ne prennent pas en compte la totalité des facettes de l’expérience utilisateur. C’est dans ce cadre que la thèse « Modélisation et évaluation de l’expérience utilisateur en environnement virtuel immersif » prend racine. Nous décidons de répondre à cette problématique à travers la formalisation d'un modèle holistique de l’expérience utilisateur dans un environnement virtuel immersif, de la proposition d'une méthode de mesure de cette expérience et enfin de la validation de cette méthode et de notre modèle. Bien que nous nous intéressions aux principaux domaines de la réalité virtuelle (divertissement, éducation ou apprentissage et jeux ayant une composante d'apprentissage tels que les jeux sérieux ou ludo-éducatifs), nous réalisons dans un premier temps nos expérimentations autour d'un jeu de tir ayant une composante d'apprentissage.


Adaptation de Serious Games par les enseignants
  Bertrand Marne, (LIP6, équipe MOCAH) (LIUM - EIAH)
  Le 01/07/2015 à 10h30


Extracting domain ontologies from reference books
  Simon Carolan (Ecole centrale de Nantes) (LIUM - EIAH)
  Le 17/12/2014 à 10h30


Programmation par démonstration avec AlgoTouch
  Patrice Frison (IRISA, UBS à Vannes) (LIUM - EIAH)
  Le 19/11/2014 à 10h00


Nouveaux modes de financement du programme européen Horizon 2020
  Laeticia Pennuen (service Europe et recherche, Université du Maine)  (LIUM - EIAH)
  Le 22/10/2014 à 10h30


Applications of Machine Translation
  Mercedes Garcia Martinez (LIUM - Traduction)
  Le 10/04/2014 à 10h30

PDF

Approche unifiée pour la compréhension et la traduction de la parole dans le cadre de la portabilité des systèmes de dialogue
  Jabaian, B. (LIA)
  Le 05/04/2013 à 11h30
Résumé du séminaire : La généralisation de l'usage des systèmes de dialogue homme-machine accroît la nécessité du développement rapide des différents composants de ces systèmes. Les systèmes de dialogue peuvent être conçus pour différents domaines d'application et dans des langues différentes. La nécessité d'une production rapide pour de nouvelles langues reste un problème ouvert et crucial auquel il est nécessaire d'apporter des solutions efficaces. Mes travaux s'intéressent particulièrement au module de compréhension de la parole et proposent des approches pour la portabilité rapide peu coûteuse de ce module. Les méthodes statistiques ont montré de bonnes performances pour concevoir les modules de compréhension de la parole pour l'étiquetage sémantique de tours de dialogue. Cependant ces méthodes nécessitent de larges corpus pour être apprises. La collecte de ces corpus est aussi coûteuse en temps et en expertise humaine. Nous avons proposé plusieurs approches pour porter un système de compréhension d'une langue vers une autre en utilisant les techniques de la traduction automatique. Les premiers travaux consistent à appliquer la traduction automatique à plusieurs niveaux du processus de portabilité du système de compréhension afin de réduire le coût lié à production de nouvelles données d'apprentissage. Les résultats expérimentaux montrent que l'utilisation de la traduction automatique permet d'obtenir des systèmes performant avec un minimum de contribution humaine. Ces travaux traitent donc à la fois de la traduction automatique et de la compréhension de la parole. Nous avons effectué une comparaison approfondie entre les méthodes utilisées pour chacune des tâches et nous avons proposé un décodage conjoint basé sur une méthode discriminante qui à la fois traduit une phrase et lui attribue ses étiquettes sémantiques. Ce décodage est obtenu par une approche à base de graphe qui permet de composer un graphe de traduction avec un graphe de compréhension. Cette représentation peut être généralisée pour permettre des transmissions d'informations riches entre les composants du système de dialogue.


A Multi-Domain Translation Model Framework for Statistical Machine Translation
  Rico Sennrich (LIUM - Traduction)
  Le 04/12/2012 à 10h00


The MANY MT System Combination Tool at the ML4HMT Workshop Shared Task
  Patrik Lambert (LIUM - LST)
  Le 16/11/2011 à 11h00
Résumé du séminaire : Hybrid Machine Translation (HMT) has received some interest recently, with two workshops dedicated on the topic (18-19 November 2011): LIHMT (International Workshop on Using Linguistic Information for Hybrid Machine Translation) and the co-located ML4HMT (Shared Task on Applying Machine Learning techniques to optimising the division of labour in Hybrid MT). The aim of the LIHMT workshop is to promote corpus-based methods and technologies that combine resources and algorithms from the three general approaches to MT: rule-based (RBMT), example-based (EBMT) and statistical (SMT). One line of research in this topic is the combination of outputs from RBMT, EBMT and SMT systems. Along this line, the objective of the ML4HMT shared task is to investigate whether MT System Combination techniques could benefit from extra information (linguistically motivated, decoding and runtime) from the different systems involved. As a baseline, the ML4HMT shared task organizers considered the combination of plain text outputs (with no extra information) with state-of-the-art open-source system-combination systems, namely MANY [Barrault, 2010] and CMU-MEMT [Heafierld & Lavie, 2010]. This talk, which will also be given at ML4HMT, will focus on the following points: present the MANY MT combination system, present the results obtained for the shared task baseline and try to give some hints of ways to usefully introduce extra information from the different systems.


Introduction au chinois moderne et à son traitement automatique
  Huei-Chi Lin (Bitong - Université Catholique de Louvain)
  Le 15/11/2011 à 11h00
Résumé du séminaire : Cette communication porte une vision globale sur le chinois mandarin moderne et le développement de l’analyse automatique de cette langue. Ce développement permet de reconnaître, dans un corpus, les unités lexicales, les catégories de mots chinois, les syntagmes, les entités nommées, etc. Les points élaborés de cette communication sont comme suit :

Pour conclure, nous montrerons une application des ressources linguistiques. Ici, il s’agit d’une étude thématique des textes littéraires du XXe siècle.


Injected Linguistic Tags to Improve Phrase Based SMT
  Waleed Oransa (IBM - Egypt (Le Caire))
  Le 16/09/2011 à 10h30
Résumé du séminaire : Statistical machine translation (SMT) has proven to give good results between languages with high similarity in morphological and grammatical nature, However, SMT still needs improvements when used to translate text between languages that have different morphology and syntax structure, especially between poor and rich morphological languages like English and Arabic.
In this seminar, Injected Linguistic Tags approach is presented which improves the phrase based statistical machine translation (PBSMT). This approach has been applied to "English to Arabic translation". The Injected Tags (ITs) approach is language independent and can be used with any language pair. The proposed approach incorporating English-Arabic languages using the state-of-the-art PBSMT system is presented. This approach presents a method to enrich and expand the SMT parallel corpus to allow more capabilities and vocabularies. The proposed approach has been evaluated and a comparison between its results with several online MT services has been presented. It has shown good improvement of the translation quality of at least 13% increase of BLEU score. The experiments reveal that the results achieved by this approach considered significant enhancements over PBSMT. Further more, the experiments show that for the translation system that uses the proposed approach, an increases of the noun/verb gender-number agreement of the translated text are recorded


Statistical Machine Translation: ongoing research
  Marta Ruiz Costa-jussà (Barcelona Media Innovation Center - LST)
  Le 27/05/2011 à 9h30
Résumé du séminaire : In this talk, we will mainly present our most recent on-going research in statistical machine translation. Firstly, we will describe a novel approach to introduce source context information in a phrase-based statistical machine translation system. This approach introduces a feature function inspired in the popularly known vector-space model which is typically used in information retrieval and text mining applications. This feature function aims at improving translation unit selection at decoding time. Significant improvements are shown on an English-Spanish experimental corpus. Secondly, we will present our experiments on statistical chunking which allow to enrich a phrase-based system with novel segmentations.These novel segmentations are computed using statistical measures such as Log-likelihood, T-score, Chi-squared, Dice, Mutual Information or Gravity-Counts. Experimental results are reported on the French-to-English IWSLT 2010 task where our system was ranked 3rd out of nine systems. Finally, we will talk about a non-linear semantic mapping procedure implemented for cross-language text matching at the sentence level. The method relies on a non-linear space reduction technique which is used for constructing semantic embeddings of multilingual sentence collections. In the proposed method, an independent embedding is constructed for each language in the multilingual collection and the similarities among the resulting semantic representations are used for cross-language matching. It is shown that the proposed method outperforms other conventional cross-language information retrieval methods.


Modélisation acoustique : application à la transcription et à la reconnaissance du locuteur
  Christophe Lévy (LIA - Avignon - Parole)
  Le 17/03/2011 à 14h30

PDF

Représentation sémantique de l'information à l'aide de méthodes d'apprentissage automatique : applications à la parole
  Nathalie Camelin (LIA - Avignon - Parole)
  Le 17/03/2011 à 13h00
Résumé du séminaire : Ce séminaire abordera deux aspects de la représentation sémantique de l'information issue de la parole : la détection d'opinion à partir de corpus oraux et la portabilité des modules de compréhension.

La détection d'opinions dans un texte est un domaine de recherche en pleine expansion dans la communauté de Traitement Automatique du Langage Ecrit (TALNE) mais très peu étudié dans le domaine de la Parole. Une des principales caractéristiques de mon étude est la détection d'opinions à partir de messages vocaux, contenant de la parole complètement spontanée, collectée dans des conditions réelles. Ces conditions rendent la tâche de détection automatique d'opinions très complexe et ne permettent pas d'appliquer telles quelles les méthodes en vogue en TALNE. La stratégie proposée est inspirée de la théorie des sondages. Le but est d'estimer une distribution des proportions d'opinions aussi proche que possible de la distribution de référence. Tout d'abord, un module de Reconnaissance de la Parole spécifique extrait les expressions subjectives relatives aux opinions des utilisateurs sur une dimension particulière (efficacité, accueil, etc.); puis les messages fiables sont sélectionnés selon un ensemble de mesures de confiance. Enfin, la distribution des diverses opinions sur le corpus de test est estimée à l'aide d'une méthode de classification.

L'étude de la création de modules de compréhension automatique de la parole est étudiée depuis très longtemps. Malgré cela, ces modules sont toujours implémentés pour la résolution de la tâche visée, cela nécessite généralement beaucoup de temps et l'intervention d'« experts » humains. Au final, ces systèmes sont peu voir pas portable vers un nouveau domaine et l'ensemble des techniques appliquées est peu généralisable. L'approche étudiée pour l'adaptation d'un système existant à un nouveau domaine est double. Dans un premier temps, il est nécessaire de connaître les concepts spécifiques au domaine et ceux indépendants de l'application afin de réutiliser au mieux le système existant. Dans un second temps, il s'agit de faire émerger les concepts spécifiques à l'application. L'idée maîtresse pour une génération automatique de ces concepts est basée sur le fait qu'ils partagent souvent le même contexte (syntaxique ou lexical).

PDF

Multilinguïsation des systèmes de e-commerce traitant des énoncés spontanés en langue naturelle : utilité des systèmes de traduction
  Najeh HAJLAOUI (Orange Labs)
  Le 02/11/2010 à 11h00
Résumé du séminaire : Nous nous intéressons à la multilinguïsation, ou « portage linguistique » (plus simple que la localisation) des services de gestion de contenu traitant des énoncés spontanés en langue naturelle, souvent bruités, mais contraints par la situation, et constituant toujours un « sous-langage » plus ou moins restreint. Un service de ce type (soit App) utilise une représentation du contenu spécifique (RC-App) sur laquelle travaille le noyau fonctionnel. Le plus souvent, cette représentation est produite à partir de la langue « native » L1 par un extracteur de contenu (EC-App). Nous avons dégagé trois méthodes de portage possibles, et les avons illustrées par le portage en français d'une partie de CATS, un système de traitement de petites annonces en SMS (en arabe) déployé à Amman, ainsi que sur IMRS, un système de recherche de morceaux de musique dont l'interface native est en japonais et dont seule la RC est accessible. Il s'agit de : (1) localisation « interne », i.e. adaptation à L2 de l'EC donnant EC-App-L2 ; (2) localisation « externe », i.e. adaptation d'un EC existant pour L2 au domaine et à la représentation de contenu de App (EC-X-L2-App); (3) traduction des énoncés de L2 vers L1. Le choix de la stratégie est contraint par la situation traductionnelle : types et niveau d'accès possibles (accès complet au code source, accès limité à la représentation interne, accès limité au dictionnaire, et aucun accès), ressources disponibles (dictionnaires, corpus), compétences langagières et linguistiques des personnes intervenant dans la multilinguïsation des applications. Les trois méthodes ont donné de bons résultats sur le portage d'arabe en français de la partie de CATS concernant l'occasion automobile. En localisation interne, la partie grammaticale a été très faiblement modifiée, ce qui prouve que, malgré la grande distance entre l'arabe et le français, ces deux sous-langages sont très proches l'un de l'autre, une nouvelle illustration de l'analyse de R. Kittredge. La localisation externe a été expérimentée sur CATS et sur IMRS en adaptant au nouveau domaine considéré l'extracteur de contenu du français écrit initialement par H. Blanchon pour le domaine du tourisme (projet CSTAR/Nespole!), puis en changeant de langue pour IMRS (anglais). Nous avons programmé en PHP/MySQL un service Web appelé IMRS-g, ré- implémentant le plus possible le système IMRS et le généralisant. Pour cet effet, nous avons produit un site Web fonctionnel (http://www-clips.imag.fr/geta/User/najeh.hajlaoui/Musique/). Enfin, le portage par TA statistique a également donné de très bonnes performances, et cela avec un corpus d'apprentissage très petit (moins de 10.000 mots). Cela prouve que, dans le cas de sous-langages très petits, la TA statistique peut être de qualité suffisante en partant de corpus 100 à 500 fois moins grands que pour de la langue générale. Mots-clés : énoncés spontanés, langue naturelle, e-commerce, portage linguistique, sous-langage, extraction de contenu, traduction statistique, corpus.

PDF

Introduction aux systèmes de traduction basés sur les séquences de mots hiérarchiques
  Estève, Y. (LIUM - équipe Parole/Traduction)
  Le 09/03/2010 à 11h00
Résumé du séminaire : Les systèmes de traduction probabilistes les plus performants actuellement sont les systèmes qui utilisent comme unité de traduction des séquences de mots (phrases). Ces systèmes sont des évolutions de systèmes antérieurs utilisant les mots comme unité de traduction. Les systèmes basés sur les séquences de mots, comme Moses, utilisent des tables de correspondances (phrase-tables) entre séquences du langage source et séquences du langage cible, correspondances construites à partir d'alignements automatiques basées sur des approches statistiques. Depuis peu, Joshua, un système de traduction basé sur des séquences de mots hiérarchiques (hierarchical phrases), est disponible sous licence open source et obtient des performances similaires à celles des systèmes établis. Il utilise les mêmes alignements de base que les systèmes basés sur des séquences de mots conventionnelles pour construire des séquences de mots hiérarchiques, et remplace la table de correspondances par une grammaire hors-contexte synchrone. Cette présentation sera une courte introduction aux fondements de Joshua, à savoir les séquences de mots hiérarchiques, modélisées sous forme de grammaires hors-contexte synchrones. Quelques éléments d'utilisation de Joshua dans le cadre de la campagne IWSLT seront présentés.

PDF