Séminaires

Le 04/12/2012 à 10h00 :
   Rico Sennrich (LIUM - Traduction)
A Multi-Domain Translation Model Framework for Statistical Machine Translation

Le 14/03/2012 à 10h30 :
   Rico Sennrich (Institute of Computational Linguistics, University of Zurich)
Quick and painless domain adaptation for SMT

Résumé

Le 16/11/2011 à 11h00 :
   Patrik Lambert (LIUM - LST)
The MANY MT System Combination Tool at the ML4HMT Workshop Shared Task

Résumé

Le 15/11/2011 à 11h00 :
   Huei-Chi Lin (Bitong - Université Catholique de Louvain)
Introduction au chinois moderne et à son traitement automatique

Résumé PDF

Le 16/09/2011 à 10h30 :
   Waleed Oransa (IBM - Egypt, Le Caire)
Injected Linguistic Tags to Improve Phrase Based SMT

Résumé PDF

Le 27/05/2011 à 9h30 :
   Marta Ruiz Costa-jussà (Barcelona Media Innovation Center - LST)
Statistical Machine Translation: ongoing research

Résumé

Le 25/05/2011 à 14h00 :
   Sofiane Medjkoune (IRCCyN - Nantes - LST)
Reconnaissance de symboles et expressions mathématiques: fusion de signaux écrits et sonores

Résumé PDF

Le 24/03/2011 à 15h30 :
   Mathieu MURATET (IRIT - Université Toulouse III - EIAH)
Conception et évaluation d'un jeu sérieux pour l'apprentissage des fondamentaux de la programmation

Résumé PDF

Le 17/03/2011 à 14h30 :
   Christophe Lévy (LIA - Avignon - Parole)
Modélisation acoustique : application à la transcription et à la reconnaissance du locuteur

PDF

Le 02/11/2010 à 11h00 :
   Najeh HAJLAOUI (Orange Labs)
Multilinguïsation des systèmes de e-commerce traitant des énoncés spontanés en langue naturelle : utilité des systèmes de traduction

Résumé PDF
Nous nous intéressons à la multilinguïsation, ou « portage linguistique » (plus simple que la localisation) des services de gestion de contenu traitant des énoncés spontanés en langue naturelle, souvent bruités, mais contraints par la situation, et constituant toujours un « sous-langage » plus ou moins restreint. Un service de ce type (soit App) utilise une représentation du contenu spécifique (RC-App) sur laquelle travaille le noyau fonctionnel. Le plus souvent, cette représentation est produite à partir de la langue « native » L1 par un extracteur de contenu (EC-App). Nous avons dégagé trois méthodes de portage possibles, et les avons illustrées par le portage en français d'une partie de CATS, un système de traitement de petites annonces en SMS (en arabe) déployé à Amman, ainsi que sur IMRS, un système de recherche de morceaux de musique dont l'interface native est en japonais et dont seule la RC est accessible. Il s'agit de : (1) localisation « interne », i.e. adaptation à L2 de l'EC donnant EC-App-L2 ; (2) localisation « externe », i.e. adaptation d'un EC existant pour L2 au domaine et à la représentation de contenu de App (EC-X-L2-App); (3) traduction des énoncés de L2 vers L1. Le choix de la stratégie est contraint par la situation traductionnelle : types et niveau d'accès possibles (accès complet au code source, accès limité à la représentation interne, accès limité au dictionnaire, et aucun accès), ressources disponibles (dictionnaires, corpus), compétences langagières et linguistiques des personnes intervenant dans la multilinguïsation des applications. Les trois méthodes ont donné de bons résultats sur le portage d'arabe en français de la partie de CATS concernant l'occasion automobile. En localisation interne, la partie grammaticale a été très faiblement modifiée, ce qui prouve que, malgré la grande distance entre l'arabe et le français, ces deux sous-langages sont très proches l'un de l'autre, une nouvelle illustration de l'analyse de R. Kittredge. La localisation externe a été expérimentée sur CATS et sur IMRS en adaptant au nouveau domaine considéré l'extracteur de contenu du français écrit initialement par H. Blanchon pour le domaine du tourisme (projet CSTAR/Nespole!), puis en changeant de langue pour IMRS (anglais). Nous avons programmé en PHP/MySQL un service Web appelé IMRS-g, ré- implémentant le plus possible le système IMRS et le généralisant. Pour cet effet, nous avons produit un site Web fonctionnel (http://www-clips.imag.fr/geta/User/najeh.hajlaoui/Musique/). Enfin, le portage par TA statistique a également donné de très bonnes performances, et cela avec un corpus d'apprentissage très petit (moins de 10.000 mots). Cela prouve que, dans le cas de sous-langages très petits, la TA statistique peut être de qualité suffisante en partant de corpus 100 à 500 fois moins grands que pour de la langue générale. Mots-clés : énoncés spontanés, langue naturelle, e-commerce, portage linguistique, sous-langage, extraction de contenu, traduction statistique, corpus.

Le 11/10/2010 à 14h00 :
   Elie Khoury (LIUM - Salle des conseils - LST)
Indexation vidéo non-supervisée basée sur la caractérisation audiovisuelle des personnes

Résumé PDF

Le 31/08/2010 à 15h30 :
   F. Zamora-Martinez (Universidad CEU-Cardinal Herrera and Universidad Politecnica de Valencia - Traduction)
Fast Evaluation and Connectionist Language Models

Résumé PDF

Le 08/04/2010 à 11h00 :
   Kolár, J. (LIMSI - Groupe Traitement du Langage Parlé)
Speaker adaptation of language and prosodic models for automatic dialog act segmentation of speech

Résumé

Le 09/03/2010 à 11h00 :
   Estève, Y. (LIUM - équipe Parole/Traduction)
Introduction aux systèmes de traduction basés sur les séquences de mots hiérarchiques

Résumé PDF

Le 19/02/2010 à 10h30 :
   Mauclair, J. (Laboratoire d'Informatique Paris-Descartes - équipe DIADEX)
Fiabilité d'un SRAP

Résumé PDF

Le 19/02/2010 à 10h30 :
   Janiszek, D. (Laboratoire d'Informatique Paris-Descartes - équipe DIADEX)
La standardisation des applications vocales orientées services.

Résumé PDF