Thèmes de recherche

3 thèmes principaux

Transcription automatique

Le LIUM dispose d’un système complet de reconnaissance de la parole, dont le noyau est basé sur le système Sphinx distribué par le CMU (Carnegie Mellon University) ainsi que sur le système KALDI. Le système du LIUM a été initialement développé pour la transcription de journaux radiophonique en Français. Il a été adapté pour la transcription de débats en anglais, espagnol, italien, arabe (standard et dialectal), allemand ainsi que pour la transcription de dialogue téléphonique en français et en anglais.

Systèmes de traduction automatique

Le LIUM effectue des recherches en traduction automatique (TA) depuis 2007. Le système du LIUM est basé sur la plateforme logicielle libre Moses qui est un système de traduction statistique utilisant la notion de séquences de mots. Nous ajoutons régulièrement de nouvelles fonctionnalités pour améliorer les performances attestées par nos résultats dans des campagnes d'évaluations internationales WMT, IWSLT ou celles du NIST.

Les fondamentaux de l'approche statistique pour la traduction automatique sont génériques et indépendantes de la paire de langues traitée. Cependant, pour ne pas disperser nos efforts, nous nous sommes concentrés sur le développement de systèmes pour les langues suivantes : anglais, français, arabe, mandarin.

Nos activités de recherche en TA se distinguent aussi par une coopération privilégiée avec l'entreprise SYSTRAN, leader mondial sur le marché des logiciels de traduction. Celle-ci permet de travailler à la convergence des approches statistiques et des méthodes formelles.

Reconnaissance du locuteur

L’activité en reconnaissance du locuteur au LIUM a débuté fin 2004. Depuis, nous avons travaillé sur le thème de la segmentation et du regroupement en locuteurs (SRL pour des émissions radio ou TV), d'identification et de vérification du locuteur ainsi que d'identification de la langue. Nos systèmes sont le plus souvent diffusés en open-source, il obtient de très bonne performance en particulier en SRL et en identification de locuteur.

Participation aux campagnes d'évaluation

L’équipe LST participe régulièrement à des campagnes d’évaluation internationales et nationales dans le domaine de la reconnaissance de la parole, de la traduction automatique, de la traduction automatique de la parole ou encore de la reconnaissance du locuteur. Ces campagnes ont pour but d’évaluer les performances des technologies à l’état de l’art, et permettent aux participants de comparer leurs systèmes avec ceux des meilleurs laboratoires du domaine. Le tableau suivant synthétise les participations de l’équipe.

  • A la campagne IWSLT 2011, nous avons obtenu la 1er place pour la tâche de traduction de la parole (anglais->français).
  • A la campagne ETAPE 2012, nous avons obtenu les 1er place en transcription automatique (français) et en segmentation et lregroupement de locuteur pour une collection de documents.
  • Aux campagne REPERE 2013 et 2014, nous avons obtenu les 1er places en transcription automatique (français), en la segmentation et le regroupement de locuteur et en identification des locuteurs.
  • A la campagne IWSLT 2014, nous avons obtenu en transcription automatique la 6e place pour l'anglais et la 1e pour l'italien.
  • A la campagne MGB Challende 2015, nous avons obtenu la 1e place pour la transcription automatique en anglais en collaboration avec le CRIM et la 2e place pour la segmentation et la classification en locuteur en collaboration avec Orange Lab.
  • A la campagne NIST Open MT, nous avons obtenu la 7e, 4e et 4e place respectivement pour Traduction automatique en chinois vers anglais pour les SMS, les chat et les conversations téléphoniques.
  • A la campagne QALAb, nous avons obtenu la 1e place et la 2e place pour la correction automatique de texte arabe.