Systèmes développés

3 systèmes principaux

Segmentation et regroupement automatique en locuteurs

L’activité de segmentation et de regroupement en locuteurs (SRL) au LIUM a débuté fin 2004. Depuis, nous nous sommes attachés à développer un système performant sur les deux aspects de la tâche : la segmentation du signal en zones de parole acoustiquement homogènes et le regroupement de celles-ci par locuteur. Ce système est diffusé en open-source, il obtient de très bonne performance en SRL (campagnes d'évaluation ESTER et ESTER2), tout en contribuant à la baisse du taux d’erreur en transcription.

Système de transcription automatique

Le LIUM dispose d’un système complet de reconnaissance de la parole, dont le noyau est basé sur le système Sphinx distribué par le CMU (Carnegie Mellon University). Le système du LIUM a été initialement développé pour la transcription de journaux radiophonique en Français (campagnes d'évaluation ESTER et ESTER2). Il a été adapté pour la transcription de débats en anglais et en espagnol (campagne d'évaluation TC-STAR), ainsi que pour la transcription de dialogue téléphonique en français (projet Port-Média).

À partir de la base CMU Sphinx, de nombreuses améliorations ont été apportées : étude sur les graphes de décodages pour la réalisation d’un décodeur graphe, construction efficace de réseaux de confusion, apprentissage discriminant de modèle acoustiques, modélisation du langage englobant l'intégration d’un modèle neuronal.

Systèmes de traduction automatique

Le LIUM effectue des recherches en traduction automatique (TA) depuis 2007. Le système du LIUM est basé sur la plateforme logicielle libre Moses qui est un système de traduction statistique utilisant la notion de séquences de mots. Nous ajoutons régulièrement de nouvelles fonctionnalités pour améliorer les performances attestées par nos résultats dans des campagnes d'évaluations internationales WMT, IWSLT ou celles du NIST.

Les fondamentaux de l'approche statistique pour la traduction automatique sont génériques et indépendantes de la paire de langues traitée. Cependant, pour ne pas disperser nos efforts, nous nous sommes concentrés sur le développement de systèmes pour les langues suivantes : anglais, français, arabe, mandarin.

Nos activités de recherche en TA se distinguent aussi par une coopération privilégiée avec l'entreprise SYSTRAN, leader mondial sur le marché des logiciels de traduction. Celle-ci permet de travailler à la convergence des approches statistiques et des méthodes formelles.

Participation aux campagnes d'évaluation

NIST'09  : le système arabe vers anglais LIUM/SYSTRAN a obtenu le 3e rang sur 21, derrière l'université de Cambridge et Stanford. Le LIUM a obtenu le meilleur résulat parmi tous le les participants qui ne font pa partie du projet GALE . Le système mandarin vers anglais a obtenu la 8e place sur 18.

Ester2 (2008) : la campagne d'évaluation ESTER2 vise à la mesure des performances des systèmes de transcription d'émissions radiophoniques en français. Le LIUM a été classé 3e dans la tâche de transcription et 1er dans la tâche de suivi et de regroupement en locuteur. Le système de reconnaissance de la parole du LIUM était le meilleur système parmi les systèmes sous licence libre présentés durant cette évaluation.

NIST'08  : le LIUM était la première université française à participer à une évaluation NIST en traduction automatique. Nous avons obtenu le 4e rang sur 17 pour l’arabe vers l’anglais; derrière Google, IBM et BBN. Il s'agit du meilleur classement de toutes les universités participantes.

TC-Star’07  : nous avons été invités par les membres du projet européen TC-STAR à participer à leur campagne d’évaluation. Il s’agissait de transcrire des discours parlementaires européens en anglais et en espagnol. Nous avons développé les deux systèmes de transcription avec des taux d’erreur d’environ 20%. Le LIUM a présenté les 2 systèmes invités les plus compétitifs malgré les délais très courts (nous avons été invités un mois avant la date de l’évaluation).

WMT  : le LIUM participe depuis 2007 aux évaluations WMT pour la traduction entre le français et l'anglais. Nos systèmes ont été classés systématiquement parmi les meilleurs, aussi bien avec des critères automatiques tels que BLEU, ou basé sur des jugements humains. En 2009, le système SPE anglais vers français, développé conjointement avec SYSTRAN, était classé premier, avant celui de Google. Selon les scores automatiques déjà disponibles pour l'évaluation en 2010 , le système français et l'anglais obtient de nouveau le premier rang et le système anglais vers français est classé 2e derrière celui de l'université de Cambridge.

IWSLT : le LIUM participe également régulièrement aux évaluations IWSLT sur la traduction arabe et mandarin chinois vers l’anglais.