Laboratoire d'Informatique de l'Université du Maine

présentation | annuaire | accés | publications | speechtools
lium | iup mime
bibliothèque universitaire | annuaire (accés réservé)
subglobal4 link | subglobal4 link | subglobal4 link | subglobal4 link | subglobal4 link | subglobal4 link | subglobal4 link
subglobal5 link | subglobal5 link | subglobal5 link | subglobal5 link | subglobal5 link | subglobal5 link | subglobal5 link
subglobal6 link | subglobal6 link | subglobal6 link | subglobal6 link | subglobal6 link | subglobal6 link | subglobal6 link
subglobal7 link | subglobal7 link | subglobal7 link | subglobal7 link | subglobal7 link | subglobal7 link | subglobal7 link
subglobal8 link | subglobal8 link | subglobal8 link | subglobal8 link | subglobal8 link | subglobal8 link | subglobal8 link

Recherche

small logo

Thèmes de recherche (Thème Parole)

Modélisation du langage pour la reconnaissance de la parole

Fusion de mesures de confiance hétérogènes pour la reconnaissance de la parole

Modèles de langage et reconnaissance de la parole en contexte de dialogue ou de broadcast news

Identification nomméee du locuteur

Travaux de recherche

Coordinateur du projet de recherche ANR EPAC

Mes travaux sont essentiellement tournés vers la modélisation du langage pour la reconnaissance de la parole.

J’ai d’abord travaillé dans le cadre de systèmes de dialogue oral homme/machine en collaboration avec France Telecom R&D.  Depuis mon recrutement à l'Université du Maine en septembre 2003, je me suis orienté vers la modélisation du langage pour la transcription automatique d’émissions radiophoniques et j’ai participé au développement d’un système complet de transcription automatique en collaboration avec Paul Deléglise (Professeur, LIUM) et Sylvain Meignier (Maître de conférence, LIUM).

Notre système de transcription, basé sur le moteur Sphinx III développé par la Carnegie Mellon University (USA), a permis au LIUM de participer à la campagne d’évaluation ESTER (Évaluation de Systèmes de Transcription d’Émissions Radiophoniques francophone) financé par le Ministère de la Recherche dans le cadre du projet Technolangue et organisé par la DGA (Délégation Générale de l’Armement), l’AFCP (Association Francophone de la Communauté Parole) et ELRA (European Linguistic Resources Agency) : notre système a terminé en seconde position, devançant un certain nombre de laboratoires français reconnus dans le domaine.

Nous avons également étendu notre système de transcription à l’anglais et à l’espagnol pour participer à la 3ème campagne d’évaluation du projet européen TC-STAR sur invitation des membres de ce projet. Notre système a obtenu des résultats honorables, avec des taux d’erreurs inférieurs à 20%.

Dans le cadre de la thèse de Julie Mauclair (de 2003 à 2006), j’ai participé aux travaux qui ont permis de proposer de nouvelles mesures de confiance pour établir la fiabilité des sorties d’un système de transcription automatique de la parole (WP/LMBB).
Je travaille également en étroite collaboration avec Sylvain Meignier sur l’utilisation combinée des sorties d’un système automatique d’indexation du locuteur de documents audio avec les sorties d’un système de transcription automatique. En particulier, nous avons récemment proposé une méthode (2006) permettant l’identification nommée du locuteur sans utilisation d’informations a priori concernant les locuteurs cibles dans un contexte d’émissions d’actualités radiophoniques.

Dans la continuité de mes travaux sur les mesures de confiance et leurs applications, je travaille en collaboration avec l’équipe TALNO du Laboratoire d’Informatique de l’Université d’Avignon (LIA) sur la coopération entre systèmes de transcriptions automatiques.

Actuellement, mes travaux s’orientent vers le traitement de la parole conversationnelle, qui implique la prise en compte des phénomènes dus à la spontanéité du langage. Ces travaux s’inscrivent dans le cadre du projet ANR EPAC qui vient de débuter (01/01/2007).

Activités scientifiques


Encadrement

  1. Co-direction (40%) de la thèse de Thierry Bazillon (thèse débutée le 15 décembre 2006). Titre : Le codage de la parole conversationnelle. Thèse bi-disciplinaire : linguistique/informatique. Directeur de thèse : Professeur Daniel Luzzati

  2. Co-direction (60%) de la thèse de Julie Mauclair (thèse en informatique débutée le 1er octobre 2003 et soutenue le 5 décembre 2006 : félicitations du Jury). Titre : Mesures de confiance en traitement automatique de la parole et applications. Directeur de thèse : Professeur Paul Deléglise

  3. Encadrement du stage de Master Recherche de Vincent Jousse débuté en décembre 2006. Titre du stage : Détection automatique de parole spontanée dans un flux de parole continue

Contrats publics

  1. Coordination du projet ANR EPAC (Contrat ANR-06-MDCA-006) : j’ai assuré la supervision du montage de ce projet (EPAC : Exploration de masse de documents audio pour l’extraction et le traitement de la parole conversationnelle) répondant à l’appel à projet 2006 ANR Masse de Données - Connaissances ambiantes. Ce projet est composé de 4 laboratoires français : le LIUM, l’IRIT (Toulouse), le LIA (Avignon), et le LI (Tours). Auparavant, j’avais déjà instruit 2 dossiers relativement proches : en 2004 (réponse à l’appel à projet ACI Masse de Données : projet non retenu) et en 2005 (réponse à l’appel à projet ARA Masse de Données : projet mis sur liste complémentaire). J’anime le projet ANR EPAC depuis sa création

  2. J’ai participé au montage du projet régional MILES qui a été accepté par la Région Pays-de-la-Loire en 2006. Ce projet permet au LIUM de collaborer avec le Laboratoire d’Informatique de Nantes Atlantique (LINA) sur des travaux d’analyse conjointe (TALN/traitement automatique de la parole) sur la problématique de l’identification nommée du locuteur

Contrats privés

  1. Je suis le responsable scientifique de la collaboration entre le LIUM et la société SPECINOV sur l’étude de l’auto-adaptation d’un système de transcription automatique. Cette collaboration, débutée en 2006 pour une durée de 3 ans, a permis la mise en place d’une convention CIFRE permettant le financement de la thèse d’Antoine Laurent encadrée par Paul Deléglise et Sylvain Meignier. Cette collaboration a vu le jour en particulier grâce à la participation du LIUM, représenté par Sylvain Meignier et moi-même, à des ateliers sur les technologies vocales organisés par la Chambre de Commerce et d’Industrie d’Angers

Coopération internationale

  1. Le CMU Sphinx Group, de la Carnegie Mellon University, qui a développé le noyau (Sphinx 3.x) du système de transcription automatique utilisé par le LIUM, s’est montré intéressé par les outils et ressources que nous avons développés : en 2006, avec Sylvain Meignier, j’ai été intégré dans l’équipe de développement du projet international CMU Sphinx

Diffusion d’outils et de ressources

  1. Une grande partie des outils (système de transcription automatique) et des ressources (dictionnaires phonétisés, modèles acoustiques et modèles de langage) francophones pour lesquels j’ai participé au développement ou à la production sont disponibles au téléchargement sous licence open source (BSD) sur le site web du LIUM : http://www-lium.univ-lemans.fr/speechtools

Autres

  1. Rapporteur occasionnel de la revue internationale Speech Communication (revue de référence dans le domaine, associée à  l’ISCA : International Speech Communication Association)
  2. Membre de l’ISCA (International Speech Communication Association)
  3. Membre (suppléant) de la commission de spécialistes 27/61 de l’Université du Maine
  4. Membre (élu) du Conseil de laboratoire du LIUM
©2007 Lium - Université du Maine - France