Actes

Télécharger les actesTélécharger les actes au format PDF.

Programme

lundi 23/06 mardi 24/06 mercredi 25/06 jeudi 26/06 vendredi 27/06

18h00

Accueil sarthois
Apéritif à la CCI du Mans

8h00

Accueil

8h45

Ouverture

9h15

Poster 1

10h45

Pause

11h00

J. Bellegarda
Conférencier invité

12h00

Repas

13h45

Oral 1
Production et perception

15h45

Pause

16h15

Oral 2
Prosodie et synthèse

18h30

Apéritif
Hôtel de ville du Mans

19h30

Visite de la Cité Plantagenêt

8h30

Accueil

8h45

Poster 2

10h45

Pause

11h00

N. Henrich
Conférencier invité

12h00

Repas

13h45

Oral 3
Voix

15h45

Pause

16h15

Oral 4
Développement et apprentissage

18h30

Soirée de gala
au musée des 24 Heures
Remise du prix de thèse

8h30

Accueil

8h45

Poster 3

10h45

Pause

11h00

R. De Mori
Conférencier invité

12h00

Repas

13h45

Oral 5
Transcriptions et traitements automatiques

15h45

Pause

16h15

Assemblée générale
de l’AFCP

17h00

Session démonstration

18h00

Session démonstration
Ouverte au grand public

19h00

Apéritif

20h00

Conférence grand public de N. Henrich
Notre voix, cet instrument de tous les possibles…

8h30

Accueil

8h45

Oral 6
Langues régionales ou peu dotées

10h45

Pause

11h00

C. Fougeron
Conférencier invité

12h00

Clôture

Poster 1
mardi 24/06, 9h15 → 10h45

7
Hiyon Yoo, Sébastien Le Maguer, Elisabeth Delais-Roussarie, Nelly Barbot, Damien Lolive
Évaluation d’un algorithme de chunking appliqué à la dictée
Dans cet article, nous présentons une évaluation subjective concernant l’utilisation de la synthèse de la parole pour la production automatique de dictées destinées à des élèves d’école primaire. L’évaluation consiste en des questionnaires permettant d’obtenir des informations qualitatives sur trois aspects de l’algorithme et du système de synthèse : (i) la pertinence de la segmentation, en particulier en ce qui concerne à la position des frontières prosodiques, (ii) la taille des groupes, et (iii) la pertinence de l’utilisation d’une voix de synthèse, une attention particulière étant portée au débit de parole et aux patrons intonatifs. Afin d’obtenir des retours de la part des utilisateurs potentiels de l’outil pédagogique que nous développons, nous avons élaboré deux questionnaires distincts pour les deux populations (élèves et enseignants).
10
David Guennec, Damien Lolive
Utilisation d’un algorithme A* pour l’analyse de la sélection d’unités en synthèse de la parole
Les systèmes de synthèse de la parole par corpus utilisent presque tous un algorithme de Viterbi pour réaliser l’étape de sélection d’unités. Dans cet article, nous proposons un système de synthèse par sélection reposant sur l’algorithme A∗ et basé sur une stratégie généraliste de recherche de chemins dans un graphe (et non un treillis). Notre implémentation emploie des techniques tirées de l’état de l’art. Elle est pensée en tant que plateforme expérimentale permettant d’obtenir aisément les N meilleurs chemins et d’évaluer de nouvelles stratégies de sélection. Une évaluation perceptuelle notant la qualité globale du système et le classement des chemins trouvés par la sélection d’unités a, en outre, été conduite.
18
Irina Illina, Dominique Fohr, Georges Linarès
Extension du vocabulaire d’un système de transcription avec de nouveaux noms propres en utilisant un corpus diachronique
La reconnaissance de noms propres est une tâche difficile dans le domaine de la recherche d'information dans de grandes bases de données audio/vidéo. Les noms propres sont souvent indispensables pour comprendre l'information contenue dans un document. Notre travail se concentre sur l'augmentation du vocabulaire d'un système de transcription automatique de la parole. L’idée est de récupérer automatiquement des noms propres à partir de documents diachroniques. Nous avons proposé des méthodes qui augmentent de façon dynamique le vocabulaire du système de reconnaissance en utilisant des informations lexicales et temporelles. Nous faisons l’hypothèse que les mêmes noms propres apparaissent fréquemment dans des documents relatifs à la même période temporelle. Nous avons étudié une méthode fondée sur l’information mutuelle et nous avons proposé une nouvelle méthode utilisant la similarité cosinus. Dans cette nouvelle méthode, le contexte d’un nom propre est représenté par un modèle vectoriel (sac de mots). Nous avons également étudié différents paramètres de sélection de noms propres afin de limiter l'augmentation du vocabulaire et donc l'impact sur les performances d’un système de reconnaissance. Les résultats de reconnaissance pour la transcription de bulletins d’informations radiophoniques montrent une réduction significative du taux d'erreur de mots en utilisant un vocabulaire augmenté.
24
Mohamed Bouaziz, Antoine Laurent, Yannick Estève
Décodage hybride dans les SRAP pour l’indexation automatique des documents multimédia
Certains Systèmes de Reconnaissance Automatique de la Parole (SRAP) atteignent des taux d’erreur de l’ordre de 10%. Toutefois, notamment dans le cadre de l’indexation automatique des documents multimédia sur le web, les SRAP se trouvent face à la problématique des mots hors-vocabulaire. En effet, les entités nommées en constituent une grande partie et sont remarquablement importantes pour les tâches d’indexation. Nous mettons en œuvre, dans ce travail, la solution du décodage hybride en utilisant les syllabes comme unités sous-lexicales. Cette méthode est intégrée au sein du SRAP LIUM’08 développé par le Laboratoire d’Informatique de l’Université du Maine. Avec une légère dégradation de la performance générale du système, environ 31% des noms de personne hors vocabulaire sont correctement reconnus.
26
Claire Pillot-Loiseau, Tanja Kocjančič Antolík, Takeki Kamiyama
Opposition /y/-/u/ chez 7 apprenantes japonophones avec et sans l’aide de l’ultrason lingual: 1. analyse acoustique comparative voyelles isolées / logatomes
Pour étudier la production de /y/ et /u/ français par une native et 7 apprenantes japonophones, quatre ont bénéficié de leçons concernant /u/ avec l’ultrason lingual (sujets EXP) et trois n’en n’ont pas bénéficié (CTR). Toutes ont été enregistrées plusieurs fois pour comparer l’effet de la présence ou de l’absence des leçons sur la production de l’opposition /y/-/u/. Les mesures acoustiques de dix répétitions de /y/ et /u/ isolés et dans des logatomes CV1CV2 (C=/p,t,k/, V=/y,u/) ont utilisé la Distance Euclidienne (DE) /y/-/u/, les différences entre F3 et F2 de /y/ (F3-F2) et F2 et F1 de /u/ (F2-F1). /y/ n’est pas mieux produit par EXP contrairement à F2-F1 de /u/ (moins grande différence) et DE (plus élevée) après les leçons. L’opposition /y-u/ est mieux réalisée à l’isolée pour toutes, et le moins bien produite pour les logatomes avec /t/. Les données des apprenantes sont plus variables que la native.
30
Laurianne Georgeton, Nicolas Audibert
Mesures de protrusion par capture optique de mouvements : quelle métrique est la plus représentative de l’opposition d’arrondissement en français ?
Le but de cette étude est d’évaluer laquelle des trois mesures de protrusion relevées dans la littérature (l’avancement de la lèvre inférieure, celui de la lèvre supérieure ou celui des commissures) rend le mieux compte de l’implémentation du trait d’arrondissement sur les voyelles orales antérieures fermées, mi-fermées et mi-ouvertes du français. 491 voyelles orales antérieures arrondies et non-arrondies ont été produites en contexte par 3 locutrices du français standard équipées du dispositif sans fil de capture optique de mouvements Qualisys pour l’obtention de mesures d’articulation labiale. La comparaison des voyelles antérieures arrondies vs. non-arrondies sur ces 3 mesures et leur mise en correspondance avec les variations des formants F3 et F2 montrent que l’avancement des commissures est la mesure la plus représentative de l’opposition d’arrondissement. Des différences interindividuelles de stratégies d’articulation labiale pour les paires étudiées sont également observées.
33
Manon Carrissimo-Bertola, Nathalie Vallée, Ioana Chitoran
Labial-Coronal vs. Labial-Vélaire : Étude du phasage des gestes en Français
Différentes études ont mis en avant la surreprésentation de séquences Labial-Coronal par rapport à Coronal-Labial dans les productions d’enfants au stade des premiers mots ainsi que dans les unités lexicales de plusieurs langues du monde, alors que les structures avec Labiale et Vélaire ne montrent pas de tendance à favoriser les séquences avec une première consonne Labiale. L’effet LC a été l’objet de recherches récentes en phonétique expérimentale, à l’aide notamment de protocoles EMA, pour permettre de mieux comprendre les origines de ce phénomène. Notre travail consiste à observer la stabilité articulatoire de séquences CVCV de patrons Labial-Coronal et Coronal-Labial ainsi que Labial-Vélaire et Vélaire-Labial à partir d’une tâche de répétition, sous la contrainte d’un paradigme de vitesse. Les déplacements des articulateurs ont été enregistrés à l’aide d’un EMA 2D. Nous présentons les premiers résultats de ce travail.
35
Fanny Ivent, Cécile Fougeron, Mark Gibson
L’aspiration du /s/ coda en andalou occidental est-elle fonction du type de /s/ ?
L’aspiration du /s/ en position de coda est une caractéristique qui définit de nombreux dialectes de l’espagnol. Nous étudions ce processus phonologique en andalou occidental sur des /s/ dans trois contextes morpho-phonologiques différents : des /s/ lexicaux internes et des /s/ morphémiques finaux qui seront soit des /s/ verbaux (2ème pers. sing.), soit des /s/ pluriels. Par une étude perceptive et acoustique menée sur les productions d’une locutrice et les jugements de 40 auditeurs, nous évaluons si le contraste phonétique entre des paires minimales qui se distinguent par la présence ou l’absence de /s/ est maintenu, lorsque le /s/ est réduit. Nos résultats montrent que le processus d’aspiration et ses conséquences perceptives dépendent du type de /s/. Le contraste phonétique est maintenu pour les /s/ lexicaux internes alors qu’il est menacé pour les /s/ morphémiques finaux, surtout pour les /s/ pluriels.
39
Giulia Barreca
Multidimensionnalité de la liaison variable et difficultés de classification. Le cas des adverbes monosyllabiques.
La combinaison des multiples facteurs qui influencent la réalisation de liaison variable constitue une source de complexité qui rend difficile son analyse et son traitement classificatoire. Le critère morphosyntaxique a le plus souvent guidé les classifications de la liaison variable. Dans cette première étude menée sur des séquences d’adverbes monosyllabiques suivis d’adjectifs, nous avons essayé de démontrer que la prise en compte du seul critère d’appartenance aux catégories morphosyntaxiques s’avère insuffisante pour décrire l’hétérogénéité des comportements associés aux éléments appartenant à une même classe. Ensuite, notre but à été celui de décrire de façon plus précise la variabilité de ce phénomène, analysant, à l’aide d’un apprentissage automatique, les nombreuses dimensions linguistiques (phonologique, syntaxique et lexicale) en jeu dans la réalisation de la liaison variable.
42
Grégor Dupuy, Sylvain Meignier, Yannick Estève
Segmentation et regroupement en locuteur pour le traitement incrémental des collections volumineuses
Les systèmes de diarization cross-show actuels reposent principalement sur un processus de regroupement global qui traite collectivement chaque émission d’une collection. Cette approche a déjà été étudié dans diverses situations et semble être le meilleur moyen à ce jour pour atteindre des taux d’erreur satisfaisants, dans une durée de traitement raisonnable. Néanmoins, ce processus montre ses limites dans un contexte applicatif réaliste où de grandes et dynamiques collections doivent être traitées. Dans cet article, nous étudions l’utilisation d’un regroupement cross-show incrémental pour traiter de manière itérative des émissions devant être insérées dans une collection existante. Les nouvelles émissions à insérer sont traitées les unes après les autres, selon l’ordre chronologique de diffusion. Les expériences ont été menées sur les enregistrements LCP et BFMTV distribués au cours des campagnes d’évaluation françaises ETAPE et REPERE. L’ensemble représente 67 heures de données annotées, réparties sur 310 enregistrements, couvrant une période d’environ deux ans (de septembre 2010 à octobre 2012).
46
Antoine Laurent, Camille Guinaudeau, Anindya Roy
Analyse du corpus MATRICE-INA : exploration et classification automatique d’archives audiovisuelles de 1930 à 2012
Cet article décrit les méthodes mises en place pour permettre l’analyse d’un corpus composé de documents audiovisuels diffusés au cours des 80 dernières années : le corpus MATRICE-INA. Nous proposons une exploration des données permettant de mettre en évidence les différents thèmes et évènements abordés dans le corpus. Cette exploration consiste dans un premier temps à effectuer une analyse temporelle sur les notices documentaires produites manuellement par les documentalistes de l’Institut National de l’Audiovisuel et sur les transcriptions automatiques des documents. Puis, nous montrons, grâce à une technique de clustering automatique, que les transcriptions automatiques permettent également d’effectuer une analyse du corpus faisant émerger des thèmes cohérents avec les données traitées.
56
Mohamed Ameur Ben Jannet, Martine Adda-Decker, Olivier Galibert, Juliette Kahn, Sophie Rosset
Comment évaluer la qualité des transcriptions automatiques pour la détection d’entités nommées ?
La métrique standard pour l’évaluation des performances des systèmes de reconnaisance automatique de la parole est le taux d’erreur mot (Word Error Rate). Cette métrique est très efficace quand il s’agit d’évaluer les systèmes de transcription seules, mais de nos jours les systèmes RAP sont très souvent combinés avec d’autres briques technologiques de Traitement Automatique des Langues telles que la traduction de la parole, le dialogue homme-machine, ou l’extraction d’informations. Cette situation exacerbe le besoin exprimé par la communauté pour une métrique qui permet d’estimer la qualité des transcriptions automatiques en tenant compte du contexte applicatif. Nous proposons une métrique alternative au WER qui permet d’évaluer la qualité des transcriptions automatiques dans un contexte d’extraction d’entités nommées à partir de la parole. Notre métrique utilise des probabilités a posteriori pour estimer le risque d’erreur induit par les erreurs de transcription sur un système de détection d’entités nommées appliqué en aval.
59
Pierre Badin, Thomas R Sawallis, Laurent Lamalle
Comparaison des stratégies articulatoires d’un locuteur bilingue anglais-français : Données et modèles préliminaires
Notre objectif est de comparer les stratégies articulatoires utilisées par les bilingues, afin de mieux comprendre et le bilinguisme et les différences entre langues. Nous avons donc acquis des images IRM médiosagittales pour tous les phonèmes produits par un locuteur bilingue dans sa langue maternelle, l’anglais américain (AE), et en français (FR) qu’il maitrise à très haut niveau. Nous avons comparé les contours de ses articulateurs entre les deux langues : (1) comparaisons directes des contours de phonèmes analogues, (2) comparaison des nomogrammes articulatoires générés par les modèles des deux langues, et (3) reconstruction croisée des articulations d’une langue par un modèle basé sur l’autre. Il est apparu, entre autres observations intéressantes, que la protrusion labiale vocalique s’étend davantage en FR qu’en AE, et que les mouvements du corps de la langue sont plus grands et plus orientés vers l’avant pour l’AE.
96
Takeki Kamiyama, Claire Pillot-Loiseau, Tanja Kocjančič Antolík
Opposition /y/-/u/ chez sept apprenantes japonophones avec et sans aide de l’ultrason lingual: 2. identification perceptive des voyelles isolées par 16 francophones natifs
Quatre apprenantes japonophones (EXP) ont bénéficié d'un entraînement de prononciation avec rétrocontrôle par ultrason pour produire /u/-/y/ français. Elles ont été enregistrées avant (ENR1), une semaine après (ENR2), et deux mois après l'entraînement (ENR3). Trois autres apprenantes (CTR) ont aussi été enregistrées deux fois. Seize francophones natifs ont écouté des stimuli (4 occurrences de /y/ et /u/ isolés) prononcés par chaque locutrice à ENR1, 2, et 3, et ont identifié la voyelle avec une note. En ENR1, une EXP a produit le /u/ avec une note moyenne supérieure à 2/3 ; en ENR2 et ENR3, le /u/ de 2 EXP (ENR2) et celui de 3 EXP (ENR3) atteint une note supérieure à 2. Cellle des CTR n'a pas dépassé 1,3. Le retour ultrason est donc utile pour /u/, dont la position de la langue est invisible.

Oral 1
mardi 24/06, 13h45 → 15h45

Production et perception

Chairman : P. Perrier

43
Lucie Scarbel, Denis Beautemps, Jean-Luc Schwartz, Sébastien Schmerber, Marc Sato
L’ombre d’un doute ? Interactions perceptivo-motrices lors de tâches de close-shadowing auditive et audio-visuelles
Un argument classique en faveur des théories motrices de la perception de la parole provient du paradigme de « close-shadowing » (répétition rapide). Le fait que cette tâche de close-shadowing entraîne des réponses orales bien plus rapides qu’en réponses manuelles suggère en effet un codage des représentations perceptives dans un format moteur, compatible avec une réponse orale. Un autre argument est apporté par les interactions audio-visuelles lors de la perception de parole, souvent interprétées en référence à un couplage fonctionnel entre audition, vision et motricité. Dans cette étude, nous avons combiné ces deux paradigmes de manière à tester si la modalité visuelle pouvait induire des réponses motrices plus rapides lors d'une tâche de close-shadowing. Pour ce faire, différentes tâches de catégorisation orale et manuelle de stimuli de parole présentés auditivement ou audio-visuellement, en présence ou non d'un bruit blanc, ont été réalisées. De manière générale, les réponses orales ont été plus rapides que les réponses manuelles, mais aussi moins précises, notamment dans le bruit, ce qui suggère que la représentation motrice induite par la stimulation pourrait être peu précise dans un premier niveau de traitement. En présence d'un bruit acoustique, la modalité audiovisuelle s’est avérée à la fois plus rapide et plus précise que la modalité auditive. Aucune interaction entre le mode de réponse et la modalité de présentation des stimuli n'a cependant été observée. Nous interprétons l’ensemble de ces résultats dans un cadre théorique proposant l'existence de boucles perceptivo-motrices, dans lesquelles les entrées auditives et visuelles seraient intégrées et reliées à la génération interne de représentations motrices préalablement au processus final de décision.
66
Mohammad Abuoudeh, Olivier Crouzet
Équations de locus et temporalité de la parole : Une étude de l’impact de la durée vocalique sur les paramètres des équations de locus en Arabe Jordanien
Les équations de locus sont des modèles de la relation Consonne-Voyelle qui procèdent à une abstraction de la dimension temporelle de la parole en se focalisant sur la relation de fréquence entre les deux composantes d’une séquence Consonne-Voyelle vues comme des segments. Nous présentons un travail dans lequel nous faisons l’hypothèse que ce point de vue est insuffisant. Afin d’évaluer les effets potentiels de la dimension temporelle de la parole sur les paramètres des équations de locus, nous avons procédé à l’enregistrement de séquences Consonne-Voyelle en contexte de phrase auprès de 4 locuteurs de l’Arabe Jordanien et avons évalué l’effet de la longueur vocalique sur les paramètres des équations de locus associées à 5 occlusives non-voisées. Les données recueillies conduisent à observer un effet significatif de la longueur vocalique sur les paramètres de pente et d’ordonnée à l’origine des équations de locus. Ces résultats nous conduisent à nous interroger sur l’aspect non-continu des mesures impliquées dans le estimations des équations de locus mais des analyses complémentaires sont suggérées afin d’évaluer les causes possibles des effets observés.
103
Lionel Fontan, Cynthia Magnen, Julien Tardieu, Pascal Gaillard
Simulation des effets de la presbyacousie sur l’intelligibilité et la compréhension de la parole dans le silence et dans le bruit
L’objectif de cette étude est de fournir des données de référence sur l’intelligibilité et la compréhension de la parole en français dans les cas de presbyacousie. Les principaux effets de la presbyacousie ont été simulés afin d’obtenir un jeu de stimuli reproduisant les caractéristiques de la parole perçue par des patients atteints à divers degrés de sévérité, que ce soit dans des conditions de bruit ambiant (brouhaha) ou de silence. Soixante participants ont écouté ces stimuli et exécuté trois tâches situées sur le continuum entre l’intelligibilité et la compréhension de la parole : la répétition de mots (T1), la répétition de phrases (T2) et la réponse à des consignes verbales (T3). Tout en offrant des perspectives différentes et complémentaires sur les performances des auditeurs, les trois tests révèlent des effets significatifs de la simulation de la presbyacousie et du bruit.
105
Ioana Chitoran, Mark Tiede
La réorganisation gestuelle interagit avec la phonotactique spécifique à chaque langue
L’étude de la réorganisation articulatoire obtenue dans la parole accélérée permet d’étudier le planning dans la parole. Les travaux précédents ont montré l’émergence de structures coordinatives stables, où des patrons VC se réorganisent en CV, VCC en CVC, et l’ordre coronal-labial en labial-coronal. Ces modes stables sont interprétés comme résultant de contraintes biomécaniques imposées par le système articulatoire/auditif. Nous adoptons une perspective inter-langues, pour déterminer si des modes stables peuvent aussi provenir de patrons linguistiques appris, propres à chaque langue. On étudie le géorgien et le français, différents dans leur :
- prosodie (proéminence initiale vs. finale en CVCV)
- phonotactique (le géorgien permet des attaques complexes ignorant la sonorité) Nous analysons des données acoustiques préliminaires des disyllabes [pata], [tapa] (géorgien, français) et [paki] (géorgien) répétées au rythme d’un métronome accéléré. Les résultats suggèrent que la structure linguistique spécifique à chaque langue compte aussi comme médiateur de la réorganisation gestuelle.

Oral 2
mardi 24/06, 16h15 → 17h45

Prosodie et synthèse

Chairman : J.S. Liénard

6
Sébastien Le Maguer, Elisabeth Delais-Roussarie, Nelly Barbot, Mathieu Avanzi, Olivier Rosec, Damien Lolive
Algorithme de découpage en groupes prosodiques pour la dictée par l’usage de synthèse vocale
L’objectif de cet article est de présenter un algorithme de segmentation automatique d’un texte en une séquence de groupes prosodiques dans le cadre de la génération de dictée. Ce découpage vise à respecter les règles et procédures utilisées dans un cadre de dictée pour des élèves de primaire. Une meilleure compréhension et modélisation de ces règles est primordiale pour développer des outils automatiques robustes ayant recours à la synthèse vocale ; ceux-ci pourront alors être utilisés par les enfants de manière autonome et leur permettre d’améliorer leur compétences à l’écrit par l’usage de synthèse vocale comme feedback audio. Les différentes étapes de dérivation des groupes prosodiques sont expliquées à travers des exemples concrets. À partir de l’analyse d’un corpus de 10 dictées en langue française données à des enfants dans des écoles primaires françaises et canadiennes, nous proposons un algorithme qui génère automatiquement les groupes prosodiques à partir du texte.
13
Philippe Boula de Mareüil, Albert Rilliard, Fanny Ivent
Une étude prosodique comparative des questions en français en contact avec l’occitan
Cet article rapporte une première analyse de données collectées en Provence et en Languedoc, lors d’une enquête de terrain menée auprès de locuteurs parlant, en plus du français, l’occitan (provençal ou languedocien). Nous avons notamment comparé la prosodie de questions totales terminées par un mot accentué sur l’avant-dernière syllabe (ex. caserna en occitan, « caserne » avec un schwa final prononcé en français méridional). Sur les deux dernières syllabes des questions, il apparaît que le patron mélodique montant-montant est le plus fréquent et, d’après une expérience perceptive utilisant la modification/resynthèse de prosodie, qu’il est préféré aux patrons montant-descendant et descendant-montant par des auditeurs méridionaux (sans différences significatives entre Provençaux et Languedociens). Les tests perceptifs n’ont pas permis d’attribuer des fonctionnalités spécifiques (demande d’information, demande de confirmation ou question incrédule) à ces différents patrons intonatifs.
32
Dominique Fourer, Marine Guerry, Takaaki Shochi, Jean-Luc Rouas, Jean-Julien Aucouturier, Albert Rilliard
Analyse prosodique des affects sociaux dans l’interaction face à face en japonais
Le but de cet article est de caractériser la prosodie attitudinale en langue japonaise. Ce travail s’appuie sur des travaux décrivant 16 attitudes correspondant à des situations de communication différentes. Ces situations peuvent, ou non être conventionnalisées dans la langue japonaise. Les paramètres estimés de fréquence fondamentale, d’amplitude et de durée ont été extraits d’énoncés exprimant ces 16 attitudes en japonais. Dans cette étude, nous présentons les effets sur ces paramètres des facteurs sexe du locuteur et expression attitudinale. Nous analysons également lesquels de ces paramètres prosodiques sont les plus discriminants pour caractériser acoustiquement chaque attitude.

Poster 2
mercredi 25/06, 8h45 → 10h45

3
Mohamed Morchid, Richard Dufour, Georges Linarès, Renato De Mori
Classification de transcriptions automatiques imparfaites : Doit-on adapter le calcul du taux d’erreur-mot ?
Les systèmes de reconnaissance automatique de la parole (RAP) sont désormais très performants. Néanmoins, la qualité de transcription est fortement dégradée dans des environnements très bruités, ce qui influe sur les performances des applications les utilisant, telles que les tâches de classification. Dans ce papier, nous proposons d’identifier les thèmes présent dans des services vocaux téléphoniques au moyen de l’approche classique à base de fréquences de mots (TF-IDF avec le critère de pureté Gini) et au moyen de l’approche à base d’espaces de thèmes (LDA). Ces deux représentations sont ensuite utilisées dans un processus de classification utilisant les SVM afin de retrouver le thème présent dans la conversation. Enfin, nous proposons de discuter autour de la qualité, en termes de taux d’erreur-mot, des mots identifiés comme discriminants et non-discriminants par les méthodes de représentation des dialogues étudiées dans cet article.
12
Sarah Samson Juan, Laurent Besacier, Solange Rossato
Construction faiblement supervisée d’un phonétiseur pour la langue iban à partir de ressources en malais
Cet article décrit notre collecte de ressources pour la langue iban (parlée notamment sur l’île de Bornéo), dans l’objectif de construire un système de reconnaissance automatique de la parole pour cette langue. Nous nous sommes plus particulièrement focalisés sur une méthodologie d’amorçage du lexique phonétisé à partir d’une langue proche (le malais). Les performances des premiers systèmes de reconnaissance automatique de la parole construits pour l’iban (< 20% WER) montrent que l’utilisation d’un phonétiseur déjà disponible dans une langue proche (le malais) est une option tout à fait viable pour amorcer le développement d’un système de RAP dans une nouvelle langue très peu dotée. Une première analyse des erreurs fait ressortir des problèmes bien connus pour les langues peu dotées : problèmes de normalisation de l’orthographe, erreurs liées à la morphologie (séparation ou non des affixes de la racine).
28
Audrey Acher, Marc Sato, Laurent Lamalle, Coriandre Vilain, Christophe Savariaux, Silvain Gerber, Arnaud Attyé, Alexandre Krainik, Georges Bettega, Christian Adrien Righini, Brice Carlot, Muriel Brix, Pascal Perrier
Evolution des activations cérébrales lors de la production de parole après exérèse au niveau de la cavité orale
A partir de données d’IRM fonctionnelle, acoustiques et praxiques, nous avons étudié les corrélats cérébraux de l’adaptation de la parole après une modification structurelle importante du conduit vocal lors de trois tâches : mouvements oro-faciaux silencieux, voyelles et syllabes. Onze patients ont été enregistrés lors de trois sessions, pré-opératoire et post-opératoire à 1 mois et 3 mois (pour sept d’entre eux aussi à 9 mois). Onze sujets contrôles ont été enregistrés en parallèle. Une analyse de groupe (patients/contrôles) « cerveau entier » révèle des patrons d’activation spécifiques aux patients au cours des différentes sessions en particulier pour la tâche de production de voyelles. De plus, une moindre activation cérébrale par rapport aux sujets sains a été observée pour toutes les tâches dans des régions motrices, sensorielles et d’intégration sensori-motrice. Nous interprétons ces résultats en relation avec la redéfinition des buts de parole et l’adaptation de modèles internes du système moteur périphérique.
29
Nathalie Vallée, Thi Thuy Hien Tran, Solange Rossato, Paolo Mairano
Structures syllabiques et caractéristiques du cycle mandibulaire : une étude articulatoire des asymétries
Notre étude tente de définir des éléments de la nature physique de la syllabe, et plus particulièrement, d’établir un lien entre asymétries phonétique et phonologique capable d’expliquer le MOP, principe phonologique empirique qui affecte les segments consonantiques à la position initiale de syllabe plutôt que finale. Les deux cadres théoriques qui s’intéressent à ce lien, Frame, then Content theory et Articulatory Phonology, laissent quelques interrogations qui nous amènent à le revoir sous l’aspect articulatoire, plus précisément, au niveau des caractéristiques du geste mandibulaire. Des études antérieures sur l’anglais-américain ont montré l’existence d’asymétries au niveau des phases du cycle mandibulaire qui pourraient expliquer les grandes tendances des structures syllabiques. Nous exposons ici des résultats préliminaires sur le français et le vietnamien.
44
Arseniy Gorin, Denis Jouvet
Modélisation de trajectoires et de classes de locuteurs pour la reconnaissance de voix d’enfants et d’adultes
Lorsque l’on considère de la parole produite par des enfants et des adultes, la variabilité acoustique de chaque unité phonétique devient grande, ce qui dégrade les performances de reconnaissance. Un moyen d’aller au-delà des modèles de Markov traditionnels, est de prendre en considération des classes de locuteurs. Les classes de locuteurs peuvent être obtenues automatiquement. Elles servent à fabriquer des modèles acoustiques spécifiques de chaque classe. Ce papier propose une structuration des composantes des densités multigaussiennes (GMMs) en relation avec des classes de locuteurs. Dans une première approche, cette structuration des densités est complétée par des pondérations des composantes gaussiennes dépendantes des classes de locuteurs, et dans une deuxième approche, par des matrices de transition entre les composantes gaussiennes des densités (comme dans les stranded GMMs). Ces deux approches apportent des gains substantiels pour la reconnaissance de voix d’enfants et d’adultes. La structuration des composantes gaussiennes complétée par des matrices de transition entre composantes réduit de plus d’un tiers le taux d’erreur mot sur le corpus TIDIGIT.
49
Hélène Bonneau-Maynard, Natalia Segal, Eric Bilinski, Jean-Luc Gauvain, Li Gong, Lori Lamel, Antoine Laurent, François Yvon, Julien Despres, Yvan Josse, Viet Bac Le
Traduction de la parole dans le projet RAPMAT
Le projet RAPMAT vise à développer des systèmes de traduction de la parole en s’intéressant aux deux traitements constitutifs de la chaîne complète : la reconnaissance de la parole (RAP) et la traduction (TA). Dans la situation classique, les modèles statistiques utilisés par les deux systèmes sont estimés indépendemment, à partir de données de différentes natures (transcriptions manuelles de données de parole pour la RAP et corpus bilingues issus de données textuelles pour la TA). Nous proposons une approche semi-supervisée pour l’adaptation des modèles de traduction à la traduction de parole, dans laquelle les modèles de TA sont entraînés en intégrant des transcriptions manuelles et automatiques de la parole traduites automatiquement. L’approche est expérimentée sur la direction de traduction français vers anglais. Un prototype de démonstration sur smartphones, incluant notamment la traduction de parole pour les paires de langues français/anglais et français/chinois a été développé pour permettre la collecte de données.
53
Antoine Laurent, Lori Lamel
Développement d’un système de reconnaissance automatique de la parole en coréen avec peu de ressources annotées
Ce papier décrit le développement d’un système de reconnaissance automatique de la parole pour le coréen. Le coréen est une langue alpha-syllabique, parlée par environ 78 millions de personnes dans le monde. Le développement de ce système a été mené en utilisant très peu de données annotées manuellement. Les modèles acoustiques ont été adaptés de manière non supervisée en utilisant des données provenant de différents sites d’actualités coréens. Le corpus de développement contient des transcriptions approximatives des documents audio : il s’agit d’un corpus transcrit automatiquement et aligné avec des données provenant des mêmes sites Internet. Nous comparons différentes approches dans ce travail, à savoir, des modèles de langue utilisant des unités différentes pour l’apprentissage non supervisé et pour le décodage (des caractères et des mots avec des vocabulaires de différentes tailles), l’utilisation de phonèmes et d’unités “demi-syllabiques” et deux approches différentes d’apprentissage non supervisé.
60
Souhir Bousselmi, Kaïs Ouni
Implémentation d’un nouvel algorithme de codage de la parole basé sur la transformation en paquets de framelettes
Dans ce papier nous proposons d’étudier un algorithme de codage de la parole en bande étroite et à débit fixe basé sur la transformation en paquets de framelettes. Cette nouvelle transformation permet d’obtenir une bonne localisation temps-fréquence et une décomposition en sous-bande selon un critère donné ou une application désirée. Une étude comparative avec la transformation en paquets d’ondelettes a été menée. Les résultats obtenus montrent que la qualité du codage basé sur la transformation en paquets de framelettes est supérieure à celle basé sur la transformation en paquets d’ondelettes.
62
Mathieu Radenen, Pierrick Milhorat, Thierry Artières, Jérôme Boudy, Gérard Chollet
Etude des HMMs paramétriques pour la reconnaissance de parole en environnement bruité
Nous décrivons une étude de la pertinence de HMM paramétriques, dans lesquels les paramètres des lois gaussiennes dépendent de variables externes dites contextuelles, pour une tâche de reconnaissance en environnement bruité. Les résultats montrent d’une part l’intérêt de ce type de modélisation pour des variables contextuelles de différentes natures, des variables calculées à partir du signal lui-même ou bien correspondant à des informations additionnelles sur le signal.
67
Ludivine Glas, Sophie Kern
Lien entre acquisition des premiers mots chez des enfants francophones monolingues et leur environnement langagier
Il existe une grande variabilité dans l’acquisition du vocabulaire chez le jeune enfant en termes quantitatif et qualitatif. Cette variabilité est expliquée par des caractéristiques individuelles, sociales et/ou linguistiques.
L’objectif de ce travail est d’observer l’influence de la quantité et la qualité d’exposition et de certaines caractéristiques interactionnelles des parents et enfants sur le développement précoce du vocabulaire chez l’enfant. Pour ce faire, nous avons analysé la production spontanée de 4 enfants français monolingues aux stades de 1-5 et 50 mots au regard de leur propre comportement linguistique et interactionnel ainsi qu’au regard de ceux de leurs parents. Les premiers résultats montrent une corrélation positive entre le comportement interactionnel des parents et le comportement linguistique des enfants, ainsi qu’une corrélation positive entre le comportement interactionnel des enfants et leur comportement linguistique futur. D’autres enfants et d’autres stades linguistiques seront analysés afin de vérifier la validité des résultats et leur stabilité au cours du développement.
73
Mickael Rouvier, Benoît Favre, Frédéric Béchet
Correction interactive de transcriptions de parole par fusion de phrases
La clarification sous forme de dialogue permet d’aider à corriger les erreurs de RAP dans un système de traduction de parole automatique ainsi que dans d’autres applications interactives. Nous proposons d’utiliser des variantes de Levenshtein pour fusionner une phrase contenant une erreur et une phrase de clarification. Les erreurs de RAP qui pourraient nuire à l’alignement sont traitées par correspondance phonétique et une distance de plongement de mots est utilisée pour prendre en compte les synonymes en dehors des segments d’erreurs. Ces paramètres permettent une amélioration relative de 30 % du taux d’erreur de mots sur une sortie de RAP comparé l’absence de clarification. De plus, nous générons un ensemble de fusions potentielles et entraînons un réseau de neurones afin de sélectionner la meilleure fusion, permettant de sélectionner correctement 24 % de plus d’instance. Le système est utilisé dans le cadre du projet BOLT.
80
David Alejandro Bustamante, Angélique Amelot, Claire Pillot-Loiseau
Etude de la production des voyelles nasales du français chez des apprenantes espagnoles et colombiennes
L’objectif de cette étude est de décrire la production des voyelles nasales françaises dans des mots et des logatomes produits par deux apprenantes espagnoles, deux apprenantes colombiennes du Français Langue Etrangère (FLE) et deux françaises natives dans trois positions syllabiques : initiale absolue, initiale inter-consonantique dans une séquence CVCV, et position finale de mot. Nous avons comparé leurs productions à l’aide d’un accéléromètre piézoélectrique enregistrant les vibrations nasales. Les résultats montrent une importante variabilité dans les trois positions syllabiques concernant (1) la durée des voyelles nasales notamment chez les colombiennes et (2) le RMS (Root Mean Square) nasal. En position finale de mot, la différence de durée entre [a, ɛ, o] et [ , ɛ, ] n’est pas significative dans les deux groupes d’hispanophones. Le groupe colombien utilise plus d’énergie acoustique nasale par rapport au groupe espagnol.
82
Josiane Riverin-Coutlée, Vincent Arnaud
Portrait acoustique d’une variation régionale en français québécois contemporain : l’ouverture de la voyelle /ɛ/ en finale de mot
Cette contribution est consacrée à l’étude acoustique d’un phénomène phonétique du français québécois qui à ce jour n’a reçu que peu d’attention : l’ouverture du /ɛ/ en finale absolue. Considéré en perte de vitesse au Québec, ce phénomène serait plus fréquemment produit par des locuteurs issus de milieux populaires en situation informelle, mais sans distribution géographique précise. L’analyse de la durée et de l’évolution temporelle des trois premiers formants de 473 occurrences produites en contexte formel (tâche de lecture en laboratoire) par 40 jeunes universitaires originaires des villes de Saguenay et de Québec (deux centres urbains de l’est du Québec) suggère néanmoins une vitalité du phénomène à Saguenay. Les résultats d’une série d’analyses discriminantes quadratiques indiquent que la prise en compte de F3, de la durée et de la dynamique spectrale en plus de F1 et F2 permet d’affiner la classification des occurrences en fonction de l’origine géographique des locuteurs.
83
Rajesh Khatiwada
L’articulation des coronales occlusives en népalais
Le népalais, langue de la famille indo-aryenne parlée par plus de 35 millions de locuteurs, est la langue officielle du Népal. Elle fait également partie des langues officielles parlées en Inde, on la retrouve aussi au Bhoutan. La première grammaire de la langue remonte au début du 19è siècle et très peu d’études phonétiques et phonologiques expérimentales ont été réalisées depuis. La présente étude décrit l’articulation des coronales occlusives népalaises qui sont divisées en trois catégories phonologiques – les dentales simples, les affriquées et les rétroflexes. Chacune de ces catégories est à leur tour classifiée, en fonction de leur voisement et de leur aspiration, en 12 segments : /t, th, d, dɦ/ (dentales), /ts, tsh, dz, dzɦ/ (affriquées) et /ʈ, ʈh, ɖ, ɖɦ/ (rétroflexes). Les méthodes palatographiques et linguographiques directes sont utilisées pour étudier les lieux d’articulation et les contacts linguaux chez 9 locuteurs.
86
Antoine Laurent, Nathalie Camelin, Christian Raymond
Boosting de bonzaïs pour la combinaison efficace de descripteurs : application à l’identification du rôle du locuteur
Dans ce travail, nous nous intéressons au problème de la détection du rôle du locuteur dans les émissions d’actualités radiotélévisées. Dans la littérature, les solutions proposées sont de combiner des indicateurs variés provenant de l’acoustique, de la transcription et/ou de son analyse par des méthodes d’apprentissage automatique. De nombreuses études font ressortir l’algorithme de boosting sur des règles de décision simples comme l’un des plus efficaces à combiner ces différents descripteurs. Nous proposons ici une modification de cet algorithme état-de-l’art en remplaçant ces règles de décision simples par des mini arbres de décision que nous appelons bonzaïs. Les expériences comparatives menées sur le corpus EPAC montrent que cette modification améliore largement les performances du système tout en réduisant le temps d’apprentissage de manière conséquente.
88
Nora Fangel-Gustavson, Rachid Ridouane
Le contraste quantitatif en saami de Lule : un système à trois niveaux
Le saami de Lule présente un système phonologique avec trois niveaux de quantité consonantique, un phénomène typologiquement rare. Ce travail examine la manière dont ce contraste ternaire est acoustiquement implémenté en se basant sur les productions de 7 locuteurs natifs enregistrés à Tysfjord en Norvège. Les analyses, et le traitement statistique des données, indiquent que ce contraste phonologique se manifeste principalement par une augmentation systématique et substantielle de la durée consonantique d’une quantité à une autre. Un léger réajustement de la durée des voyelles adjacentes a aussi été observé, avec une réduction plus importante pour la voyelle qui suit. Au-delà de ces paramètres temporels, nous avons aussi pu dégager d’autres corrélats de la (super)gémination impliquant plus particulièrement l’intensité des voyelles adjacentes. Les résultats de l’analyse phonétique sont interprétés du point de vue phonologique en questionnant notamment la manière dans les géminées et supergéminées sont représentées dans le cadre de la théorie moraïque.
89
Hyeran Lee, Philippe Gambette, Melissa Barkat-Defradas
iPhocomp : calcul automatique de l’indice de complexité phonétique de Jakielski
L’indice de complexité phonétique a été proposé par Jakielski afin d’estimer la difficulté à prononcer certains mots en anglais. Des études comparatives sur plusieurs types de pathologies du langage, dans des langues diverses, ont permis d’observer des comportements différents parmi les sujets étudiés, face à des mots d’indices de complexité phonétique variés. Nous proposons une interface web basée sur un dictionnaire phonétique afin d’estimer automatiquement l’indice de complexité phonétique d’un ensemble de mots en français : iPhocomp. Nous comparons l’étiquetage humain à l’étiquetage automatique fourni par iPhocomp afin d’estimer la performance de l’interface.
90
Hacène Bellemmouche, Frédérique Gayraud, Rim Hamdi-Sultan, Melissa Barkat-Defradas
Influence du développement phonético-phonologique sur les premières productions lexicales d’enfants arabophones : une étude longitudinale
Ce travail examine l’évolution de la complexité phonétique des premiers mots d’enfants arabophones en utilisant l’index de complexité phonétique de Jakielski (2000). Dans cette étude, 4 enfants (8 à 24 mois) ont été enregistrés en situation de communication naturelle. Les résultats indiquent que la complexité des productions enfantines augmente avec l’âge et la taille du vocabulaire. Nous observons qu’au cours du développement, les enfants produisent des mots de plus en plus complexes, mais dont la complexité phonétique est toujours inférieure à celle des mots cibles. Les premiers mots procèdent ainsi d’une forme de « sélection lexicale » opérée en fonction de la maturité phonatoire. De plus, les mères produisent des mots dont la forme sonore est simplifiée afin de s’adapter aux capacités motrices de leur enfant.
95
Suzanne Assadi
L’effet des contextes segmentaux et prosodiques sur la glottalisation de la voyelle initiale de mot en persan
Cette communication étudie l'effet des contextes segmentaux et prosodiques sur la glottalisation de la voyelle initiale de mot en persan. L'enregistrement du corpus est basé
sur 20 minutes de conversation avec trois sujets ainsi que sur 18 mots isolés. Les résultats montrent que la pause et la voyelle sont des contextes favorables pour l’occurrence du coup de glotte et de la glottalisation respectivement alors que la consonne (occlusive et fricative) les favorise le moins. La comparaison des voyelles initiales des mots accentués (mise en relief) avec celles des mots non-accentués révèle l’importance de l’accent d'insistance sur l'occurrence du coup de glotte et/ou de la glottalisation. Au contraire, l'accent lexical n'a pas d'effet sur cette occurrence et il n'y a pas de différence significative entre la durée de la partie glottalisée des voyelles accentuées et non accentuées.
97
Fethi Bougares, Anthony Rousseau, Paul Deléglise, Yannick Estève, Loïc Barrault, Holger Schwenk, Sylvie Brunessaux, Khaled Khelif, Mathieu Manta
Développement et Évaluation d’un Système de Traduction Automatique de la Parole en Pashto vers le Français
Le pashto fait partie des langues peu dotées caractérisées par un manque remarquable d’outils de traitement automatique. Ce travail présente une première expérience dans le LIUM avec la langue pashto. Dans cet article, nous présentons les résultats de nos premières expériences de traduction de la parole en pashto/français. La traduction de la parole pashto est réalisée en deux étapes : dans un premier temps, un système de transcription de la parole est utilisé pour transcrire de la parole. La sortie de la transcription est par la suite traduite avec un système de traduction statistique. Nous décrivons dans cet article les développements des différents modèles de chaque système. Ces travaux ont été réalisés en collaboration avec Airbus Defence and Space (anciennement Cassidian) dans le cadre du projet TRAD financé par la DGA.
99
Julien Plante-Hébert, Victor J. Boucher
L’identification vocale : pour une quantification des effets de la familiarité
La présente étude porte sur les effets de la familiarité dans l’identification de locuteurs dans une situation de parade vocale. Cette technique, inspirée d’une procédure d’identification visuelle d’individus, consiste en la présentation de plusieurs voix avec des aspects acoustiques similaires définis selon des critères reconnus. L’objectif principal était de déterminer si un contrôle de la familiarité d’une voix dans une parade vocale permet d’obtenir un haut taux d’identification vocale (> 99 %). Notre étude est la première à quantifier le critère de familiarité selon le degré de contact entre un témoin et un individu associé à une « voix cible» dans une parade vocale. Les résultats indiquent qu’un très haut taux d’identification vocale s’obtient par l’application d’un index de familiarité en contrôlant pour la longueur des stimuli vocaux.
101
Zeineb Ammar, Cécile Fougeron, Rachid Ridouane
A la recherche des traces dialectales dans l’arabe standard : production des voyelles et des fricatives inter-dentales par des locuteurs tunisiens et marocains.
Ce travail s’intègre dans un projet plus large visant à examiner les transferts phonologiques des dialectes arabes dans les productions des locuteurs arabophones natifs lorsqu’ils s’expriment en arabe standard. Nous étudions ici la production des voyelles et fricatives inter-dentales produites par 11 locuteurs du dialecte tunisien sur un corpus lu en arabe standard. Ces productions sont comparées à celles de 5 locuteurs marocains servant de groupe contrôle. Nos résultats montrent que plusieurs indices segmentaux permettent de distinguer les productions en arabe standard des locuteurs d’origines dialectales différentes : les timbres vocaliques, la production du contraste de durée entre les voyelles longues et brèves, et la réalisation des fricatives inter-dentales. Ces indices sont interprétés comme des traces de leur dialecte d’origine.

Oral 3
mercredi 25/06, 13h45 → 15h45

Voix

Chairman : N. Henrich

4
Alain Ghio, Marielle Mas, Cécile Grigoli, Céline Delooze, Danièle Robert, Céline Mercier, François Viallet
Contribution à la modélisation de la phonation parkinsonienne : contraintes physiologiques et linguistiques
Des caractéristiques importantes de la parole dans la maladie de Parkinson (MDP) sont un trouble phonatoire et/ou une déstructuration mélodique. La fréquence fondamentale (F0) apparait donc comme un paramètre important à étudier dans ce cadre. Or, la littérature laisse apparaître des résultats contradictoires : élévation, baisse ou pas de différence de F0 dans la MDP par rapport à une population de sujets contrôle. Ces contradictions sont liées à la non prise en compte de modèle de phonation dans la MDP. L’objet de ce travail est donc de fournir un cadre conceptuel et méthodologique permettant d’expliquer les résultats obtenus sur la F0 de 44 locuteurs (29 patients MDP et 15 sujets témoins) notamment en contrôlant des contraintes physiologiques (sexe, âge, état pharmacologique des patients) et linguistiques (tâches de production de parole).
21
Marwa Thlithi, Thomas Pellegrini, Julien Pinquier, Régine André-Obrecht, Patrice Guyot
Application du critère BIC pour la segmentation en tours de chant
Dans le cadre d’un projet sur l’indexation de documents ethnomusicologiques sonores (ANR CONTINT DIADEMS), le repérage des chanteurs et des chœurs est apparu comme essentiel et nous a amené à s’interroger sur la notion de « tours de chant ». Dans cet article, nous présentons nos premiers pas dans le domaine en proposant une méthode de segmentation fondée sur le Critère d’Information Bayésien (BIC) qui vise à détecter des changements de chanteurs dans des enregistrements musicaux. Le corpus de cette étude est composé d’enregistrements musicaux fournis par des ethnomusicologues et il nous permet d’illustrer l’importance du coefficient de pénalité du critère BIC : sa valeur optimale varie en fonction du contenu des enregistrements. Pour s’affranchir de l’apprentissage d’une unique valeur de ce paramètre, nous proposons de recueillir plusieurs segmentations pour plusieurs valeurs du paramètre et de consolider la détection a posteriori. Un gain relatif en termes de F-mesure, de 15% (7% absolu) est obtenu entre cette décision a posteriori et une décision prise après apprentissage du coefficient de pénalité.
37
Léonidas Ioannidis, Jean-Luc Rouas, Myriam Desainte-Catherine
Caractérisation et classification automatique des modes phonatoires en voix chantée
Dans cette étude, nous présentons une analyse de paramètres de la voix pouvant permettre de caractériser et détecter automatiquement les modes phonatoires de la voix chantée. L’objectif est d’étudier les différences dans le contenu spectral entre les types de phonation et de valider leur capacité à les classer automatiquement avec des méthodes d’apprentissage. Cela revêt un intérêt lorsque l’on cherche à caractériser la qualité vocale du chant car le mode phonatoire est un des principaux éléments. De nombreuses applications sont envisageables au niveau de l’indexation et de la recherche d’information dans les signaux audio. Nous présentons ici une méthode basée sur des méthodes d’apprentissage automatique en utilisant un ensemble de paramètres acoustiques et une base de données adéquate. Cette méthode nous permet d’obtenir des résultats de classification des quatre modes phonatoires principaux avec une F-mesure supérieure à 0.8.
70
Jean-Sylvain Liénard, Claude Barras
Étude des voyelles et de la force de voix par analyse discriminante
L'effort vocal, représenté ici par une mesure d'intensité objective appelée force de voix, est à la fois un facteur de variabilité de la parole et une grandeur acoustique utilisée par les interlocuteurs pour échanger diverses informations dans une situation donnée. La présente étude s'intéresse aux indices acoustiques codant ces informations dans le spectre des voyelles. L'Analyse Discriminante est mise en œuvre d'une part pour identifier les voyelles et d'autre part pour estimer la force de voix en dépit de leurs variabilités mutuelles. Les résultats, établis sur deux bases de données différentes, montrent que la force de voix peut être estimée avec précision à partir du spectre des voyelles et que la connaissance préalable de la force de voix permet d'améliorer la classification des voyelles.

Oral 4
mercredi 25/06, 16h15 → 17h45

Développement et apprentissage

Chairman : C. Pillot-Loiseau

31
Hélène Guiraud, Emmanuel Ferragne, Nathalie Bedoin, Sonia Krifi-Papoz, Vania Herbillon, Aurélia Bascoul, Sibylle Gonzalez-Monge, Véronique Boulenger
Perception de la parole rapide chez les enfants présentant une dysphasie expressive
Notre système cognitif est capable de s’adapter rapidement aux variations de débit de parole afin de comprendre le message. Des études suggèrent que cette adaptation active les régions prémotrices du cerveau, impliquées dans la production de parole. Cette étude examine comment les enfants présentant des troubles expressifs du langage traitent la parole produite à un débit rapide. Dix-sept enfants (8-13 ans) présentant une dysphasie expressive, appariés à des enfants contrôles, ont réalisé une tâche de jugement sémantique de phrases produites à trois débits de parole (normal, naturel rapide et compressé artificiellement). Les performances des enfants dysphasiques sont plus faibles, en termes de temps de réponse et d’indice de sensibilité (d’), que les contrôles, plus particulièrement lorsque le débit est rapide. Un déficit de perception de parole rapide semble donc exister chez ces enfants, suggérant un rôle des processus impliqués dans la production de la parole dans les processus de perception.
50
Véronique Delvaux, Julie Cano-Chervel, Kathy Huet, Myriam Piccaluga, Bernard Harmegnies
Capacités d’apprentissage phonétique chez les sujets âgés francophones
Cette étude investigue les capacités d’apprentissage phonétique chez des personnes âgées francophones, afin de fournir la ligne de base nécessaire à des comparaisons ultérieures avec des sujets âgés atteints de troubles de la parole. 9 hommes et 9 femmes (55-80 ans) dont la langue maternelle est le français ont été soumis à diverses tâches de production (répétition « la plus fidèle possible ») et de perception (discrimination AX), de pseudo-mots CV dont le VOT varie entre 20ms (typique du français) et 100 ms (VOT extra-long). En moyenne, les performances en discrimination sont modérées mais s’améliorent au fil du temps, avec une importante variabilité inter-individuelle. L’analyse statistique des mesures de VOT montre que les VOT des reproductions sont positivement corrélés aux VOT des stimuli, et que les performances sont significativement meilleures après vs. avant la tâche de reproduction. L’interaction significative entre les variables "Sujet" et "Tâche" est discutée ici, notamment dans le cadre plus général du débat sur la flexibilité à l’âge adulte des mécanismes cognitifs impliqués dans la production et la perception de la parole.
75
Jean-Marc Colletta, Catherine Pellenq, Ali Hadian Cefidekhanie
Production et planification de la parole spontanée en contexte narratif chez l’enfant âgé de 3 à 11 ans
Le traitement de la parole en production chez l’enfant reste un phénomène mal connu. Cette étude met en évidence des évolutions en fonction de l’âge chez 85 enfants âgés de 3 à 11 ans en train de raconter à partir d’un extrait de film d’animation. Les productions linguistiques des sujets ont été transcrites et annotées sous ELAN. Pour chaque récit, nous avons évalué la quantité d’informations verbalisées et nous avons mesuré le débit de parole ainsi que la densité informationnelle des groupes phoniques (segments de parole séparés par des pauses). Les résultats obtenus montrent une augmentation de toutes les variables mesurées ainsi qu’une accélération du débit au fil de l’âge et suggèrent l’existence de deux patrons développementaux distincts, l’un portant sur les habiletés en matière d’encodage et de planification de la parole, l’autre sur les performances narratives. La discussion explore les points de rendez-vous possibles et fournit de nouvelles hypothèses.

Poster 3
jeudi 26/06, 8h45 → 10h45

9
Merouane Bouzid
Quantificateur vectoriel à divisions par classification : Application au codage des fréquences spectrales d’immitance en large-bande
Dans cet article, nous présentons un schéma de quantification vectorielle à divisions par classification développé pour le codage efficace des paramètres fréquences spectrales d’immitance ISF (Immittance Spectral Frequencies) de parole en large-bande. Ce système de codage a été conçu à base d’un quantificateur vectoriel classifié (CVQ) combiné avec un quantificateur vectoriel divisé (SVQ), selon des suppositions de transmission à travers un canal non bruité.
11
Gaëlle Ferré
Tension gestuelle en co-présence d’un accent d’intensité
Selon McNeill (1992, 2005), gestes co-verbaux et parole émergent d’une même source cognitive et forment un ensemble indivisible dans la communication linguistique. Cette proposition, déjà relativement ancienne, a trouvé un écho dans des travaux plus récents de sciences cognitives, dans les courants de cognition dite « située » (Barsalou, 2008) et « incarnée » (Iverson & Thelen, 1999) pour lesquels l’activité cognitive se nourrit de l’environnement (le contexte) et d’informations proprioceptives. La communication linguistique relève à la fois des modalités vocales et gestuelles, tant sur le plan segmental que sur le plan supra-segmental, et il est donc naturel de trouver des caractéristiques communes d’une activité linguistique dans les deux modalités. Dans cet article, nous étudions les liens entre un trait supra-segmental vocal (l’accent d’intensité) et un trait supra-segmental gestuel (la tension de la main) lorsque geste et accent d’intensité sont produits simultanément.
15
Julie Mauclair, Thomas Pellegrini, Maxime Le Coz, Marina Robert, Peggy Gatignol
Caractérisation acoustico-phonétique de parole provenant de patients atteints de paralysie faciale
La caractérisation de la parole pathologique est un problème important pour la détection et le diagnostic précoces. La parole pathologique étudiée dans cet article, provient de patients paralysés faciaux, souffrant notamment de problèmes de prononciation des plosives. Plusieurs paramètres sont extraits d’un détecteur automatique de bursts en vue de caractériser cette altération. L’une des autres hypothèses étudiées ici est que les cibles vocaliques souffrent de la mauvaise prononciation des consonnes, et ont une réalisation approximative. Une analyse des voyelles et des bursts est donc proposée en fonction des différents grades de sévérité de la paralysie des patients. Une diminution significative du nombre de bursts, des écart-type des durées de ceux-ci et du F2 des voyelles /i, e, E, a/ ont été observés pour les patients du corpus. Le F3 des voyelles /i, y/ est affecté, montrant que les patients ont du mal à produire ces voyelles, faisant intervenir les lèvres.
16
Jonathan Chevelu, Gwénolé Lecorvé, Damien Lolive
Roots : un outil pour manipuler facilement, efficacement et avec cohérence des corpus annotés de séquences
De nombreux outils de traitement automatique de la parole et du langage naturel permettent aujourd’hui d’annoter des documents écrits et oraux. Cependant, cette richesse logicielle conduit à une grande diversité de formats de fichiers et de types d’information. Du fait de cette hétérogénéité, le développement de processus de traitements complexes nécessite souvent de convertir et d’aligner, parfois de manière répétée, de nombreuses informations. Pour pallier ce problème, cet article présente ROOTS, un outil libre dédié à la manipulation homogène de données séquentielles annotées. Écrit en C++ et disposant d’une interface de programmation (API) dans plusieurs langages, ROOTS est rapide et facile à prendre en main. Ces propriétés sont étayées par deux exemples applicatifs.
19
Jérôme Lehuen
Le couple YASP/YADE — Yet Another Semantic Parser/Yet Another Dialogue Engine
Cet article présente un modèle original de représentation des connaissances sémantique, un module de compréhension du langage parlé reposant sur ce modèle, et un gestionnaire de dialogue reposant également sur ce même formalisme. Ces composants, associés à un module de reconnaissance de la parole et à un module de synthèse vocale, constituent un système de dialogue oral complet. Le système de compréhension a été développé et évalué avec les données du corpus MEDIA et s’est bien positionné par rapport aux systèmes évalués lors de la campagne MEDIA. Les énoncés du dialogueur combinent restitution et génération de texte dans une optique de reformulation de parties d’énoncés de l’usager, afin d’en « négocier le sens » et potentiellement de récupérer certaines erreurs. L’approche unifiée qui consiste à faire reposer compréhension et interaction sur les mêmes connaissances rentabilise le coût de production de ces connaissances tout en assurant une cohérence sémantique entre ces deux aspects.
20
Ivana Didirkova, Fabrice Hirsch
Etude préliminaire de l’influence des caractéristiques phonétiques sur le bégaiement : le cas du français et du slovaque
Le bégaiement est une altération de la fluence de la parole qui touche environ 1% de la population mondiale. Si ce trouble de la communication a donné lieu à un grand nombre de travaux visant à repérer les éléments (phonologiques, lexicologiques, …) pouvant être à l’origine d’une disfluence, il s’avère que la plupart d’entre eux ont été menés sur des locuteurs parlant l’anglais des Etats-Unis. Peu de recherches ont cherché à savoir si le bégaiement pouvait se manifester différemment d’une langue à une autre. L’objectif de notre travail consiste à étudier la fréquence d’apparition des disfluences sur des locuteurs francophones et slovacophones afin de déterminer s’il existe une influence de la structure phonologique sur l’apparition des bégayages. Sur cinq critères analysés, des variations inter-langues ont été constatées pour trois d’entre eux : nature du phonème, lieu d’articulation des voyelles et celui des consonnes.
22
Kemiha Mina, Abdellah Kacha, Mounir Boudjerda
Estimation de la source glottique par décomposition modale empirique
Dans cet article, la décomposition modale empirique est proposée comme alternative pour estimer la source glottique à partir du signal de parole. En utilisant l’algorithme de décomposition modale empirique, le logarithme de l’amplitude du spectre du signal de parole est décomposé en composantes oscillatoires appelées fonctions de modes intrinsèques. Une procédure adaptative est ensuite utilisée pour sélectionner les fonctions de modes intrinsèques appropriés qui constituent l’amplitude dans le domaine log spectral de la source glottique. L’exploitation de l’information de phase obtenue à partir du signal acoustique conjointement avec la somme des fonctions de modes sélectionnées permet d’obtenir une estimation de la source glottique. La méthode proposée est testée sur des signaux de parole synthétiques et comparée avec la méthode d’estimation de la source glottique basée sur le cepstre.
25
Cedric Gendrot
Perception et Réalisation du /R/ standard français en finale de mot
La variabilité du /R/ en français (comme dans d'autres langues) est reconnue dans la littérature, et ses différentes réalisations sont souvent considérées comme des variantes libres.
Dans cette étude, afin de mieux appréhender la variabilité du /R/, nous nous concentrons sur le /R/ final de mot, et nous avons choisi de l'étudier à l'aide d'une approche en 2 étapes : (1) au moyen d'un test de perception. Dans un premier temps des séquences de 2 mots séparées par la présence du /R/ (par exemple "par les" / "pas les") ont été sélectionnées afin de constituer un continuum entre un /R/ pleinement réalisé et un /R/ élidé. Ces items ont été soumis à 23 auditeurs pour un test d'identification afin de relever les paramètres pertinents à la perception du /R/ et ainsi proposer une mesure de rhoticité.
(2) Cette mesure de rhoticité, une fois utilisée sur de grands corpus de parole continue (spontanée et journalistique) nous permet d'appréhender la variabilité du /R/ d'après des prédicteurs tels que la fréquence de digrammes, le débit, le contexte phonémique, et la position prosodique.
27
Camille Fauth, Béatrice Vaxelaire, Jean-François Rodier, Pierre-Philippe Volkmar, Rudolph Sock
Perturbations du Voice Onset Time (V.O.T) et du Voice Termination Time (V.T.T.) dans des séquences VCV produites par des patients francophones souffrant de paralysies récurrentielles
Ce travail entend étudier les caractéristiques temporelles de la voix de patients présentant une paralysie récurrentielle post-thyroïdectomie, à l’aide de différents indices spatio-temporels tels que le V.OT. et le V.T.T. Il s’agit en réalité d’analyser les conséquences d’une paralysie récurrentielle sur le timing oro-laryngé des patients. 7 patients ont été enregistrés lors de trois phases post-opératoires. Notre corpus est composé de douze logatomes de type VCV.
Notre démarche se veut articulatori-acoustique, puisqu’il s’agit d’observer à partir du signal acoustique continu, les différents indices articulatori-acoustiques qui peuvent nous permettre de remonter aux timing et aux configurations articulatoires. Une modification statistiquement significative de la durée du V.O.T. apparait pour les consonnes voisées uniquement dans les phases d’enregistrement post-opératoires proches de l’opération. La durée du V.T.T. n’est en revanche pas modifiée. Le temps et la rééducation vocale permettent un retour à des valeurs proches de celles obtenues pour les locuteurs contrôles.
45
Thi Thuy Hien Tran, Nathalie Vallée, Quang Thuan Nguyen
Étude des productions des consonnes du français par des apprenants vietnamiens du Français Langue Etrangère
Ce travail s’inscrit dans les recherches sur l’apprentissage des langues étrangères et traite plus particulièrement de l’acquisition des consonnes par des apprenants vietnamiens de deux niveaux, intermédiaire et avancé. Il s’agit d’une étude expérimentale sur la réalisation des consonnes en pseudo-mots et mots en tenant compte de leur position dans le mot, dans la syllabe. Dans une tâche de répétition, les stratégies de production des consonnes du français sont analysées typologiquement et quantitativement. L’objectif global de ce travail est de situer et comprendre les difficultés rencontrées par les étudiants vietnamiens, même de niveau avancé, à réaliser les consonnes simples et/ou les consonnes en séquences du français. Les résultats sont analysés par rapport aux éléments du crible phonologique de la L1 et par rapport aux tendances universelles des langues.
48
Camille Dutrey, Sophie Rosset, Martine Adda-Decker, Chloé Clavel, Ioana Vasilescu
Disfluences dans la parole spontanée conversationnelle : détection automatique utilisant des indices lexicaux et acoustiques
La parole spontanée est caractérisée par la présence de nombreux éléments disfluents qui peuvent s’avérer très informatifs quant au déroulement et à la compréhension du dialogue, tout en étant un obstacle à l’application de certains traitements automatiques. Nous proposons une méthode pour la détection automatique de disfluences dans des données conversationnelles en français. Nous développons et évaluons une méthode d’étiquetage séquentiel à base de CRF, reconnus pour donner de très bons résultats sur des tâches similaires. Notre système s’appuie sur des indices à la fois lexicaux et prosodiques : la combinaison de traits et de patrons construits à partir des transcriptions manuelles et du signal acoustique donne les meilleurs résultats pour de la détection de frontière, mais les indices acoustiques semblent dégrader les résultats pour une tâche conjointe d’identification de frontière et de structuration de la disfluence.
51
Layla El Asri, Hatim Khouzaimi, Romain Laroche, Olivier Pietquin
Régression ordinale pour la prédiction de la qualité d’interaction
La prédiction automatique de la qualité d’un dialogue permet d’assurer le suivi de la performance d’un système de dialogue et si nécessaire, adapter le comportement de celui-ci. Le modèle de prédiction est appris à partir d’un corpus de dialogues évalués par des utilisateurs ou des experts. Nous proposons dans cet article de modéliser cette tâche en tant que problème de régression ordinale. Nous appliquons les machines à vecteurs supports pour la régression ordinale sur un corpus de dialogues où un score allant de 1 à 5 mesurant la qualité d’interaction a été donné par des annotateurs experts après chaque échange système-utilisateur. Comparée aux modèles de classification et de régression précédemment proposés pour cette tâche, la régression ordinale produit des résultats significativement meilleurs selon les métriques suivantes : le coefficient κ de Cohen, le coefficient de corrélation de Spearman ainsi que les erreurs euclidienne et en valeur absolue.
54
Sandrine Brognaux, Sophie Roekhaut, Thomas Drugman, Richard Beaufort
Train&Align : un outil d’alignement phonétique automatique disponible en ligne
Plusieurs outils d’alignement phonétique automatique de corpus oraux sont actuellement disponibles. Ils exploitent généralement des modèles indépendants du locuteur pour aligner de nouveaux corpus. Leur désavantage est qu’ils couvrent un nombre très limité de langues et fournissent parfois un alignement de qualité réduite quand ils sont appliqués sur différents styles de parole. Cet article présente Train&Align, un nouvel outil d’alignement phonétique automatique disponible en ligne (http://cental.fltr.ucl.ac.be/train_and_align). Sa spécificité est qu’il entraîne les modèles directement sur le corpus à aligner, ce qui le rend applicable à toutes les langues et à tous les styles de parole. Des tests effectués sur six corpus dans plusieurs langues et styles de parole montrent qu’il produit un alignement de qualité comparable aux autres outils d’alignement. Train&Align permet également d’optimiser certains paramètres d’entraînement. Ainsi, une partie manuellement alignée du corpus peut notamment être utilisée afin d’améliorer la qualité des modèles. Les tests montrent une amélioration du taux d’alignement dépassant les 15%, quand 30 secondes de corpus aligné manuellement sont utilisées.
55
Léa Cottavoz, Silvain Gerber, Bernard Teston, François Viallet, Didier Demolin
Aspects de la coordination pneumophonique dans la dysarthrie parkinsonienne
Cette étude cherche à évaluer les phénomènes dysarthriques résultant de la relation entre l’énergie pulmonaire et l’activité phonatoire chez des locuteurs parkinsoniens. Les comportements articulatoires des sujets sont aussi considérés. Les données proviennent de 23 sujets produisant 6 répétitions de courtes phrases dans l’état ON (avec dopamine) et OFF (sans dopamine). Les données ont été enregistrées avec la station EVA2. Les résultats des mesures aérodynamiques montrent que la pression intra-orale (PIO) est affectée par des fermetures courtes ou incomplètes des lèvres. La valeur de la PIO est en effet plus faible ou diminue progressivement chez les parkinsoniens.
76
Nicolas Ballier, Elisabeth Delais-Roussarie, Sophie Herment, Anne Tortel
Modélisation de l’intonation interlangue : le cas des questions
Cet article propose d’étudier les patrons prosodiques observés dans la production d’apprenants afin d’évaluer ce qui contraint les déviances : des différences systémiques entre la L1 des apprenants et la L2, des différences d’implémentation phonétique, etc. L’analyse consiste en une étude croisée de l’intonation des questions polaires en français, en anglais et en anglais L2. Cinq questions polaires ont été extraites du corpus AixOx, ensemble de 40 textes qui ont été lus par 10 locuteurs natifs de français, 10 locuteurs natifs d’anglais et 20 apprenants francophones d’anglais (10 de niveau indépendant et 10 de niveau expérimenté). L’analyse des données montre que les différences entre natifs et non natifs n’affectent pas la forme du contour nucléaire, mais que les apprenants francophones d’anglais tendent à assigner un mouvement montant à la fin des mots prosodiques, ce qui engendre une claire différence de rythme.
77
Chakir Zeroual, John H. Esling, Lise Crevier-Buchman
Contribution à l’étude physiologique des possibilités articulatoires dans la cavité pharyngale
Nous présentons des productions enregistrées par naso-endoscopie des consonnes postérieures de l’arabe marocain (AM) faites par un locuteur natif qui est également un phonéticien entraîné. Des constrictions pouvant correspondre à des linguo-pharyngales (ou upper-pharyngeals) fricatives et occlusives sont également présentées pour vérifier l’hypothèse de Maddieson (2009) selon laquelle ces dernières seraient possibles. D’après nos observations, l’AM a des consonnes épiglottales ayant une constriction épiglotto-pharyngale (ou lower-pharyngeal) et une autre aryépiglottale, le larynx étant élevé. Par contre, les articulations linguo-pharyngales occlusives et non-occlusives montrent une constriction linguo-pharyngale partielle, une compression du sphincter aryépiglottique et une position abaissée du larynx ; la glotte est fermée durant l’occlusive. Nos données semblent confirmer la prédiction d’Esling (1996) selon laquelle les articulations « pharyngales » possèdent une constriction aryépiglottique ; l’opposition entre les pharyngales et les épiglottales est contrôlée par la section du sphincter aryépiglottique et la position du larynx.
78
Diane Caussade, Nathalie Vallée, Nathalie Henrich Bernardoni, Jean-Marc Colletta
Coordination/synchronisation gestes-voix dans la démence de la maladie d’Alzheimer en voix parlée et chantée : une étude de cas
Dans la démence de la maladie d’Alzheimer, les études sur la production bimodale du langage n’abordent pas l’aspect concomitant parole-geste. Nous proposons un protocole expérimental original en voix parlée et chantée visant à décrire les troubles de la coordination/synchronisation entre parole et gestualité manuelle chez des patiens Alzheimer. Le protocole a été testé lors d’une étude de cas sur une patiente et une participante contrôle. Les résultats obtenus avec cette étude pilote montrent que les capacités communicatives de la patiente sont affectées dans leur multimodalité aussi bien au niveau de la coordination/synchronisation gestes-voix qu’au niveau de la qualité de l’exécution des gestes, notamment s’ils sont effectués en voix parlée ou chantée. Des différences sont observées en fonction de la valeur (déictique, rythmique ou représentationnel) des gestes.
104
Luiza Orosanu, Denis Jouvet
Combinaison de mots et de syllabes pour transcrire la parole
Cet article analyse l’intérêt de modèles de langage hybrides pour transcrire de la parole. L’objectif est d’utiliser une telle solution pour aider à la communication avec des personnes sourdes, et de la mettre en œuvre sur un terminal portable, ce qui introduit des contraintes sur la taille du modèle. Les unités linguistiques considérées pour cette tâche sont les mots et les syllabes. Des lexiques de différentes tailles sont obtenus en variant le seuil de sélection associé aux fréquences d’occurrence des mots dans les données d’apprentissage, les mots les moins fréquents sont alors décomposés en syllabes. Ce type de modèle de langage peut reconnaître entre 69% et 96% des mots (le reste étant représenté par des syllabes). En ajustant le seuil sur les mesures de confiance associées aux mots reconnus, les hypothèses de mots les plus fiables peuvent être identifiées (à un taux de bonne reconnaissance variant entre 70% et 92%).
107
Benjamin Bigot, Grégory Senay, Georges Linarès, Corinne Fredouille, Richard Dufour
Modèles contextuels continus pour la reconnaissance des noms de personnes dans des transcriptions automatiques
La détection de noms de personnes dans des flux audios est un problème critique en reconnaissance et compréhension de la parole, en particulier parce que ces noms portent une information essentielle sur le contenu sémantique du document. La difficulté de la reconnaissance vient de leur nombre, de leur diversité et du caractère imprévisible de leur contexte d’apparition : ils sont souvent liés à un fait d’actualité ponctuel. Ces caractéristiques rendent difficile la conception de lexiques de reconnaissance suffisamment couvrants. Nous traitons ce problème en proposant une méthode de modélisation des contextes lexicaux liés aux noms de personnes ; ces modèles de contexte doivent permettre d’évaluer la probabilité d’un nom par l’analyse du contexte lexical de son occurrence. Nos premières expériences sont réalisées dans le cadre du défi ANR REPERE. Elles valident à la fois l’intérêt de l’approche et la pertinence des modèles proposés.
108
Xavier Bost, Marc El-Bèze, Renato De Mori
Catégorisation multi-thématique de dialogues téléphoniques
Ce papier porte sur l’analyse automatique de dialogues téléphoniques entre un client et un agent d’un centre d’appel d’un service clientèle. Le but de l’analyse est d’identifier, parmi un ensemble thématique prédéfini, les thèmes des problèmes évoqués dans le dialogue. Un dialogue peut contenir des thèmes multiples mentionnés dans des segments entremêlés difficiles à délimiter. Deux méthodes sont proposées pour conjecturer les thèmes multiples. La première repose sur une mesure de similarité cosine appliquée au sac de mots extrait de la totalité du dialogue. La seconde méthode introduit le concept de densité thématique distribuée autour de positions spécifiques du dialogue. En plus des unigrammes, sont également pris en compte les bigrammes, avec d’éventuels trous entre les deux termes. Les résultats expérimentaux obtenus par les méthodes proposées apparaissent supérieurs à ceux obtenus par des machines à support de vecteurs appliquées aux mêmes données.
109
Mohamed Bouallègue, Driss Matrouf, Georges Linarès
Analyse factorielle pour une représentation vectorielle des états des Modèles de Markov Cachés
Dans cet article nous proposons une représentation vectorielle des états des modèles de Markov cachés (HMM, Hidden Markov Models). L’idée de base nous a été inspirée par l’approche SGMM (Subspace Gaussian Mixture Models paradigm). Modéliser les états des HMMs par de simples vecteurs (au lieu de GMMs) permet de faciliter un grand nombre de tâches dans le cadre du traitement automatique de la parole, comme la classification automatique des états ou des phonèmes. La représentation vectorielle des états permet de voir les états comme un nuage de points dans un espace multi-dimensionnel, ce qui permet d’étudier ses caractéristiques en utilisant des techniques d’analyse de données. Dans cet article, nous expliquerons comment obtenir cette représentation et comment l’utiliser pour réaliser la procédure de partage d’états pour estimer des modèles contextuels avec des états partagés. Nous comparons notre approche avec celle fondée sur l’utilisation des arbres de décision.

Oral 5
jeudi 26/06, 13h45 → 15h45

Transcriptions et traitements automatiques

Chairman : P. Deléglise

8
Félicien Vallet, Jean Carrive
Quand l’horloge parlante a beaucoup à raconter sur l’évolution des techniques d’archivage audiovisuel
Depuis sa création en 1974, l’Institut national de l’audiovisuel (Ina) est chargé de rassembler et conserver les images et les sons qui fondent la mémoire collective française, leur donner du sens et les partager avec le plus grand nombre. En coïncidence des innovations technologiques, le métier d’archiviste a évolué au cours des années pour répondre à l’émergence de nouveaux défis : évolution des supports physiques, apparition de l’ordinateur, stockage massif de données, numérisation des fonds, multiplication des chaînes de télévision et de radio à collecter, etc. Dans cet article nous revenons sur un des choix technologiques faits par les diffuseurs de programmes télévisés : celui d’utiliser un enregistrement de l’horloge parlante pour indexer les programmes de télévision sauvegardés. Cette manipulation d’horodatage, qui peut être considérée comme l’ancêtre du timecodage, consiste à utiliser la stéréophonie pour enregistrer le signal audio utile sur un canal et l’heure courante donnée par l’horloge parlante sur l’autre (le son TV étant quasi-exclusivement mono à cette époque). De la fin des années 1970 au milieu des années 1990, environ 70 000 bandes d’archives ayant subi ce traitement ont ainsi été collectées par l’Ina. Cependant, à cette époque, aucune méthode de traitement automatisé n’avait été imaginée…
38
Benjamin Lecouteux, Didier Schwab
Reconnaissance automatique de la parole à l’aide de colonies de fourmis
Cet article présente une approche originale permettant de décoder des graphes issus d’un Système de Reconnaissance Automatique de la Parole (SRAP) à l’aide d’un algorithme constructif : les colonies de fourmis. L’application d’un modèle de langage d’ordre supérieur à un graphe nécessite son extension afin de construire des historiques correspondants à chaque nouvel n-gramme observé. Cette extension peut rapidement engendrer des calculs lourds et une consommation de mémoire conséquente. Nous proposons une alternative où des colonies de fourmis explorent le graphe avec un nouveau modèle de langage sans la nécessité d’effectuer une extension. Nous présentons des premiers résultats encourageants se basant sur le corpus anglais TED où des bi-grammes sont réévalués en quadri-grammes. Finalement, nous discutons sur les atouts de cette approche qui permet d’envisager des décodages massivement parallélisables pour un même graphe ainsi que des contrôles stricts du temps de calcul et de la mémoire.
58
Abdessalam Bouchekif, Géraldine Damnati, Delphine Charlet
Exploitation de la distribution des locuteurs pour la segmentation thématique de journaux télévisés
Dans cet article, nous étudions l’apport de la distribution des locuteurs dans le cadre de la segmentation thématique de journaux télévisés. A partir d’un système fondé sur la cohésion lexicale, nous proposons une méthode qui intègre directement la distribution des locuteurs dans le calcul de la cohésion. Une frontière potentielle est valide si la distribution conjointe des mots et des locuteurs diffère suffisament de part et d’autre de la frontière. Des expériences menées sur deux corpus couvrant 8 chaînes françaises montrent une amélioration du processus global de segmentation.
98
Frédéric Béchet, Benoît Favre
Détection et caractérisation d’erreurs dans des transcriptions automatiques pour des systèmes de traduction parole-parole
Quelle que soit la qualité des modules de transcription de la parole, les erreurs de reconnaissance sont inévitables étant donné d’une part les ambiguïtés intrinsèque à toute langue naturelle et d’autre part aux limites technologiques des systèmes actuels (vocabulaire fermé, séquentialité des traitements). L’étude et la caractérisation des erreurs de transcription représente un champ d’étude à part entière avec comme finalité d’atténuer l’impact de ces erreurs sur tout module exploitant des transcriptions automatiques. Dans le cadre d’un système de traduction parole-parole cette étude présente un module de détection et de caractérisation d’erreurs basé sur un étiqueteur de séquence utilisant des indices acoustiques, lexicaux et syntaxiques.

Oral 6
vendredi 27/06, 8h45 → 10h45

Langues régionales ou peu dotées

Chairman : P. Boula de Mareüil

36
Martine Adda-Decker, Lori Lamel, Gilles Adda
Modélisation acoustico-phonétique de langues peu dotées : Études phonétiques et travaux de reconnaissance automatique en luxembourgois
Le luxembourgeois est une langue germano-franconique et l’une des langues européennes sous-décrites. Cet article étudie la similitude entre les segments phonétiques en luxembourgeois avec leurs équivalents en allemand, français et anglais via des techniques d’alignement forcés. En utilisant les modèles acoustiques monolingues d’amorçage de ces trois langues, ainsi que des modèles "multilingues" entraînés sur un corpus de parole obtenu par concaténation, nous avons examiné si le luxembourgeois était mieux représenté par l’une des langues prises individuellement ou par le modèle multilingue. Au niveau global, les modèles allemands fournissent la meilleure correspondance, mais une analyse par segments montre des préférences spécifiques. Les premiers résultats en transcriptions illustrent les performances des différents jeux de modèles acoustiques monolingues et multilingues, ainsi que les modèles luxembourgeois construits à partir de 1200 heures de parole non transcrites en luxembourgeois, et des méthodes non supervisées.
69
Lucie Steiblé, Rudolph Sock
Les occlusives de l’alsacien : une étude temporelle
Cet article traite des consonnes occlusives de l’alsacien. Les résultats présentés proviennent des enregistrements de trois locutrices de l’alsacien, également francophones. Elles ont été enregistrées dans leur langue maternelle, l’alsacien. Le corpus d’étude comprends toutes les consonnes occlusives de l’alsacien (transcrites à l’écrit comme en français : p t k et b d g). L’analyse de ces enregistrements montre d’une part que les deux séries de consonnes occlusives de l’alsacien ne sont jamais sonores, mais que leur distribution correspond à celles de paires minimales oppositives. La distinction entre les deux séries repose donc sur d’autres indices, tels que les durées intra-segmentales, notamment les durées des silences au sein même des deux séries de consonnes.
71
Abir Masmoudi, Mariem Ellouze Khemakhem, Yannick Estève, Fethi Bougares, Sawssan Dabbar, Lamia Hadrich Belguith
Phonétisation automatique du dialecte tunisien
Un dictionnaire phonétique est un composant primordial d’un système de reconnaissance de la parole ou d’un système de synthèse de la parole. Notre travail cible la génération automatique d'un dictionnaire de prononciation du dialecte tunisien, en particulier dans le domaine du transport ferroviaire. Pour ce faire, nous avons créé deux outils de phonétisation de mots voyellés ou non voyellés en dialecte tunisien. La méthode proposée pour générer automatiquement des dictionnaires phonétiques est à base de règles et est présenté dans cet article. Cet article présente également les différentes étapes de création de notre propre corpus d'étude. Ensuite, il détaille les exceptions phonétiques et phonologiques du dialecte tunisien et donne des exemples de règles utilisées pour la construction des dictionnaires phonétiques.
79
Caroline Sigouin, Vincent Arnaud
Les voyelles fermées tendues, relâchées et allongées du français québécois : la contribution d’indices statiques/dynamiques et absolus/normalisés à la détermination de leur identité acoustique
L’objectif de cette contribution est de déterminer les indices acoustiques discriminant le plus efficacement les variantes tendues, relâchées et allongées des voyelles fermées du français québécois. 1350 occurrences, extraites de la parole de 30 locuteurs des villes de Rouyn-Noranda, Saguenay et Québec, ont été analysées. Leur durée a été relevée, puis la fréquence fondamentale et la fréquence centrale des trois premiers formants (F1, F2, F3) ont été estimées à 25-50-75 % de la durée. Les valeurs fréquentielles en Hertz et en scores-Z ont été considérées. Les résultats d’analyses discriminantes témoignent de la contribution de chaque indice acoustique, de la dynamique spectrale et de la normalisation à la répartition des occurrences au sein de leur classe vocalique d’appartenance. Alors que F1 et F2, en Hertz, relevés au centre des voyelles permettent d’obtenir une classification correcte à 58 %, d’autres combinaisons de prédicteurs parviennent à des taux s’élevant jusqu’à 97 %.

Session de démonstration
jeudi 26/06, 17h00 → 19h00

Les organisateurs de la conférence ont le plaisir d’inviter les participants à présenter des démonstrations de logiciels, de prototypes qui s’appuient sur des méthodes de traitement automatique de la parole. Dans ce cadre, les professionnels de l’industrie peuvent faire acte de candidature pour présenter leur logiciel au cours de cette session.
L’objet de cette dernière est d’offrir un cadre d’interaction entre les milieux industriel et académique sur les questions inhérentes au traitement automatique de la parole.
Lorsqu’elles permettent ce type d’interaction, les présentations d’études sur la parole qui ne concernent ni logiciel ni prototype sont également invitées.

La session démonstration accueillera des présentations sous les formes suivantes (selon les besoins et disponibilités) :

La première partie cette session ne sera accessible qu’aux participants à la conférence. Dans un effort de dissémination scientifique et technique, la seconde partie de la session sera ouverte au grand public.

Pour participer, les candidats devront envoyer un résumé (2 page maximum au format de la conférence) aux adresses : yannick.esteve@univ-lemans.fr et emmanuel.morin@univ-nantes.fr le 11 mai 2014 au plus tard. Les participants seront choisis par le comité d’organisation, indépendament du processus de sélection scientifique habituel. Les critères de sélection s’appuieront sur la pertinence des propositions au regard des thématiques affichées par la conférence JEP et de leur potentiel d’interactions entre milieu industriel et académique.

Conférence grand public de Nathalie Henrich Bernardoni
jeudi 26/06, 20h00 → 21h00

Dans le cadre d’une soirée de vulgarisation scientifique, la partie publique de la session de démonstration sera suivie en soirée d’une conférence ouverte au grand public, intitulée « Notre voix, cet instrument de tous les possibles », présentée par Nathalie Henrich Bernardoni (qui intervient déjà le mercredi dans le cadre des JEP en tant que confériencière invitée).

Cette conférence se tiendra également au Palais des Congrès et sera précédée d’un apéritif permettant d’assurer la transition depuis la session de démonstration.

Accueil sarthois
lundi 23/06, 18h00 → 22h00

Les participants arrivant le lundi sont invités à se rendre à partir de 18 h 00 dans les locaux de la Chambre de Commerce et d’Industrie du Mans et de la Sarthe, où ils pourront retirer leurs badge et malette du conférencier avant de profiter d’un apéritif sur le thème des produits sarthois, le tout sur fond musical.

Les locaux de la CCI se trouvent en plein centre ville du Mans, sur la Place de la République. L’accès en tramway est très aisé et la Place de la République est seulement à quelques minutes de marche des hôtels listés sur le site de la conférence.

Soirée Plantagenêt
mardi 24/06, 18h30 → 20h30

Le mardi en début de soirée, les participants sont conviés par la ville du Mans à un apéritif servi dans les locaux de l’hôtel de ville, de 18h30 à 19h30.

Le Palais des comtes du Maine, qui abrite l’hôtel de ville, se trouve dans la Cité Plantagenêt — la vieille ville du Mans, berceau de la dynastie éponyme. Cet événement pourra donc être l’occasion, pour les amateurs d’histoire et de vieilles pierres, de profiter à la sortie de l’apéritif d’une visite guidée dans les rues pavées de la cité à la découverte de ses nombreuses maisons anciennes et de la muraille gallo-romaine du IIIe siècle qui ceint encore le Vieux Mans. Les multiples restaurants de la vieille ville permettront de poursuivre de manière agréable la soirée.

Dîner de gala au Musée des 24 Heures
mercredi 25/06, 18h30 → 23h00

La soirée du mercredi sera consacrée au dîner de gala de la conférence, qui se tiendra dans l’enceinte du Musée des 24 Heures, aux portes du circuit automobile des 24 Heures du Mans.

Un service de bus dédié transportera des conférenciers au départ du palais des congrès à 18 h 30 pour les emmener au musée, dont ils pourront visiter les expositions avant d’assister à la remise du prix de thèse de l’AFCP et de profiter du dîner.

Les bus ramèneront les participants au centre ville en fin de soirée.

À noter : Afin de faciliter l’organisation de cette soirée, il sera demandé aux conférenciers de confirmer leur participation à la soirée de gala lors du retrait de leur badge à l’accueil de la conférence.

Université du Maine   Conseil Général de la Sarthe   Le Mans Métropole   Inria   Institut des Technologies Multilingues & Multimédias de l’Information   Institut Le Mans Acoustique   Institut National de l’Audiovisuel   Airbus Defence and Space   LM TV Sarthe   Fédération de Recherche AtlanSTIC   La Ruche Numérique — CCI Le Mans Sarthe   Région Pays de la Loire   Université de Nantes