corpus oraux
 
1.    De quoi s’agit-il ?
Travailler à partir de corpus est une nécessité quand on s’intéresse à la langue parlée et au dialogue, mais on oublie que cela fait référence à une révolution d’il y a à peine 50 ans. En effet, c’est avec l’entreprise de l’anglais puis du français fondamental qu’on a assisté à l’émergence d’un outil, le magnétophone, et à celle d’un objet, le corpus. Auparavant, avec Frei, Bauche, Bally ou Damourette & Pichon, les références au français non académique ne reposaient pas sur des faits. Queneau, dans Bâtons, chiffres et lettres (Queneau 1950), affirme que  “l’usage du magnétophone a provoqué en linguistique une révolution assez comparable à celle du microscope avec Swammerdam”. Que pourrait-on dire aujourd’hui que les microscopes à champ proche ont supplanté les microscopes électroniques qui avaient relégué les microscopes à lentille au rang des antiquités ? Il ne faut jamais perdre de vue cependant que l’oral spontané et le dialogue sont des lieux où le langage est processus. Dès lors qu’on en fait un corpus, on en fait un objet, et on le dénature inéluctablement.
 
Après avoir réalisé plusieurs corpus, je me suis intéressé de façon institutionnelle aux corpus existants, à leur codage et à leur accessibilité (RTP 14, AS 31, EPML 50). D’une part, les progrès à venir en matière de linguistique de l’oral et du dialogue viendront des données, que ce soit par leur volume et leur représentativité, ou par la finesse de leurs codages et de leurs représentations. D’autre part les possibilités actuelles des techniques informatiques laissent augurer de formidables possibilités en matière de réalisation de corpus. Le développement de logiciels spécifiques, l’émergence de la TEI, l’open source... permettent d’envisager de créer des corpus multiformes et multicouches. Il devient concevable d’aboutir à des représentations évolutives, intégrant l’image et le son, avec des transcriptions sans limitation de tires.
 
L’ANR a d’ailleurs lancé en 2006 et 2007 deux appel à projets “corpus” (cf références WEB). Il m’a toutefois semblé regrettable que le résultat consiste à opposer des équipes et des projets, sous la pression des universités de rattachement. Tout a fonctionné un peu comme si les efforts qui avaient été faits pour structurer la communauté autour de ces problématiques volaient en éclat devant cette nouvelle structuration de la recherche qui dégage des gagnants et des perdants, sur des critères qui, au vu des projets acceptés et refusés, sont souvent opaques.
 
On assiste enfin à un rapprochement entre la communauté de la reconnaissance automatique de la parole et celle de la linguistique de l’oral et du dialogue. L’amélioration des performances des systèmes de reconnaissance rend désormais plausible la reconnaissance de la parole dite “conversationnelle”. Cela rend nécessaire la transcription de gros volumes de données de ce type, et il faut dégager des moyens de codage  pour les transcriptions en question.
 
2.    Projets en cours
Le projet ANR EPAC (début en janvier 2007, avec 4 partenaires : LIUM, LI, LIA, IRIT)  concerne le traitement de données audio non structurées, et notamment la parole conversationnelle. Animé par Yannick Estève, il se fonde sur une base d’environ 2000 heures d’émissions radiophoniques francophones dans lesquelles se mèlent des oraux variés, parole lue,  parole contrainte et parole spontanée. Le but est de détecter et d’extraire la parole conversationnelle en développant des outils ad hoc, à partir de descripteurs pertinents. Il suppose une collaboration entre linguistes et informaticiens
 
Le projet EPAC (Exploration de masse de documents audio pour l'extraction et le traitement de la parole conversationnelle) donne lieu à la thèse de Thierry Bazillon, co-encadrée avec Yannick Estève, sur le codage de la parole conversationnelle.
 
 
3.	Références
- ASILA (AS 31) : action spécifique interaction langagière et apprentissage 
 proposition
 workshop la Bresse
 rapport final
- EPML 50 : corpus d’interaction langagière
 proposition
 journées 1
 journées 2
- publications
 Corpus, d’hier et d’aujourd’hui : progrès quantitatifs ou progrès quantitatifs ?, Congrès Français fondamental, corpus oraux, contenus d’enseignement, 50 ans de travaux et d’enjeux, ENSLSH, Lyon, décembre 2005, en cours de publication.
 Corpus d’hier et d’aujourd’hui
 Quelques pratiques langagières dans MEPA, un dispositif de simulation globale en ligne pour la pratique du FLE, Luzzati, Lehuen & Klitinska, colloque CMT, Bordeaux, juin 2005
 Quelques pratiques langagières...
 Le dialogue oral spontané : quels objets pour quels corpora ?, In: Sur les outils informatiques pour des études empiriques, mai 2004, Nantes
 corpus de conversations de café
- références WEB
 adresses relatives aux corpus
 EPAC

 fichier attaché      page WEB      diaporama      sur demandecorpus_files/proposition%20asila.doccorpus_files/CRlaBresse.doccorpus_files/rapport%20final%20asila.doccorpus_files/EPML%2050%20%20demande.doccorpus_files/CR%20journe%CC%81e%201.doccorpus_files/CR%20journe%CC%81e2.doccorpus_files/fr%20fondamental%20luzzati.doccorpus_files/corpus%20hier%20auj.htmlcorpus_files/article%20CMT.doccorpus_files/prat%20lang%20cmt.htmlcorpus_files/luzzati%20art%20conf%20nantes.doccorpus_files/corpus%20cafe.doc../enseignement/3485DA66-C217-44F8-BF82-C9DD68B354F0.htmlhttp://epac.univ-lemans.fr/shapeimage_2_link_0shapeimage_2_link_1shapeimage_2_link_2shapeimage_2_link_3shapeimage_2_link_4shapeimage_2_link_5shapeimage_2_link_6shapeimage_2_link_7shapeimage_2_link_8shapeimage_2_link_9shapeimage_2_link_10shapeimage_2_link_11shapeimage_2_link_12shapeimage_2_link_13