CM 1 du 28/01/09 Linguistique de corpus
Bonjour, ô tous!
Chanceux que vous êtes, rendez-vous compte! Ce cours vous est posté un vendredi soir à 2h du matin bien tassé depuis une chambre polonaise, eh oui! Au lieu d'être en train de subir la musique trop forte et le tabagisme passif des boites de nuits (oui, en Pologne, on peut fumer en boite et le paquet de clopes est à 2,50 euros), je suis devant un écran, sage et bien coiffée, pour mettre en ligne les notes du premier cm de linguistique de corpus.
Ah la jeunesse... c'est plus ce que c'était...
Je dois avoir passé l'âge d'être jeune, remarquez.
Alors les notes...!Ce premier CM fut dispensé par M. Gendrot, qui, fidèle à lui-même, nous avait préparé un ppt super complet qui devrait être en ligne sur agora dans peu de temps.
Les notes qui suivent sont essentiellement des séries d'exemples censées éclaircir les définitions du ppt. Comme disait en cours M. Gendrot, c'est surtout du bon sens, mais je les remets ici quand même. Merci de vous rapporter au ppt.
Habert -> connu en TAL; a travaillé avec A. Salem (oui oui, celui de chez nous).
Un corpus -> des corpora... sauf que personne ne le dit jamais.
travail préparatoire: on doit décider AVANT d'enregistrer de ce qu'on veut analyser.
On n'enregistre pas au hasard et ensuite on ne se demande pas "qu'est-ce que je vais bien pouvoir tirer de cet enregistrement?".
Site de base de données orales: CRDO
(centre de ressources de données orales)
Annotationp.ex. en TD la semaine prochaine -> transcription. On s'apercevra qu'un dixième, voire un cinquième, des mots n'est pas audibles.
=> cf les cours sur la perception du premier semestre.
étiquetage prosodique -> cf TD aussi.
Pour éviter les bêtises, il est bon de se renseigner de ce qui a été fait avant.
Recherches dans les années 90.
_ PFC -> toujours en cours.
site internet : points d'enquête précis en France.
p.ex. en Vendée...
Monsieur Gendrot est de Vendée mais il a un accent non vendéen (oui, on apprend des choses super en cours ^^).
_ ValiBel -> même chose que PFC mais belge (wallon).
_ etc.
2 types de corpora:
_
corpus de référence: en général, très grand, international, financé ... p.ex. PFC.
_
corpus de spécialité: plus petit, p.ex. des corpora d'étudiants en master ou en thèse -> il faut cibler ce qu'on veut et on a l'occasion d'enregistrer à peine 3 ou 4 locuteurs.
"Du tout venant": p.ex. enregistrer des émissions radiophoniques.
Ensuite, on peut en analyser la syntaxe, etc.
Autre exemple: corpus ESTER -> émissions journalistiques (50h) transcrites en synt et en morphèmes.
=> c'est tellement énorme qu'on a tous les contextes disponibles.
On peut donc réutiliser ces corpora pour diverses recherches sans être obligé de refaire un corpus.
D'où l'importance de l'annotation (pour ceux qui se resservent des corpora après nous!).
corpus parallèle -> vu en CM avec André Salem.
W. Labov -> il a établi une liste de mots à faire prononcer et enregistrer aux locuteurs lorsqu'on veut travailler sur la variation régionale.
Eviter les biais...
Corpus de spé:
tata nadia blablablabla...
Le "Na" est toujours la cinquième syllabe.
=> il faut essayer de maîtriser le plus de paramètres possibles, cela donne parfois des phrases tordues... :-S
Il faut équilibrer le plus possible: nombre de locuteurs par groupe, tranche d'âge, sexe, milieu social, etc.
Si on prend dans le Poitou une dizaine de femmes de cinquante à cinquante-cinq ans et puis en Normandie une trentaine d'hommes de moins de trente ans, ça ne va pas... comparaison délicate car biaisée!
Les socioling considèrent que si le locuteur sait qu'il y a un micro, ce n'est plus de la parole spontanée.
Du coup, un truc, c'est de brancher le micro sans le dire aux locuteurs et de faire semblant d'avoir oublié quelque chose et, ensuite, on les laisse parler, ce qui donne parfois lieu à des trucs marrants du genre "c'est quoi, ce truc bidon?" ^^'
Les entretiens guidés: super longs...! On veut faire prononcer un mot à un locuteur mais on ne doit pas lui dire lequel car c'est un biais: le locuteur a tendance à le prononcer de la même façon que nous...
Donc il faut l'amener à dire ce mot... (ça doit être super marrant, un jeu de devinette comme ça! :-D)
C'est ce qu'a fait M. Jean-Léo Léonard cet été en Amérique du Sud, par exemple.
ELDA -> entreprise qui embauche svt des étudiants pour enregistrer ou annoter des données; travaille avec des entreprises qui font des logiciels en reconnaissance de la parole (transcription de parole, etc.).
=> p.ex. Quaero (= sorte de google pour doc multimédia) ou 888 teletex (sous-titres à la télé, en direct) etc.
Transcription lexicale:
Cela inclut une segmentation.
Cf TD 2, extrait Roger (environ 5 min)
CM arrêté à la dia 41.
Bon, allez, il recommence à neiger... Bien le bonsoir depuis Lodz et on se retrouve pour de prochaines aventures! XD