Linguistique de Corpus TD - L6F01

Sujet: Linguistique de Corpus TD - L6F01 Mar 27 Jan 2009 - 23:42

TD 1 du 27/01/09
LINGUISTIQUE DE CORPUS

A toutes celles et tous ceux qui doivent subir cette fabuleuse matière, bonjour!
Nous sommes ici réunis pour partager ensemble mes notes du premier TD, mené par monsieur Gendrot, afin de pleurer ensemble le grand retour des cours inutiles et douloureux.
Certes, nous bravâmes autrefois, dans notre jeune temps, moult pièges et dangers en cochant innocemment les cases des QCM de M. Gerdes. Mais ce temps est désormais révolu.
Voici venir les cours d'informatique déguisés... LA LINGUISTIQUE DE CORPUS.

Bon, allez bonnes gens, on commence par le commencement...

Ordinateur de la salle info:
login: etudiant
password: ilpga-2009

Etudiant, sur le bureau de ton ordinateur (non, pas le bureau où il y a tes stylos, l'autre... le fond d'écran moche avec les icônes! voilà!) se trouve un dossier intitulé "Favoris réseau".

Quand tu as eu la bonne idée de double-cliquer dessus, il s'ouvre! La magie de la technologie! (dire qu'on en a brûlé pour moins que ça...)
Et là, au choix:
ou tu trouves "licence 1 sur Ped12" et tu l'ouvres;
ou tu ne le trouves pas et tu cliques alors sur "ordinateurs proches du mien" puis sur "Ped12" puis sur "Licence1" (oui, c'est un détour... quelle belle promenade...!).

Bref, une fois cela effectué, tu es devant un dossier qui s'appelle "linguistique de corpus".
Ouvre-le, et... un autre "linguistique de corpus" -.-
Il devait avoir de la famille chez les poupées russes, ce dossier...!
Bon, on ne craque pas maintenant, il reste encore une heure de cours, courage...! Fais glisser le dossier sur le bureau et ferme la fenêtre (celle dont le nom commence par \\Ped12\...).

BRAVO! une étape de faite!

Maintenant, on clique sur le dossier "licence 3" et on crée un dossier qui porte son nom (ou un petit nom affectif dont vous vous souviendrez).
Conseils en or pour le nom du dossier:
1/ pas d'accent; p.ex. si tu t'appelles cédric, tu écris cedric.
2/ pas d'espace; p.ex. si tu t'appelles cédric gendrot, tu écris cedricgendrot tout collé (toujours sans l'accent, si si).
3/ retiens bien le numéro de ton ordinateur et essaie de t'asseoir toujours pareil au même endroit d'un TD à l'autre.

Ensuite, encore plus fort! Tu fais un "coupé" du dossier "linguistique de corpus" que tu avais fait glisser sur ton bureau, suivi d'un "collé" dans le dossier à ton nom que tu as créé.

Maintenant, on va pouvoir passer à... PRAAT! ^^

Pense à te munir de ta clé USB pour la prochaine séance, parce que si tu n'as pas de clés USB à consacrer à tes études ou que tes parents ne t'ont pas offert de pc en 22 ans d'existence, tu devrais déjà vider la poubelle chez Mc Do.

Mettons praat en route.
Merveilleux outil de technologie, deux fenêtres s'ouvrent sous tes yeux ébahis.
La fenêtre objet est à gauche et s'appelle en fait "Praat object" (oui, c'est en anglais, courage!). A droite, l'autre fenêtre est une fenêtre image, on ne va pas s'en servir tout de suite (peut-être au dernier TD).

Les fonctions utiles de Praat.

Dans la fenêtre Objet, pour ouvrir un fichier:
+ Read > Read from file
Exclamation

"Open long sound file" est à utiliser pour les fichiers longs, p.ex. pour les enregistrements de plus de 7/8 min.

Pour visualiser les fichiers: Edit

Les formats audio:
.wav
.AIFC
.AIFF => non compressés (plus gros)
.mp3
.mp4
.ac3 => compressés

On utilisera préférentiellement les non compressés et en particulier les .wav

Super -> logiciel gratuit qui fait des conversions entre formats de fichiers multimédias (ça marche avec les vidéos aussi).

Pour ce premier TD, on a un enregistrement qui est composé de quatre phrases (toujours la même répétée de quatre façons différentes).
On va les "extraire", c'est-à-dire les sélectionner une à une pour en faire quatre morceaux bien distincts.
Dans la fenêtre du signal, surligne donc avec le curseur la première phrase et va dans:
+ File > Extract selected sound (time from 0)

Magique!! car alors apparait dans ta fenêtre objet un fichier "untitled" que tu peux rebaptiser "phrase1" (toujours sans espace!) en cliquant sur "Rename" en bas à gauche.

Je précise qu'on appelle dans ce TD "fenêtre du signal" la fenêtre où se trouve le spectro.

Il faut penser à sauvegarder les phrases extraites...
Dans ta fenêtre objet, pour sauvegarder, sélectionne le fichier à sauvegarder puis:
+ Write > Write to WAV file
(C'est dans ce menu qu'on peut choisir le format du fichier...)

L'exercice consiste ensuite à recommencer pour les 3 autres phrases... Deux solutions: ou tu extrais tout puis sauvegarde tout, ou tu extrais et sauvegarde une à une les phrases...
Afin d'introduire un peu de poésie dans ce cours d'informatique mortellement ennuyeux, je citerai Monsieur Gendrot: "C'est comme quand on mange des crevettes: soit on épluche tout et on les mange toutes à la fin; soit on les épluche et on les mange tout de suite, une par une"
Ce après quoi la pénurie de mayonnaise pour cause de fratrie morfale le laissa sensiblement indifférent, ce qui me permit de déduire qu'il était fils unique...

Dans la fenêtre du signal, une fonction utile:
+ View > Analyses
On y coche et décoche les options en fonction de ce qu'on veut voir apparaître sur le spectro.
p.ex. show formants = points rouges
show pitch = courbe bleue

Exclamation

longest analysis: 10.0 -> en secondes!
Si le fichier ne s'affiche pas, il faut zoomer ou augmenter le nombre de secondes.

La durée des voyelles est à fournir en ms (trois chiffres après la virgule quand l'unité est la seconde).

À faire: Voyelles
durée en ms
F0 en Hz
F1, F2, F3
intensité en dB

Je tiens à présenter mes excuses à tous les susceptibles de cette planète qui pourraient envisager de prendre ce post de façon négative, car oui, j'avoue, je me moque... mais en même temps, rien que pour les crevettes, c'était à vivre! ;-)
Prière de ne rien y voir de personnel, c'est seulement que... je suis allergique aux ordinateurs (dit-elle en postant à 23h40 un cours sur le forum) :-p
Après tout, j'ai peut-être passé l'âge d'être polie et bien élevée, qui sait?

Bonjour à tous,

Par souci d'équité, je mets ici les ppt des TD qui sont déjà dispos sur les pc de la salle info de l'ILPGA mais qui demandent, pour ceux qui voudraient les regarder chez eux, de venir avec une clé USB, ce qu'on n'a pas toujours forcément dans sa poche... Donc simplifions la vie à tout le monde, voilà que vous pouvez accéder à ces ppt depuis votre chambre, maintenant! ^^

Les ppt des deux premiers TD de monsieur Gendrot:

Le TD1 (présentation de Praat):

Voir le Fichier : introduction_Praat_cours_linguistique_de_corpus.ppt

Le TD2 (transcription):

Voir le Fichier : 01_conventions_transcription_segmentation_phonemique.ppt

Voir le Fichier : 02_conventions_transcription_segmentation_lexicale.ppt

Voilà! Le TD2 ci-dessous! ^^

Sujet: TD2 du 03/02/09 Mar 3 Fév 2009 - 22:44

TD 2 du 03/02/09
Linguistique de corpus

La dernière fois, on a abordé l'analyse acoustique; aujourd'hui, on voit l'annotation et la transcription (cf CM1).
Le dernier TD avait fini sur la diapo 82 du ppt 1.

Ouvrir Praat.
Ouvrir le fichier "SoundPraatDemo" (Read > Read from file).

Sélectionner "SoundPraatDemo" dans la fenêtre objet maintenant qu'il s'y trouve, puis, sur le côté droit:
+ Annotate > To TextGrid

Une boite de dialogue s'ouvre et on voit sur la première ligne "Mary John Bell" et sur la deuxième ligne "Bell".
On efface tout!
Et on renomme la première ligne "toto".
Cliquez sur Ok et revenez à la fenêtre objet.

Dans cette fenêtre objet, un nouveau fichier "TextGrid" est en-dessous de l'autre.
On le sélectionne et on sélectionne aussi le premier fichier Sound puis on clique sur Edit.

Une fenêtre apparait avec le spectro! (youpi!)
Elle a deux niveaux dont un qui s'appelle toto. (magique!)

On peut y faire des barres bleues, eh oui! pour segmenter! ^^
Comment on fait?
On clique sur le spectro à l'endroit où l'on veut mettre sa barre. Elle se prolonge dans la partie "toto" et il y a un petit rond. On clique sur le petit rond, la barre devient rouge. On clique à côté, la barre devient bleue.
C'est bon, vous avez "posé une barre".
Si elle n'était pas à la bonne place, vous pouvez cliquer dessus (elle redevient rouge) et la faire slider (glisser quoi...) jusqu'au bon endroit.
Attention qu'elles ne peuvent pas passer les unes par-dessus les autres s'il y a plusieurs barres!
Si vous avez créé une barre inutile, vous pouvez l'effacer en la selectionant (elle devient rouge) puis :
+ Boundary > Remove

Pour écrire en API, en haut à droite de la fenêtre du signal, vous avez:
+ Help > Phonetic symbols
Ensuite, vous pouvez choisir entre les voyelles, les consonnes etc.
P.ex. vowels: chaque symbole a un code. Pour un schwa, on tapera \sw entre les barres et le symbole API du schwa apparaîtra.

Exclamation

Pour segmenter les voyelles, il faut se fier aux formants et non à l'écoute qui est trompeuse (coarticulation avant et après).

Si on retourne à la fenêtre objet et qu'on sélectionne à nouveau notre fichier son...
Cliquons sur Annotate > to TextGrid et notons toto2 après toto (on garde toto! on ne l'efface pas!) sur la première ligne.
Ok -> un nouveau "TextGrid" apparait dans la fenêtre objet, qu'on sélectionne.
Attention, on va aussi sélectionner EN MEME TEMPS le fichier son, alors pour les sélectionner ensemble, on clique sur le premier, on appuie sur Ctrl sur son clavier et on clique sur le deuxième!
Ensuite, vous faites Edit et une nouvelle fenêtre signal apparait, avec deux étages: toto et toto2.

Vous pouvez mettre des barres bleues de segmentation dans toto et/ou dans toto2, de manière indépendante! C'est pratique s'il y a plusieurs locuteurs ou que vous voulez faire plusieurs types de découpages (les phonèmes et les mots, p.ex.).

On peut ainsi faire autant de niveaux qu'on veut.

Resélectionnez le fichier Sound.
+ Annotate > to textgrid
On écrit toto2 dans la deuxième ligne cette fois.
Ok.

Avec Edit, ouvrez à nouveau un fenêtre signal.
Vous avez toujours autant de niveaux, dont un appelé toto2, qui lui, curiosité, a maintenant des barres discontinues.
=> on ne peut plus écrire ENTRE les barres, mais SUR la barre.
C'est utile pour la prosodie, notamment.

Exercice.

Phrase1
+ Read > Read from file.
Créez une fenêtre signal à plusieurs niveaux: un niveau phonème et un niveau mot.

Pour les nasales: \oe\~^
~ = Alt Gr + 2

Enregistrer son travail:
+ File > Write Textgrid to Textfile (raccourci: Ctrl + S)

TD 2 du jour:

(à mettre dans son dossier, celui créé au TD1)
=> annexes_unicode: conseiller de le télécharger sur son pc à la maison.

Transcription
On doit écrire du texte à/p de l'oral, ce qui est incompatible.

ex.
y a pas d'quoi
y a pas t'quoi...
=> il y a pas de quoi

Convention établie pour qu'on puisse tous produire la même chose.
Donc éviter son imagination.
-> mots dans le dictionnaire.
-> les mots non prononcés ne sont pas réintroduits.

Donc transcription type dictionnaire ultra simplifiée.

Pour la semaine prochaine, enregistrement "Roger".
Seulement les 35 dernières secondes.
Faire une transcription orthographique (pas phonétique).

Une barre tous les dix mots.
Partition musicale -> 3 locuteurs qui interviennent: 3 niveaux (un par locuteur) pour transcrire tous les chevauchements.

Mots tronqués:
ex.
pro/ promis
pro/ -mis

Les hésitations sont toutes notées "euh", quelles que soient leur durée et leur nature.
Les syllabes incompréhensibles sont notées X. Si trois syllabes sont incompréhensibles, on note donc XXX. Un seul X par syllabe.

Sujet: TD3 du 10/02/09 Ven 20 Mar 2009 - 21:04

TD 3 du 10/02/09
Linguistique de corpus

TD assuré par Monsieur Gendrot.

Voir le Fichier : 02_site_crdo.ppt

Sujet: TD4 du 17/02/09 Ven 20 Mar 2009 - 21:07

TD 4 du 17/02/09
Linguistique de corpus

TD assuré par Monsieur Gendrot.

Sujet: TD5 du 03/03/09 Ven 20 Mar 2009 - 21:10

TD 5 du 03/03/09
Linguistique de corpus

TD assuré par Monsieur Gendrot.

Je précise qu'il n'y a pas eu de TD la semaine du 09 mars 09.

Sujet: TD6 du 18/03/09 Ven 20 Mar 2009 - 21:28

TD 6 du 18/03/09
Linguistique de corpus

TD assuré par Monsieur Sansonetti.

Contrairement aux TD précédents où nous nous intéressions à la phonétique et transcription des sons, nous allons voir pendant cette séance le traitement des corpus d'acquisition du langage (ce qui inclut une interaction Adulte-Enfant et toutes ces choses formidables que nous avions vu aux semestres 3, 4 et 5).

Nous allons donc apprendre à utiliser CLAN, un logiciel spécialisé rien que pour ça (cf projet CHILDES).

Qu'est-ce que c'est que cela? direz-vous.
Eh ben, c'est... euh... un tout en un (banque de données, logiciels d'analyses, système de transcription hyper strict...) et, en plus, c'est téléchargeable facilement! :-p
(t'as vu, Luiggi, comme je fais bien de la pub pour CLAN? xD)

Bref... commençons le TD.
Déjà, on oublie les TD de M. Gendrot (ah bon? on les avait retenus?) et on ne se soucie plus d'être sur SON ordinateur numéroté ou pas.
Sur tous les ordinateurs de la salle info de l'ILPGA, vous trouverez CLAN.
Sur le bureau, donc, se trouve le raccourci Clan.exe. On l'ouvre!

La fenêtre qui s'ouvre est une page blanche sur laquelle s'afficheront nos résultats plus tard. Une boite de commande apparait également en haut à gauche - et comme c'est un logiciel anglophone, elle s'appelle "Commands" - où il faudra taper les interfaces.
Ouais, moi non, je sais pas ce que c'est, une interface, mais on fait comme si on comprenait, ça fait savant.

Dans cette boite de commande se trouvent quatre boutons:

_ Working: chemin pour accéder aux corpora (c'est toujours le pluriel de corpus, même si j'ai dit qu'on pouvait oublier les TD de M. Gendrot).
On clique et on obtient une nouvelle fenêtre. On cherche les corpora, voici le chemin à suivre:
> Drives > D: données (= arborescence du disque d: ) > Licence 3 > Corpus > ... (il n'affiche rien, comme si le dossier était vide)
On clique alors sur "Select directory", il ne travaillera que dans ce répertoire.

_ Output: on s'en fout.

_ Lib: Libraire spécifique.
On clique dessus et on va ouvrir C:\
> Programm files > Clan > Lib
puis "Select directory"

_ Mor Lib: Ressources nécessaires pour les analyses morphosyntaxiques en français (oui, par défaut, c'est en anglais).
Double clique sur C:\ puis
> Programm files > Clan > French (contenant 2 autres dossiers)
puis "Select directory"

Bon! On a tout réglé et tout préparé, c'est bon... Il ne nous reste plus qu'à utiliser Clan, maintenant! ^^'

On fait glisser la boite de commande en bas à droite, histoire d'être tranquille et d'avoir accès au menu.
> Files > Open
Une nouvelle fenêtre apparait.
On fait ouvrir ju1.cha

Bon, je précise dès maintenant que "ju" c'est pour les corpora d'un petit bout qui s'appelle Julien et "ma" pour une princesse qui s'appelle Mathilde.

Le corpus apparait dans la fenêtre blanche.
On remarque tout de suite plein de trucs bizarres:
_ @ Beguin au début et @ End à la fin de la transcription;
_ une présentation du corpus en en-tête;
_ un * à chaque tour de parole;
_ 3 lettres pour désigner les locuteurs;
_ un point à la fin de chaque énoncé;
_ etc.

=> Sans tout ça, pas d'analyse!
C'est une méthode de transcription très stricte.

Exclamation

Avec la méthode de Lentin, on remplissait des grilles puis on faisait des calculs. Ici, on part des calculs puis on regarde ce qui nous intéresse dans le corpus.

Les fonctions marrantes pour jouer avec Clan.

Dans la boite de commande, on a un petit carré fluo avec une main et une loupe en icône. Si on clique dessus, tous les programmes apparaissent (garanti sans trucage).

Pour commencer, on selectionne celle qui s'appelle freq (et qui donnera, logiquement, les fréquences des mots du corpus).
Apparait alors dans la boite de commande "freq".
Pour lui expliquer la fréquence de quoi, il faut lui préciser le nom du fichier à analyser. Alors on va taper ju1.cha de sorte à obtenir:
freq ju1.cha
(et on n'oublie pas l'espace entre freq et ju1.cha, sinon, l'ordinateur ne comprend plus rien)
On clique sur "Run".

Dans la fenêtre principale, on obtient - magique! - une liste des mots du corpus par ordre alphabétique avec leur fréquence d'apparition (en fait, c'est un simple comptage, hein...).

Si on veut voir la même liste apparaître mais pas par ordre alphabétique, par ordre décroissant de fréquence, ce qui peut être pratique, on ajoute +o dans la boite de commande (et on n'oublie pas l'espace, encore une fois):
freq ju1.cha +o

Super, on obtient que "il", "tu" et "et" sont les mots les plus utilisés du corpus (et tout ça, sans lire le corpus une seule fois, quelle économie de jus de neurones! ^^).
Mais qui, de l'adulte ou de l'enfant, utilise vraiment ces mots?
Découvrons la fonction "filtre du locuteur" (youpi!) qu'on note +t*XXX (le XXX étant les trois lettres codant pour le locuteur souhaité).
On obtient par exemple:
freq ju1.cha +o +t*CHI
(CHI pour child, l'enfant du corpus)
=> avec ça, vous n'obtiendrez que la fréquence des mots prononcés par l'enfant et rangées par ordre décroissant.

Et si on veut étudier l'évolution sur plusieurs corpus, il suffit de mettre les noms de différents corpus à la suite (sans oublier les espaces), on obtiendra des fréquences chez l'enfant par ordre décroissant pour chacun des corpus.
Par exemple, en écrivant: freq ju1.cha +o +t*CHI ju2.cha ju3.cha
(L'ordre dans la boite de commande n'a pas vraiment d'importance.)

Fonction mlu : Longueur moyenne des énoncés.
mlu ju1.cha ju2.cha ju3.cha => on pourra comparer l'évolution sur les trois corpus de la longueur des énoncés (on les obtient par locuteur et par corpus, pas besoin de filtrer le locuteur).

Fonction maxwd: fonction qui recherche les mots les plus longs.
Par exemple: maxwd ma1.cha ma2.cha ma3.cha +t*CHI
Ici, il faut la combiner avec la fonction filtre du locuteur si on veut distinguer les mots de l'enfant des mots de l'adulte.

Fonction freqpos: pour obtenir la fréquence d'un mot dans le corpus ainsi que sa position dans l'énoncé (en début de phrase, en milieu ou en fin d'énoncé?).

Fonction +smot: pour chercher un mot précis dans un corpus (ou dans des corpora).
Par exemple: freq ju1.cha +sparce
On obtient un résultat de 18 "parce que" dans le corpus.
D'où viennent-ils?

On peut regarder le contexte et la complétude de l'adulte.
freq ju1.cha +sparce -w2 +w2
=> on voit les deux lignes au-dessus et les 2 lignes au-dessous de l'énoncé où apparait le mot cherché (ici, "parce") et on s'aperçoit que les "parce que" de l'enfant sont des réponses aux "pourquoi" de l'adulte.

Dans un corpus de Mathilde, on a seulement 4 "parce que" mais il n'y a pas de "pourquoi" de l'adulte. En fait, ses "parce que" sont des répétitions des "parce que" de l'adulte (ils s'inscrivent dans la suite du récit, et non pas dans un échange de questions-réponses).

L'étiquetage morphosyntaxique: mor ma3.cha
=> génération d'un fichier ma3.mor.cex contenant l'étiquetage.

*nous interrompons ce programme pour vous signaler que c'est à ce moment précis du cours que Luiggi décida d'apprendre l'anglais afin de pouvoir dire sans le moindre accent "more sex"...*

Exclamation

Attention! Dans le fichier "ma3.mor.cex", le logiciel met plusieurs étiquettes par mot s'il trouve le mot dans plusieurs dico ou sous plusieurs entrées...

Le programme post va permettre de nettoyer l'étiquetage au maximum avec d'autres ressources basées notamment sur les statistiques du contexte (genre on a plus de proba de croiser un article devant un nom etc.).
post ma3.mor.cex
Je rappelle qu'il faut un espace entre post et la suite et que cette suite est le nom du fichier généré par la fonction mor, sinon, il n'y a pas d'étiquetage à nettoyer, hein...

On obtient un troisième fichier appelé cette fois ma3.mor.pst.cex...
Bon, on arrête là pour le moment, hein...!

M. Sansonetti a distribué ça (oui, je sais, c'est un peu petit, j'ai fait ce que j'ai pu... click droit => enregistrer sous => vous pourrez zoomer):

Linguistique de Corpus TD - L6F01 Save0443

Et a envoyé un mail à tous ses étudiants, mais au cas où certains d'entre vous ne l'aient pas reçu, je le remets ici:

bonjour à vous

c'est le printemps, et comme le soleil ne vient pas seul, vous trouverez sur le cours L6F01 sur Agora
toutes les ressources nécessaires pour jouer avec le logiciel CLAN :
- un lien vers le site officiel
- le logiciel (pour PC) avec les ressources pour travailler sur le français
- un mode d'emploi en français
- des corpus pour s'amuser avec

je vous donne rendez-vous la prochaine fois pour jouer avec un autre logiciel

et les notes seront bientôt données (au moins pour ceux qui suivent le contrôle continu !)

merci à vous et à bientôt

Voilà, c'est tout pour l'instant. :-)

Invité

Bonjour!!!!
J'ai un gros problème et je ne sais plus quoi faire...
A chaque fois que je veux enregistrer mon travail sur Praat ça ne fonctionne pas (c'est la 2nde fois que je recommence Sad

) j'ai un fichier "praat.collection" qui se crée et je ne peux pas l'ouvrir, je perds toutes mes données en plus.
De plus,je n'arrive pas à utiliser la fonction pour faire le triangle vocalique,j'ai un message d'erreur,pourtant j'ai repris toutes les diapos pas à pas pour comprendre ce qui ne fonctionnait pas...J'ai envoyé 2 mails de détresse à M. Gendrot mais je n'ai toujours pas de réponses et le devoir est à rendre pour dimanche!!!!!!!!!Quelqu'un peut-il m'aider????????????????????????????

Dernières infos du 9 mai :
les cours de rattrapages (concernant Kim Gerdes et André Salem (sous réserve)) reprendront mercredi 13 mai aux horaires habituels,
et un mini examen aura lieu le 27 mai, aux heures habituelles aussi.

très important !!!!!!!!!!!!!!!!!!!!!!!!!!

Dernières infos du 9 mai :
les cours de rattrapages (concernant Kim Gerdes et André Salem (sous réserve)) reprendront mercredi 13 mai aux horaires habituels,
et un mini examen aura lieu le 27 mai, aux heures habituelles aussi.

Invité

"sous réserve" de quoi?????

» Linguistique de Corpus CM - L6F01
» Linguistique de Corpus
» Linguistique interactionnelle TD - L6F05 (M. Greco)
» Typologie linguistique CM - L6F02 (Mme Samvellian)