TD 6 du 18/03/09 Linguistique de corpus
TD assuré par Monsieur Sansonetti.
Contrairement aux TD précédents où nous nous intéressions à la phonétique et transcription des sons, nous allons voir pendant cette séance le traitement des corpus d'acquisition du langage (ce qui inclut une interaction Adulte-Enfant et toutes ces choses formidables que nous avions vu aux semestres 3, 4 et 5).
Nous allons donc apprendre à utiliser CLAN, un logiciel spécialisé rien que pour ça (cf projet CHILDES).
Qu'est-ce que c'est que cela? direz-vous.
Eh ben, c'est... euh... un tout en un (banque de données, logiciels d'analyses, système de transcription hyper strict...) et, en plus, c'est téléchargeable facilement! :-p
(t'as vu, Luiggi, comme je fais bien de la pub pour CLAN? xD)
Bref... commençons le TD.
Déjà, on oublie les TD de M. Gendrot (ah bon? on les avait retenus?) et on ne se soucie plus d'être sur SON ordinateur numéroté ou pas.
Sur tous les ordinateurs de la salle info de l'ILPGA, vous trouverez CLAN.
Sur le bureau, donc, se trouve le raccourci
Clan.exe. On l'ouvre!
La fenêtre qui s'ouvre est une page blanche sur laquelle s'afficheront nos résultats plus tard. Une boite de commande apparait également en haut à gauche - et comme c'est un logiciel anglophone, elle s'appelle "Commands" - où il faudra taper les interfaces.
Ouais, moi non, je sais pas ce que c'est, une interface, mais on fait comme si on comprenait, ça fait savant.
Dans cette boite de commande se trouvent quatre boutons:
_
Working: chemin pour accéder aux corpora (c'est toujours le pluriel de corpus, même si j'ai dit qu'on pouvait oublier les TD de M. Gendrot).
On clique et on obtient une nouvelle fenêtre. On cherche les corpora, voici le chemin à suivre:
> Drives > D: données (= arborescence du disque d: )
> Licence 3 > Corpus > ... (il n'affiche rien, comme si le dossier était vide)
On clique alors sur "
Select directory", il ne travaillera que dans ce répertoire.
_
Output: on s'en fout.
_
Lib: Libraire spécifique.
On clique dessus et on va ouvrir
C:\> Programm files > Clan > Libpuis "
Select directory"
_
Mor Lib: Ressources nécessaires pour les analyses morphosyntaxiques en français (oui, par défaut, c'est en anglais).
Double clique sur
C:\ puis
> Programm files > Clan > French (contenant 2 autres dossiers)
puis "
Select directory"
Bon! On a tout réglé et tout préparé, c'est bon... Il ne nous reste plus qu'à utiliser Clan, maintenant! ^^'
On fait glisser la boite de commande en bas à droite, histoire d'être tranquille et d'avoir accès au menu.
> Files > OpenUne nouvelle fenêtre apparait.
On fait
ouvrir ju1.chaBon, je précise dès maintenant que "ju" c'est pour les corpora d'un petit bout qui s'appelle Julien et "ma" pour une princesse qui s'appelle Mathilde.
Le corpus apparait dans la fenêtre blanche.
On remarque tout de suite plein de trucs bizarres:
_ @ Beguin au début et @ End à la fin de la transcription;
_ une présentation du corpus en en-tête;
_ un * à chaque tour de parole;
_ 3 lettres pour désigner les locuteurs;
_ un point à la fin de chaque énoncé;
_ etc.
=> Sans tout ça, pas d'analyse!
C'est une méthode de transcription très stricte.
Avec la méthode de Lentin, on remplissait des grilles puis on faisait des calculs. Ici, on part des calculs puis on regarde ce qui nous intéresse dans le corpus.
Les fonctions marrantes pour jouer avec Clan.Dans la boite de commande, on a un petit carré fluo avec une main et une loupe en icône. Si on clique dessus, tous les programmes apparaissent (garanti sans trucage).
Pour commencer, on selectionne celle qui s'appelle
freq (et qui donnera, logiquement, les fréquences des mots du corpus).
Apparait alors dans la boite de commande "freq".
Pour lui expliquer la fréquence
de quoi, il faut lui préciser le nom du fichier à analyser. Alors on va taper ju1.cha de sorte à obtenir:
freq ju1.cha(et on n'oublie pas l'espace entre freq et ju1.cha, sinon, l'ordinateur ne comprend plus rien)
On clique sur "
Run".
Dans la fenêtre principale, on obtient - magique! - une liste des mots du corpus par ordre alphabétique avec leur fréquence d'apparition (en fait, c'est un simple comptage, hein...).
Si on veut voir la même liste apparaître mais pas par ordre alphabétique, par ordre décroissant de fréquence, ce qui peut être pratique, on ajoute
+o dans la boite de commande (et on n'oublie pas l'espace, encore une fois):
freq ju1.cha +oSuper, on obtient que "il", "tu" et "et" sont les mots les plus utilisés du corpus (et tout ça, sans lire le corpus une seule fois, quelle économie de jus de neurones! ^^).
Mais qui, de l'adulte ou de l'enfant, utilise vraiment ces mots?
Découvrons la fonction "
filtre du locuteur" (youpi!) qu'on note
+t*XXX (le XXX étant les trois lettres codant pour le locuteur souhaité).
On obtient par exemple:
freq ju1.cha +o +t*CHI(CHI pour child, l'enfant du corpus)
=> avec ça, vous n'obtiendrez que la fréquence des mots prononcés par l'enfant et rangées par ordre décroissant.
Et si on veut étudier
l'évolution sur plusieurs corpus, il suffit de mettre les noms de différents corpus à la suite (sans oublier les espaces), on obtiendra des fréquences chez l'enfant par ordre décroissant pour chacun des corpus.
Par exemple, en écrivant:
freq ju1.cha +o +t*CHI ju2.cha ju3.cha(L'ordre dans la boite de commande n'a pas vraiment d'importance.)
Fonction
mlu : Longueur moyenne des énoncés.
mlu ju1.cha ju2.cha ju3.cha => on pourra comparer l'évolution sur les trois corpus de la longueur des énoncés (on les obtient par locuteur et par corpus, pas besoin de filtrer le locuteur).
Fonction
maxwd: fonction qui recherche les mots les plus longs.
Par exemple:
maxwd ma1.cha ma2.cha ma3.cha +t*CHIIci, il faut la combiner avec la fonction filtre du locuteur si on veut distinguer les mots de l'enfant des mots de l'adulte.
Fonction
freqpos: pour obtenir la fréquence d'un mot dans le corpus ainsi que sa position dans l'énoncé (en début de phrase, en milieu ou en fin d'énoncé?).
Fonction
+smot: pour chercher un mot précis dans un corpus (ou dans des corpora).
Par exemple:
freq ju1.cha +sparceOn obtient un résultat de 18 "parce que" dans le corpus.
D'où viennent-ils?
On peut regarder le
contexte et la complétude de l'adulte.
freq ju1.cha +sparce -w2 +w2=> on voit les deux lignes au-dessus et les 2 lignes au-dessous de l'énoncé où apparait le mot cherché (ici, "parce") et on s'aperçoit que les "parce que" de l'enfant sont des réponses aux "pourquoi" de l'adulte.
Dans un corpus de Mathilde, on a seulement 4 "parce que" mais il n'y a pas de "pourquoi" de l'adulte. En fait, ses "parce que" sont des répétitions des "parce que" de l'adulte (ils s'inscrivent dans la suite du récit, et non pas dans un échange de questions-réponses).
L'étiquetage
morphosyntaxique:
mor ma3.cha=> génération d'un fichier
ma3.mor.cex contenant l'étiquetage.
*nous interrompons ce programme pour vous signaler que c'est à ce moment précis du cours que Luiggi décida d'apprendre l'anglais afin de pouvoir dire sans le moindre accent "more sex"...*
Attention! Dans le fichier "ma3.mor.cex", le logiciel met plusieurs étiquettes par mot s'il trouve le mot dans plusieurs dico ou sous plusieurs entrées...
Le programme
post va permettre de nettoyer l'étiquetage au maximum avec d'autres ressources basées notamment sur les statistiques du contexte (genre on a plus de proba de croiser un article devant un nom etc.).
post ma3.mor.cexJe rappelle qu'il faut un espace entre post et la suite et que cette suite est le nom du fichier généré par la fonction mor, sinon, il n'y a pas d'étiquetage à nettoyer, hein...
On obtient un troisième fichier appelé cette fois ma3.mor.pst.cex...
Bon, on arrête là pour le moment, hein...!
M. Sansonetti a distribué ça (oui, je sais, c'est un peu petit, j'ai fait ce que j'ai pu... click droit => enregistrer sous => vous pourrez zoomer):
Et a envoyé un mail à tous ses étudiants, mais au cas où certains d'entre vous ne l'aient pas reçu, je le remets ici:
bonjour à vous
c'est le printemps, et comme le soleil ne vient pas seul, vous trouverez sur le cours L6F01 sur Agora
toutes les ressources nécessaires pour jouer avec le logiciel CLAN :
- un lien vers le site officiel
- le logiciel (pour PC) avec les ressources pour travailler sur le français
- un mode d'emploi en français
- des corpus pour s'amuser avec
je vous donne rendez-vous la prochaine fois pour jouer avec un autre logiciel
et les notes seront bientôt données (au moins pour ceux qui suivent le contrôle continu !)
merci à vous et à bientôtVoilà, c'est tout pour l'instant. :-)