Files
tp_modelysation_sys/texte_1.txt

168 lines
14 KiB
Plaintext
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

les traitements statistiques de donnees textuelles. (l. lebart, cnrs-enst ; lebart@enst.fr)
le materiau statistique « texte » est omnipresent, presque banal, depuis le developpement
dinternet et de la toile (web). letude quantitative et statistique de ces textes semble avoir fait
irruption recemment, et pourtant les etudes statistiques de textes datent de plusieurs
decennies, avec notamment en france les travaux de p. guiraud (problemes et methodes de la
statistique linguistique, puf, 1960), c. muller (principes et methodes de statistique lexicale,
hachette, 1977) puis de j.p. benzecri (pratique de lanalyse des donnees, tome 3 :
linguistique et lexicologie, dunod, 1981).
apres la « stylometrie », consacree à letude de la forme des textes, en vue didentifier un
auteur ou de dater une oeuvre, sont apparues les techniques de documentation automatique
(information retrieval en anglais), visant à rechercher dans une base de documents (articles
scientifiques, resumes, brevets, …) le ou les elements pertinents à partir dune requête
exprimee sous forme de textes libres. le champ disciplinaire « traitement du langage
naturel » est alors apparu, et sest developpe, au depart, comme un des domaines
dapplication privilegie de lintelligence artificielle. la complexite du materiau, le besoin
dassimiler dimmenses corpus de textes, la pertinence du concept dapprentissage ont
naturellement ouvert ce champ aux methodes statistiques. la statistique multidimensionnelle,
les chaînes de markov cachees, les methodes danalyse discriminantes interviennent ainsi
pour construire les outils de base que sont les moteurs de recherche sur le web, les analyseurs
morphosyntactiques, les correcteurs orthographiques, ainsi que dans des champs dapplication
pratiques comme le traitement des reponses aux questions ouvertes dans les enquêtes socioeconomiques.
les questions ouvertes
il est utile, dans un certain nombre de situations d'enquête, de laisser ouvertes certaines
questions, dont les reponses se presenteront donc sous forme de textes de longueurs variables.
le recueil des donnees
dans au moins trois situations courantes, l'utilisation d'un questionnement ouvert s'impose :
pour diminuer ou optimiser la duree de lentrevue denquête
bien que les reponses libres et les reponses guidees fournissent des informations de natures
differentes, les premieres sont plus economiques que les secondes en temps d'interview et
generent moins de fatigue. une simple question ouverte (par exemple : "quelles furent vos
principales activites dimanche dernier ?") peut remplacer de longues listes d'items.
comme complement à des questions fermees
il s'agit le plus souvent de la question: "pourquoi ?". les explications concernant une reponse
dejà donnee doivent necessairement être spontanee. une batterie d'items risquerait de
proposer de nouveaux arguments qui pourraient nuire à l'authenticite de l'explication. l'utilite
de la question pourquoi ? a ete soulignee par de nombreux auteurs, et ce sont en fait les
difficultes et le coût de l'exploitation qui en limitent l'usage. elle seule permet en effet de
savoir si les differentes categories de personnes interrogees ont compris la question fermee de
la même façon.
pour recueillir une information qui doit, par nature, être spontanee
les questionnaires des enquêtes de marketing abondent en questions de ce type. citons par
exemple : "qu'avez-vous retenu de cette campagne publicitaire ?", "que pensez-vous de cette
voiture ?". notons cependant que les questions ouvertes sont considerees comme peu
adaptees aux problemes de memorisation de comportement. "quels magazines avez-vous lus
la semaine derniere ?", "quelles sont les dernieres emissions de television que vous avez
aimees ?". pour ces questions qui font l'objet d'enquêtes periodiques, il a ete prouve maintes
fois que les questions fermees donnent des taux d'oubli plus faibles. en revanche, quand la
qualite de la memorisation est en jeu, la forme ouverte reste indispensable.
voici quatre exemples de reponses à la question « quelle est pour vous la chose la plus
importante dans la vie ? » (question posee à des echantillons denviron mille personnes dans
sept pays en 1991).
1) la sante, ne pas manquer d'argent, avoir une bonne ambiance familiale, je voudrais
pouvoir aider les enfants abandonnes, leur redonner le goût à la vie, pouvoir aider les
personnes âgees handicapees, secourir les gens autour de soi.
2) c'est de faire ce qu'on veut. lire, voyager si je pouvais. les loisirs si on pouvait.
3) la sante puisqu'il faut toujours travailler quand on est commerçant. une bonne entente en
famille. avoir assez d'argent pour vivre.
4) la famille, ma famille, mon foyer, vivre avec la societe : mon entourage les voisins, pour
faire quelque chose qu'il y ait moins de malheureux, donner du travail aux jeunes surtout.
ces exemples illustrent à la fois la complexite et la richesse des reponses.
les unites statistiques
les programmes travaillent à partir du texte brut, en extrayant automatiquement des unites
statistiques, la plupart du temps des formes graphiques (sequences de caracteres nonseparateurs).
on utilise le vocable forme graphique parce que le mot « mot » lui-même est
ambigu. il designe en effet selon les contextes loccurrence dun mot (quand on dit quun
texte a huit cent mots, on parle bien sûr doccurrences, et non de mots differents), le type (qui
correspond à la forme graphique) et le lemme (avoir est le lemme de avait, et, dans certains
cas seulement, de avions). la premiere reponse de lexemple ci-dessus contient 38
occurrences, mais la forme graphique « les » apparaît trois fois, « pouvoir » apparaît deux
fois. le lemme de « bonne » est bon (le masculin singulier, selon une convention française),
celui de « voudrais » est « vouloir ».
dans le cas de lexemple precedent, pour 1009 reponses, on obtient 14337 occurrences de
1394 formes distinctes (ou types). il est bien connu que la distribution de frequence des mots
est tres dissymetrique (loi dite de zipf, apparentee à la distribution de pareto). ainsi, en ne
retenant que les formes apparaissant au moins 20 fois, il reste un texte de 10 994 formes, avec
seulement 97 formes distinctes (ainsi 7 % des mots distincts correspondent à 77 % du texte
global). en particulier, pres de la moitie des formes grahiques distinctes napparaissent quune
fois ( ce sont les « hapax »).
le post-codage
le pretraitement empirique appele "post-codage" permet de fermer a posteriori les questions
ouvertes. cette technique courante consiste à construire une batterie d'items à partir d'un sousechantillon
de reponses, puis à codifier l'ensemble des reponses de façon à remplacer la
question ouverte par une ou plusieurs questions fermees. pour lexemple ci-dessus, la seconde
reponse, la plus simple, donnerait les items « lecture », voyage », « loisirs », sous reserve que
ces items apparaissent avec une certaine frequence dans lechantillon de reponses. en
revanche la premiere reponse est plus delicate à post-coder.
les outils statistique de base
les outils de base sont la selection de formes caracteristiques, la selection de reponses
modales, l'analyse des correspondances et la classification des tableaux lexicaux.
formes ou segments caracteristiques (ou specificites)
les formes caracteristiques sont les formes "anormalement" frequentes dans les reponses d'un
groupe d'individus (technique propose par p. lafon en 1980). un test elementaire fonde sur la
loi hypergeometrique permet de selectionner les mots (formes graphiques ou lemmes) dont la
frequence dans un groupe est notablement superieure (ou inferieure pour les mots anticaracteristiques)
à la frequence moyenne dans le corpus. il sagit de test classique de
comparaisons de frequences, maisla repetition de ce test conduit à prendre des seuils de
signification tres severes (phenomene de comparaisons multiples bien connu des statisticiens).
dans lexemple evoque plus haut, la frequence moyenne du mot travail dans le corpus etait de
3.4 %; pour le groupe des femmes de plus de 55 ans, la frequence nest que de 1.2 %. cette
difference est en fait hautement significative ( on peut exprimer le test de comparaison de
frequences en termes decart-types : dans lhypothese dhomogeneite des frequences, la
valeur1.2% est à 4.5 ecart-types de la valeur moyenne 3.4). comme il sagit dune frequence
anormalement faible, on parlera de mots anti-caracteristiques. [lindividu statistique est ici
loccurrence de mots. les femmes de plus de 55 ans ont emis 1349 mots dans leurs reponses.
la variance de la frequence dun mot dont la frequence “theorique” est de 0.034 est donnee
par la formule classique 0.034(1 0.034) /1349. on voit dans ces conditions qe la frequence
observee de 0.012 est à 4.5 ecart-types de 0.034].
les selections des reponses modales
pour un groupe d'individus donne, et donc pour le regroupement de reponses correspondant,
les reponses modales (ou encore phrases caracteristiques, ou documents-type, la terminologie
variant selon les domaines d'application) sont des reponses originales du corpus de base, ayant
la propriete de caracteriser au mieux le groupe. on peut, pour chaque regroupement, calculer
la distance du profil lexical d'un individu au profil lexical moyen du groupement. on peut
ensuite classer les distances par ordre croissant, et donc selectionner les reponses les plus
representatives au sens du profil lexical, qui correspondront aux plus petites distances. on
obtient ainsi une sorte de resume des reponses de chaque regroupement, forme de reponses
originales (l. lebart et a. salem, statistique textuelle, dunod, 1994). toujours dans le cas de
notre exemple, “etre heureux, avoir un bon travail, reussite professionnelle et familiale” est
ainsi une reponse caracteristique des jeunes hommes; “la sante, la famille” est une reponse
caracterisant les plus âges. on utilise en pratique plusierus reponses caracteristiques par
groupe.
analyse des correspondances et classification
le volume des donnees demande que lon fasse appel à de puissants outils de description. les
methodes danalyses des correspondances et de classification peuvent decrire les tables de contingence
croisant les reponses et les formes graphiques, ou des groupes de reponses (par exemple regroupement
selon le niveau d'instruction des repondants) et les formes graphiques. elles permettent de visualiser
sous forme de series de cartes planes (ou de dendrogrammes dans le cas des methodes de
classification, ou de cartes auto-associatives de kohonen, methode “neuronale” de visualisation) les
associations entre mots (formes) et groupes ou modalites. ainsi, une visualisation des proximites entre
mots et categories socioprofessionnelles pourra aider la lecture des reponses de chacune de ces
categories.
conclusions et ouvertures
pour des reponses simples et stereotypees, nous lavons vu, les procedures de post-codage
peuvent fonctionner. mentionnons cependant parmi les defauts de ce type de traitement :
la mediation du chiffreur: les decisions à prendre sont parfois difficiles.
la qualite de l'expression, le registre du vocabulaire, la tonalite generale de l'entretien sont
des elements d'analyse perdus lors d'un post-codage (doit-on coder differemment “ je ne sais
pas” et “je prefere ne rien dire” ?.
les reponses composites, complexes, d'une grande diversite, sont tres difficile à post-coder,
et c'est souvent dans ce cas que la valeur heuristique des reponses libres est la plus grande.
les reponses peu frequentes, originales, peu claires en premiere lecture sont considerees
comme du “bruit”, et affectees à des items residuels (“autres”) qui sont donc tres
heterogenes et sont difficiles à manipuler.
sans quil soit necessaire de proceder à un post codage, on peut, actuellement, à partir d'une
ensemble de textes, et d'un seuil de frequence pour les formes graphiques, obtenir une
visualisation des proximites entre textes (vis-à-vis de leurs profils lexicaux) et entre formes
graphiques (vis-à-vis de leur repartition dans les textes). l'enrichissement des unites
statistiques par les segments repetes,(cf. a. salem, pratique des segments repetes,
klincksieck, 1987), leurs regroupements par categorisation morphologique, l'utilisation des
formes caracteristiques ou specificites, l'adjonction des reponses modales ou des phrases ou
unites de contexte caracteristiques ont perfectionne ces approches, et mis à la disposition de
beaucoup d'utilisateurs des methodes et des logiciels utiles. dans certains domaines
d'application precis (comme le traitement automatique des reponses aux questions ouvertes,
qui nous interesse ici), l'efficacite de la methode, comme complement des approches
traditionnelles, est reconnue.
parallelement aux travaux relevant de lindustrie de la langue, que nous avons evoques plus
haut, et qui relevent dune ingenierie statistique complexe, il existe donc des applications
textuelles de la statistique qui restent à portee de main. elles necessitent certes des logiciels
specifiques, mais la nature familiere et vivante du materiau de base compense en quelque
sorte la relative complexite des traitements et les difficultes dinterpretation.
proche des bases de donnees, de lintelligence artificielle et des reseaux de neurones, de la
theorie de lapprentissage, des techniques recentes dextraction et de gestion des
connaissances, le domaine textuel illustre bien la polyvalence et la puissance de la
methodologie statistique. même quand les methodes prennent parfois les noms plus exotiques
de fouille de texte ou de text mining, le statisticien est toujours sollicite quand il sagit de
connaître la portee reelle des faits observes et des traits structuraux obtenus, de savoir ce que
lon a le droit de dire ou le devoir de ne pas dire, cest-à-dire finalement de donner un statut
scientifique aux resultats.