les traitements statistiques de donnees textuelles. (l. lebart, cnrs-enst ; lebart@enst.fr) le materiau statistique « texte » est omnipresent, presque banal, depuis le developpement d’internet et de la toile (web). l’etude quantitative et statistique de ces textes semble avoir fait irruption recemment, et pourtant les etudes statistiques de textes datent de plusieurs decennies, avec notamment en france les travaux de p. guiraud (problemes et methodes de la statistique linguistique, puf, 1960), c. muller (principes et methodes de statistique lexicale, hachette, 1977) puis de j.p. benzecri (pratique de l’analyse des donnees, tome 3 : linguistique et lexicologie, dunod, 1981). apres la « stylometrie », consacree à l’etude de la forme des textes, en vue d’identifier un auteur ou de dater une oeuvre, sont apparues les techniques de documentation automatique (information retrieval en anglais), visant à rechercher dans une base de documents (articles scientifiques, resumes, brevets, …) le ou les elements pertinents à partir d’une requête exprimee sous forme de textes libres. le champ disciplinaire « traitement du langage naturel » est alors apparu, et s’est developpe, au depart, comme un des domaines d’application privilegie de l’intelligence artificielle. la complexite du materiau, le besoin d’assimiler d’immenses corpus de textes, la pertinence du concept d’apprentissage ont naturellement ouvert ce champ aux methodes statistiques. la statistique multidimensionnelle, les chaînes de markov cachees, les methodes d’analyse discriminantes interviennent ainsi pour construire les outils de base que sont les moteurs de recherche sur le web, les analyseurs morphosyntactiques, les correcteurs orthographiques, ainsi que dans des champs d’application pratiques comme le traitement des reponses aux questions ouvertes dans les enquêtes socioeconomiques. les questions ouvertes il est utile, dans un certain nombre de situations d'enquête, de laisser ouvertes certaines questions, dont les reponses se presenteront donc sous forme de textes de longueurs variables. le recueil des donnees dans au moins trois situations courantes, l'utilisation d'un questionnement ouvert s'impose : pour diminuer ou optimiser la duree de l’entrevue d’enquête bien que les reponses libres et les reponses guidees fournissent des informations de natures differentes, les premieres sont plus economiques que les secondes en temps d'interview et generent moins de fatigue. une simple question ouverte (par exemple : "quelles furent vos principales activites dimanche dernier ?") peut remplacer de longues listes d'items. comme complement à des questions fermees il s'agit le plus souvent de la question: "pourquoi ?". les explications concernant une reponse dejà donnee doivent necessairement être spontanee. une batterie d'items risquerait de proposer de nouveaux arguments qui pourraient nuire à l'authenticite de l'explication. l'utilite de la question pourquoi ? a ete soulignee par de nombreux auteurs, et ce sont en fait les difficultes et le coût de l'exploitation qui en limitent l'usage. elle seule permet en effet de savoir si les differentes categories de personnes interrogees ont compris la question fermee de la même façon. pour recueillir une information qui doit, par nature, être spontanee les questionnaires des enquêtes de marketing abondent en questions de ce type. citons par exemple : "qu'avez-vous retenu de cette campagne publicitaire ?", "que pensez-vous de cette voiture ?". notons cependant que les questions ouvertes sont considerees comme peu adaptees aux problemes de memorisation de comportement. "quels magazines avez-vous lus la semaine derniere ?", "quelles sont les dernieres emissions de television que vous avez aimees ?". pour ces questions qui font l'objet d'enquêtes periodiques, il a ete prouve maintes fois que les questions fermees donnent des taux d'oubli plus faibles. en revanche, quand la qualite de la memorisation est en jeu, la forme ouverte reste indispensable. voici quatre exemples de reponses à la question « quelle est pour vous la chose la plus importante dans la vie ? » (question posee à des echantillons d’environ mille personnes dans sept pays en 1991). 1) la sante, ne pas manquer d'argent, avoir une bonne ambiance familiale, je voudrais pouvoir aider les enfants abandonnes, leur redonner le goût à la vie, pouvoir aider les personnes âgees handicapees, secourir les gens autour de soi. 2) c'est de faire ce qu'on veut. lire, voyager si je pouvais. les loisirs si on pouvait. 3) la sante puisqu'il faut toujours travailler quand on est commerçant. une bonne entente en famille. avoir assez d'argent pour vivre. 4) la famille, ma famille, mon foyer, vivre avec la societe : mon entourage les voisins, pour faire quelque chose qu'il y ait moins de malheureux, donner du travail aux jeunes surtout. ces exemples illustrent à la fois la complexite et la richesse des reponses. les unites statistiques les programmes travaillent à partir du texte brut, en extrayant automatiquement des unites statistiques, la plupart du temps des formes graphiques (sequences de caracteres nonseparateurs). on utilise le vocable forme graphique parce que le mot « mot » lui-même est ambigu. il designe en effet selon les contextes l’occurrence d’un mot (quand on dit qu’un texte a huit cent mots, on parle bien sûr d’occurrences, et non de mots differents), le type (qui correspond à la forme graphique) et le lemme (avoir est le lemme de avait, et, dans certains cas seulement, de avions). la premiere reponse de l’exemple ci-dessus contient 38 occurrences, mais la forme graphique « les » apparaît trois fois, « pouvoir » apparaît deux fois. le lemme de « bonne » est bon (le masculin singulier, selon une convention française), celui de « voudrais » est « vouloir ». dans le cas de l’exemple precedent, pour 1009 reponses, on obtient 14337 occurrences de 1394 formes distinctes (ou types). il est bien connu que la distribution de frequence des mots est tres dissymetrique (loi dite de zipf, apparentee à la distribution de pareto). ainsi, en ne retenant que les formes apparaissant au moins 20 fois, il reste un texte de 10 994 formes, avec seulement 97 formes distinctes (ainsi 7 % des mots distincts correspondent à 77 % du texte global). en particulier, pres de la moitie des formes grahiques distinctes n’apparaissent qu’une fois ( ce sont les « hapax »). le post-codage le pretraitement empirique appele "post-codage" permet de fermer a posteriori les questions ouvertes. cette technique courante consiste à construire une batterie d'items à partir d'un sousechantillon de reponses, puis à codifier l'ensemble des reponses de façon à remplacer la question ouverte par une ou plusieurs questions fermees. pour l’exemple ci-dessus, la seconde reponse, la plus simple, donnerait les items « lecture », voyage », « loisirs », sous reserve que ces items apparaissent avec une certaine frequence dans l’echantillon de reponses. en revanche la premiere reponse est plus delicate à post-coder. les outils statistique de base les outils de base sont la selection de formes caracteristiques, la selection de reponses modales, l'analyse des correspondances et la classification des tableaux lexicaux. formes ou segments caracteristiques (ou specificites) les formes caracteristiques sont les formes "anormalement" frequentes dans les reponses d'un groupe d'individus (technique propose par p. lafon en 1980). un test elementaire fonde sur la loi hypergeometrique permet de selectionner les mots (formes graphiques ou lemmes) dont la frequence dans un groupe est notablement superieure (ou inferieure pour les mots anticaracteristiques) à la frequence moyenne dans le corpus. il s’agit de test classique de comparaisons de frequences, maisla repetition de ce test conduit à prendre des seuils de signification tres severes (phenomene de comparaisons multiples bien connu des statisticiens). dans l’exemple evoque plus haut, la frequence moyenne du mot travail dans le corpus etait de 3.4 %; pour le groupe des femmes de plus de 55 ans, la frequence n’est que de 1.2 %. cette difference est en fait hautement significative ( on peut exprimer le test de comparaison de frequences en termes d’ecart-types : dans l’hypothese d’homogeneite des frequences, la valeur1.2% est à 4.5 ecart-types de la valeur moyenne 3.4). comme il s’agit d’une frequence anormalement faible, on parlera de mots anti-caracteristiques. [l’individu statistique est ici l’occurrence de mots. les femmes de plus de 55 ans ont emis 1349 mots dans leurs reponses. la variance de la frequence d’un mot dont la frequence “theorique” est de 0.034 est donnee par la formule classique 0.034(1 – 0.034) /1349. on voit dans ces conditions qe la frequence observee de 0.012 est à 4.5 ecart-types de 0.034]. les selections des reponses modales pour un groupe d'individus donne, et donc pour le regroupement de reponses correspondant, les reponses modales (ou encore phrases caracteristiques, ou documents-type, la terminologie variant selon les domaines d'application) sont des reponses originales du corpus de base, ayant la propriete de caracteriser au mieux le groupe. on peut, pour chaque regroupement, calculer la distance du profil lexical d'un individu au profil lexical moyen du groupement. on peut ensuite classer les distances par ordre croissant, et donc selectionner les reponses les plus representatives au sens du profil lexical, qui correspondront aux plus petites distances. on obtient ainsi une sorte de resume des reponses de chaque regroupement, forme de reponses originales (l. lebart et a. salem, statistique textuelle, dunod, 1994). toujours dans le cas de notre exemple, “etre heureux, avoir un bon travail, reussite professionnelle et familiale” est ainsi une reponse caracteristique des jeunes hommes; “la sante, la famille” est une reponse caracterisant les plus âges. on utilise en pratique plusierus reponses caracteristiques par groupe. analyse des correspondances et classification le volume des donnees demande que l’on fasse appel à de puissants outils de description. les methodes d’analyses des correspondances et de classification peuvent decrire les tables de contingence croisant les reponses et les formes graphiques, ou des groupes de reponses (par exemple regroupement selon le niveau d'instruction des repondants) et les formes graphiques. elles permettent de visualiser sous forme de series de cartes planes (ou de dendrogrammes dans le cas des methodes de classification, ou de cartes auto-associatives de kohonen, methode “neuronale” de visualisation) les associations entre mots (formes) et groupes ou modalites. ainsi, une visualisation des proximites entre mots et categories socioprofessionnelles pourra aider la lecture des reponses de chacune de ces categories. conclusions et ouvertures pour des reponses simples et stereotypees, nous l’avons vu, les procedures de post-codage peuvent fonctionner. mentionnons cependant parmi les defauts de ce type de traitement : la mediation du chiffreur: les decisions à prendre sont parfois difficiles. la qualite de l'expression, le registre du vocabulaire, la tonalite generale de l'entretien sont des elements d'analyse perdus lors d'un post-codage (doit-on coder differemment “ je ne sais pas” et “je prefere ne rien dire” ?. les reponses composites, complexes, d'une grande diversite, sont tres difficile à post-coder, et c'est souvent dans ce cas que la valeur heuristique des reponses libres est la plus grande. les reponses peu frequentes, originales, peu claires en premiere lecture sont considerees comme du “bruit”, et affectees à des items residuels (“autres”) qui sont donc tres heterogenes et sont difficiles à manipuler. sans qu’il soit necessaire de proceder à un post codage, on peut, actuellement, à partir d'une ensemble de textes, et d'un seuil de frequence pour les formes graphiques, obtenir une visualisation des proximites entre textes (vis-à-vis de leurs profils lexicaux) et entre formes graphiques (vis-à-vis de leur repartition dans les textes). l'enrichissement des unites statistiques par les segments repetes,(cf. a. salem, pratique des segments repetes, klincksieck, 1987), leurs regroupements par categorisation morphologique, l'utilisation des formes caracteristiques ou specificites, l'adjonction des reponses modales ou des phrases ou unites de contexte caracteristiques ont perfectionne ces approches, et mis à la disposition de beaucoup d'utilisateurs des methodes et des logiciels utiles. dans certains domaines d'application precis (comme le traitement automatique des reponses aux questions ouvertes, qui nous interesse ici), l'efficacite de la methode, comme complement des approches traditionnelles, est reconnue. parallelement aux travaux relevant de l’industrie de la langue, que nous avons evoques plus haut, et qui relevent d’une ingenierie statistique complexe, il existe donc des applications textuelles de la statistique qui restent à portee de main. elles necessitent certes des logiciels specifiques, mais la nature familiere et vivante du materiau de base compense en quelque sorte la relative complexite des traitements et les difficultes d’interpretation. proche des bases de donnees, de l’intelligence artificielle et des reseaux de neurones, de la theorie de l’apprentissage, des techniques recentes d’extraction et de gestion des connaissances, le domaine textuel illustre bien la polyvalence et la puissance de la methodologie statistique. même quand les methodes prennent parfois les noms plus exotiques de fouille de texte ou de text mining, le statisticien est toujours sollicite quand il s’agit de connaître la portee reelle des faits observes et des traits structuraux obtenus, de savoir ce que l’on a le droit de dire ou le devoir de ne pas dire, c’est-à-dire finalement de donner un statut scientifique aux resultats.