Feat: Adds the HMM and detection for one word

2026-05-18 11:49:59 +02:00
commit 302b5f5d46
23 changed files with 1285 additions and 0 deletions
--- a/texte_1.txt
+++ b/texte_1.txt
@@ -0,0 +1,168 @@
+les traitements statistiques de donnees textuelles. (l. lebart, cnrs-enst ; lebart@enst.fr)
+le materiau statistique <20> texte <20> est omnipresent, presque banal, depuis le developpement
+d<EFBFBD>internet et de la toile (web). l<>etude quantitative et statistique de ces textes semble avoir fait
+irruption recemment, et pourtant les etudes statistiques de textes datent de plusieurs
+decennies, avec notamment en france les travaux de p. guiraud (problemes et methodes de la
+statistique linguistique, puf, 1960), c. muller (principes et methodes de statistique lexicale,
+hachette, 1977) puis de j.p. benzecri (pratique de l<>analyse des donnees, tome 3 :
+linguistique et lexicologie, dunod, 1981).
+apres la <20> stylometrie <20>, consacree <20> l<>etude de la forme des textes, en vue d<>identifier un
+auteur ou de dater une oeuvre, sont apparues les techniques de documentation automatique
+(information retrieval en anglais), visant <20> rechercher dans une base de documents (articles
+scientifiques, resumes, brevets, <20>) le ou les elements pertinents <20> partir d<>une requ<71>te
+exprimee sous forme de textes libres. le champ disciplinaire <20> traitement du langage
+naturel <20> est alors apparu, et s<>est developpe, au depart, comme un des domaines
+d<EFBFBD>application privilegie de l<>intelligence artificielle. la complexite du materiau, le besoin
+d<EFBFBD>assimiler d<>immenses corpus de textes, la pertinence du concept d<>apprentissage ont
+naturellement ouvert ce champ aux methodes statistiques. la statistique multidimensionnelle,
+les cha<68>nes de markov cachees, les methodes d<>analyse discriminantes interviennent ainsi
+pour construire les outils de base que sont les moteurs de recherche sur le web, les analyseurs
+morphosyntactiques, les correcteurs orthographiques, ainsi que dans des champs d<>application
+pratiques comme le traitement des reponses aux questions ouvertes dans les enqu<71>tes socioeconomiques.
+les questions ouvertes
+il est utile, dans un certain nombre de situations d'enqu<71>te, de laisser ouvertes certaines
+questions, dont les reponses se presenteront donc sous forme de textes de longueurs variables.
+le recueil des donnees
+dans au moins trois situations courantes, l'utilisation d'un questionnement ouvert s'impose :
+pour diminuer ou optimiser la duree de l<>entrevue d<>enqu<71>te
+bien que les reponses libres et les reponses guidees fournissent des informations de natures
+differentes, les premieres sont plus economiques que les secondes en temps d'interview et
+generent moins de fatigue. une simple question ouverte (par exemple : "quelles furent vos
+principales activites dimanche dernier ?") peut remplacer de longues listes d'items.
+comme complement <20> des questions fermees
+il s'agit le plus souvent de la question: "pourquoi ?". les explications concernant une reponse
+dej<EFBFBD> donnee doivent necessairement <20>tre spontanee. une batterie d'items risquerait de
+proposer de nouveaux arguments qui pourraient nuire <20> l'authenticite de l'explication. l'utilite
+de la question pourquoi ? a ete soulignee par de nombreux auteurs, et ce sont en fait les
+difficultes et le co<63>t de l'exploitation qui en limitent l'usage. elle seule permet en effet de
+savoir si les differentes categories de personnes interrogees ont compris la question fermee de
+la m<>me fa<66>on.
+pour recueillir une information qui doit, par nature, <20>tre spontanee
+les questionnaires des enqu<71>tes de marketing abondent en questions de ce type. citons par
+exemple : "qu'avez-vous retenu de cette campagne publicitaire ?", "que pensez-vous de cette
+voiture ?". notons cependant que les questions ouvertes sont considerees comme peu
+adaptees aux problemes de memorisation de comportement. "quels magazines avez-vous lus
+la semaine derniere ?", "quelles sont les dernieres emissions de television que vous avez
+aimees ?". pour ces questions qui font l'objet d'enqu<71>tes periodiques, il a ete prouve maintes
+fois que les questions fermees donnent des taux d'oubli plus faibles. en revanche, quand la
+qualite de la memorisation est en jeu, la forme ouverte reste indispensable.
+voici quatre exemples de reponses <20> la question <20> quelle est pour vous la chose la plus
+importante dans la vie ? <20> (question posee <20> des echantillons d<>environ mille personnes dans
+sept pays en 1991).
+1) la sante, ne pas manquer d'argent, avoir une bonne ambiance familiale, je voudrais
+pouvoir aider les enfants abandonnes, leur redonner le go<67>t <20> la vie, pouvoir aider les
+personnes <20>gees handicapees, secourir les gens autour de soi.
+2) c'est de faire ce qu'on veut. lire, voyager si je pouvais. les loisirs si on pouvait.
+3) la sante puisqu'il faut toujours travailler quand on est commer<65>ant. une bonne entente en
+famille. avoir assez d'argent pour vivre.
+4) la famille, ma famille, mon foyer, vivre avec la societe : mon entourage les voisins, pour
+faire quelque chose qu'il y ait moins de malheureux, donner du travail aux jeunes surtout.
+ces exemples illustrent <20> la fois la complexite et la richesse des reponses.
+les unites statistiques
+les programmes travaillent <20> partir du texte brut, en extrayant automatiquement des unites
+statistiques, la plupart du temps des formes graphiques (sequences de caracteres nonseparateurs).
+on utilise le vocable forme graphique parce que le mot <20> mot <20> lui-m<>me est
+ambigu. il designe en effet selon les contextes l<>occurrence d<>un mot (quand on dit qu<71>un
+texte a huit cent mots, on parle bien s<>r d<>occurrences, et non de mots differents), le type (qui
+correspond <20> la forme graphique) et le lemme (avoir est le lemme de avait, et, dans certains
+cas seulement, de avions). la premiere reponse de l<>exemple ci-dessus contient 38
+occurrences, mais la forme graphique <20> les <20> appara<72>t trois fois, <20> pouvoir <20> appara<72>t deux
+fois. le lemme de <20> bonne <20> est bon (le masculin singulier, selon une convention fran<61>aise),
+celui de <20> voudrais <20> est <20> vouloir <20>.
+dans le cas de l<>exemple precedent, pour 1009 reponses, on obtient 14337 occurrences de
+1394 formes distinctes (ou types). il est bien connu que la distribution de frequence des mots
+est tres dissymetrique (loi dite de zipf, apparentee <20> la distribution de pareto). ainsi, en ne
+retenant que les formes apparaissant au moins 20 fois, il reste un texte de 10 994 formes, avec
+seulement 97 formes distinctes (ainsi 7 % des mots distincts correspondent <20> 77 % du texte
+global). en particulier, pres de la moitie des formes grahiques distinctes n<>apparaissent qu<71>une
+fois ( ce sont les <20> hapax <20>).
+le post-codage
+le pretraitement empirique appele "post-codage" permet de fermer a posteriori les questions
+ouvertes. cette technique courante consiste <20> construire une batterie d'items <20> partir d'un sousechantillon
+de reponses, puis <20> codifier l'ensemble des reponses de fa<66>on <20> remplacer la
+question ouverte par une ou plusieurs questions fermees. pour l<>exemple ci-dessus, la seconde
+reponse, la plus simple, donnerait les items <20> lecture <20>, voyage <20>, <20> loisirs <20>, sous reserve que
+ces items apparaissent avec une certaine frequence dans l<>echantillon de reponses. en
+revanche la premiere reponse est plus delicate <20> post-coder.
+les outils statistique de base
+les outils de base sont la selection de formes caracteristiques, la selection de reponses
+modales, l'analyse des correspondances et la classification des tableaux lexicaux.
+formes ou segments caracteristiques (ou specificites)
+les formes caracteristiques sont les formes "anormalement" frequentes dans les reponses d'un
+groupe d'individus (technique propose par p. lafon en 1980). un test elementaire fonde sur la
+loi hypergeometrique permet de selectionner les mots (formes graphiques ou lemmes) dont la
+frequence dans un groupe est notablement superieure (ou inferieure pour les mots anticaracteristiques)
+<EFBFBD> la frequence moyenne dans le corpus. il s<>agit de test classique de
+comparaisons de frequences, maisla repetition de ce test conduit <20> prendre des seuils de
+signification tres severes (phenomene de comparaisons multiples bien connu des statisticiens).
+dans l<>exemple evoque plus haut, la frequence moyenne du mot travail dans le corpus etait de
+3.4 %; pour le groupe des femmes de plus de 55 ans, la frequence n<>est que de 1.2 %. cette
+difference est en fait hautement significative ( on peut exprimer le test de comparaison de
+frequences en termes d<>ecart-types : dans l<>hypothese d<>homogeneite des frequences, la
+valeur1.2% est <20> 4.5 ecart-types de la valeur moyenne 3.4). comme il s<>agit d<>une frequence
+anormalement faible, on parlera de mots anti-caracteristiques. [l<>individu statistique est ici
+l<EFBFBD>occurrence de mots. les femmes de plus de 55 ans ont emis 1349 mots dans leurs reponses.
+la variance de la frequence d<>un mot dont la frequence <20>theorique<75> est de 0.034 est donnee
+par la formule classique 0.034(1 <20> 0.034) /1349. on voit dans ces conditions qe la frequence
+observee de 0.012 est <20> 4.5 ecart-types de 0.034].
+les selections des reponses modales
+pour un groupe d'individus donne, et donc pour le regroupement de reponses correspondant,
+les reponses modales (ou encore phrases caracteristiques, ou documents-type, la terminologie
+variant selon les domaines d'application) sont des reponses originales du corpus de base, ayant
+la propriete de caracteriser au mieux le groupe. on peut, pour chaque regroupement, calculer
+la distance du profil lexical d'un individu au profil lexical moyen du groupement. on peut
+ensuite classer les distances par ordre croissant, et donc selectionner les reponses les plus
+representatives au sens du profil lexical, qui correspondront aux plus petites distances. on
+obtient ainsi une sorte de resume des reponses de chaque regroupement, forme de reponses
+originales (l. lebart et a. salem, statistique textuelle, dunod, 1994). toujours dans le cas de
+notre exemple, <20>etre heureux, avoir un bon travail, reussite professionnelle et familiale<6C> est
+ainsi une reponse caracteristique des jeunes hommes; <20>la sante, la famille<6C> est une reponse
+caracterisant les plus <20>ges. on utilise en pratique plusierus reponses caracteristiques par
+groupe.
+analyse des correspondances et classification
+le volume des donnees demande que l<>on fasse appel <20> de puissants outils de description. les
+methodes d<>analyses des correspondances et de classification peuvent decrire les tables de contingence
+croisant les reponses et les formes graphiques, ou des groupes de reponses (par exemple regroupement
+selon le niveau d'instruction des repondants) et les formes graphiques. elles permettent de visualiser
+sous forme de series de cartes planes (ou de dendrogrammes dans le cas des methodes de
+classification, ou de cartes auto-associatives de kohonen, methode <20>neuronale<6C> de visualisation) les
+associations entre mots (formes) et groupes ou modalites. ainsi, une visualisation des proximites entre
+mots et categories socioprofessionnelles pourra aider la lecture des reponses de chacune de ces
+categories.
+conclusions et ouvertures
+pour des reponses simples et stereotypees, nous l<>avons vu, les procedures de post-codage
+peuvent fonctionner. mentionnons cependant parmi les defauts de ce type de traitement :
+la mediation du chiffreur: les decisions <20> prendre sont parfois difficiles.
+la qualite de l'expression, le registre du vocabulaire, la tonalite generale de l'entretien sont
+des elements d'analyse perdus lors d'un post-codage (doit-on coder differemment <20> je ne sais
+pas<EFBFBD> et <20>je prefere ne rien dire<72> ?.
+les reponses composites, complexes, d'une grande diversite, sont tres difficile <20> post-coder,
+et c'est souvent dans ce cas que la valeur heuristique des reponses libres est la plus grande.
+les reponses peu frequentes, originales, peu claires en premiere lecture sont considerees
+comme du <20>bruit<69>, et affectees <20> des items residuels (<28>autres<65>) qui sont donc tres
+heterogenes et sont difficiles <20> manipuler.
+sans qu<71>il soit necessaire de proceder <20> un post codage, on peut, actuellement, <20> partir d'une
+ensemble de textes, et d'un seuil de frequence pour les formes graphiques, obtenir une
+visualisation des proximites entre textes (vis-<2D>-vis de leurs profils lexicaux) et entre formes
+graphiques (vis-<2D>-vis de leur repartition dans les textes). l'enrichissement des unites
+statistiques par les segments repetes,(cf. a. salem, pratique des segments repetes,
+klincksieck, 1987), leurs regroupements par categorisation morphologique, l'utilisation des
+formes caracteristiques ou specificites, l'adjonction des reponses modales ou des phrases ou
+unites de contexte caracteristiques ont perfectionne ces approches, et mis <20> la disposition de
+beaucoup d'utilisateurs des methodes et des logiciels utiles. dans certains domaines
+d'application precis (comme le traitement automatique des reponses aux questions ouvertes,
+qui nous interesse ici), l'efficacite de la methode, comme complement des approches
+traditionnelles, est reconnue.
+parallelement aux travaux relevant de l<>industrie de la langue, que nous avons evoques plus
+haut, et qui relevent d<>une ingenierie statistique complexe, il existe donc des applications
+textuelles de la statistique qui restent <20> portee de main. elles necessitent certes des logiciels
+specifiques, mais la nature familiere et vivante du materiau de base compense en quelque
+sorte la relative complexite des traitements et les difficultes d<>interpretation.
+proche des bases de donnees, de l<>intelligence artificielle et des reseaux de neurones, de la
+theorie de l<>apprentissage, des techniques recentes d<>extraction et de gestion des
+connaissances, le domaine textuel illustre bien la polyvalence et la puissance de la
+methodologie statistique. m<>me quand les methodes prennent parfois les noms plus exotiques
+de fouille de texte ou de text mining, le statisticien est toujours sollicite quand il s<>agit de
+conna<EFBFBD>tre la portee reelle des faits observes et des traits structuraux obtenus, de savoir ce que
+l<EFBFBD>on a le droit de dire ou le devoir de ne pas dire, c<>est-<2D>-dire finalement de donner un statut
+scientifique aux resultats.