Feat: Adds the HMM and detection for one word

2026-05-18 11:49:59 +02:00
commit 302b5f5d46
23 changed files with 1285 additions and 0 deletions
--- a/texte_3.txt
+++ b/texte_3.txt
@@ -0,0 +1,30 @@
+Trattamenti statistici dei dati testuali (L. Lebart, CNRS-ENST; lebart@enst.fr)
+Il materiale statistico <20> testo <20> <20> onnipresente, quasi banale, sin dallo sviluppo di Internet e del web. Lo studio quantitativo e statistico di questi testi sembra essere apparso di recente, eppure gli studi statistici sui testi risalgono a diversi decenni fa, in particolare in Francia con i lavori di P. Guiraud (<28> Problemi e metodi di statistica linguistica <20>, PUF, 1960), C. Muller (<28> Principi e metodi di statistica lessicale <20>, Hachette, 1977) e successivamente J.P. Benz<6E>cri (<28> Pratica dell'analisi dei dati, vol. 3: Linguistica e lessicologia <20>, Dunod, 1981).
+Dopo la <20> stilometria <20>, dedicata allo studio della forma dei testi, al fine di identificare un autore o di datare un'opera, sono apparse le tecniche di documentazione automatica (information retrieval in inglese), che mirano a ricercare in un database di documenti (articoli scientifici, riassunti, brevetti, ecc.) gli elementi pertinenti a partire da una richiesta espressa sotto forma di testo libero. Il campo disciplinare <20> trattamento del linguaggio naturale <20> <20> poi emerso e si <20> sviluppato inizialmente come uno dei campi di applicazione privilegiati dell'intelligenza artificiale. La complessit<69> del materiale, la necessit<69> di assimilare enormi corpus di testi, la rilevanza del concetto di apprendimento hanno naturalmente aperto questo campo ai metodi statistici. La statistica multidimensionale, le catene di Markov nascoste, i metodi di analisi discriminante intervengono quindi per costruire gli strumenti di base che sono i motori di ricerca sul web, gli analizzatori morfosintattici, i correttori ortografici, nonch<63> in campi applicativi pratici come il trattamento delle risposte alle domande aperte nelle indagini socio-economiche.
+Le domande aperte
+In un certo numero di situazioni di indagine, <20> utile lasciare aperte alcune domande, le cui risposte si presenteranno quindi sotto forma di testi di lunghezza variabile.
+La raccolta dei dati
+In almeno tre situazioni comuni, l'uso di domande aperte <20> necessario:
+Per ridurre o ottimizzare la durata dell'intervista di indagine: Sebbene le risposte libere e quelle guidate forniscano informazioni di natura diversa, le prime sono pi<70> economiche in termini di tempo di intervista e generano meno stanchezza. Una semplice domanda aperta (ad esempio: <20> Quali sono state le tue principali attivit<69> domenica scorsa? <20>) pu<70> sostituire lunghe liste di elementi.
+Come complemento a domande chiuse: Di solito si tratta della domanda <20> Perch<63>? <20>. Le spiegazioni riguardanti una risposta gi<67> data devono necessariamente essere spontanee. Un elenco di elementi potrebbe suggerire nuovi argomenti che potrebbero compromettere l'autenticit<69> dell'argomentazione.
+Per raccogliere informazioni che devono essere spontanee per loro natura: I questionari delle indagini di marketing abbondano di domande di questo tipo. Esempi includono: <20> Cosa ricordi di questa campagna pubblicitaria? <20> oppure <20> Cosa pensi di questa auto? <20>.
+Unit<EFBFBD> statistiche
+I programmi lavorano a partire dal testo grezzo, estraendo automaticamente delle unit<69> statistiche, per lo pi<70> forme grafiche (sequenze di caratteri non separatori). Si usa il termine forma grafica perch<63> la parola <20> parola <20> <20> ambigua. Pu<50> infatti riferirsi all'occorrenza di una parola, al tipo, oppure al lemma (ad esempio, <20> avere <20> <20> il lemma di <20> aveva <20>).
+nel caso dell<6C>esempio precedente per 1009 risposte si ottengono 14337 occorrenze di 1394 forme distinte (o tipi) <20> ben noto che la distribuzione di frequenza delle parole <20> molto asimmetrica (legge di zipf, simile alla distribuzione di pareto) cos<6F> selezionando solo le forme che appaiono almeno 20 volte rimane un testo di 10994 forme con solo 97 forme distinte (cos<6F> il 7% delle parole distinte corrisponde al 77% del testo totale) in particolare quasi la met<65> delle forme grafiche distinte appare una sola volta (queste sono gli <20> hapax <20>)
+il post-codifica
+il pretrattamento empirico chiamato <20> post-codifica <20> permette di chiudere a posteriori le domande aperte questa tecnica comune consiste nel costruire una serie di elementi a partire da un sotto-campione di risposte per poi codificare tutte le risposte in modo da sostituire la domanda aperta con una o pi<70> domande chiuse per l<>esempio sopra la seconda risposta la pi<70> semplice darebbe gli elementi <20> lettura <20> <20> viaggi <20> <20> tempo libero <20> a condizione che questi elementi appaiano con una certa frequenza nel campione di risposte tuttavia la prima risposta <20> pi<70> difficile da post-codificare
+gli strumenti statistici di base
+gli strumenti di base comprendono la selezione di forme caratteristiche la selezione di risposte modali l'analisi delle corrispondenze e la classificazione delle tabelle lessicali
+forme o segmenti caratteristici (o specificit<69>)
+le forme caratteristiche sono le forme <20> anormalmente <20> frequenti nelle risposte di un gruppo di individui (tecnica proposta da p lafon nel 1980) un test elementare basato sulla legge ipergeometrica permette di selezionare le parole (forme grafiche o lemmi) la cui frequenza in un gruppo <20> significativamente superiore (o inferiore per le parole anti-caratteristiche) alla frequenza media nel corpus si tratta di test classici di confronto delle frequenze ma la ripetizione di questo test porta a prendere soglie di significativit<69> molto rigide (fenomeno di confronti multipli ben noto agli statistici)
+nell<EFBFBD>esempio citato sopra la frequenza media della parola lavoro nel corpus era del 3,4%; per il gruppo delle donne oltre i 55 anni la frequenza <20> solo dell<6C>1,2% questa differenza <20> altamente significativa (si pu<70> esprimere il test di confronto delle frequenze in termini di scarti standard nella ipotesi di omogeneit<69> delle frequenze il valore del 1,2% <20> a 4,5 scarti standard dal valore medio del 3,4%) poich<63> si tratta di una frequenza anormalmente bassa si parler<65> di parole anti-caratteristiche
+le selezioni delle risposte modali
+per un gruppo di individui e quindi per il raggruppamento delle risposte corrispondenti le risposte modali (o frasi caratteristiche o documenti-tipo la terminologia varia a seconda dei campi di applicazione) sono risposte originali del corpus di base che caratterizzano meglio il gruppo si pu<70> per ogni raggruppamento calcolare la distanza del profilo lessicale di un individuo dal profilo lessicale medio del gruppo poi si possono ordinare le distanze in ordine crescente e selezionare le risposte pi<70> rappresentative in termini di profilo lessicale che corrisponderanno alle distanze minori si ottiene cos<6F> una sorta di sintesi delle risposte di ogni gruppo costituita da risposte originali (l lebart e a salem statistica testuale dunod 1994) sempre nel caso del nostro esempio <20> essere felice avere un buon lavoro successo professionale e familiare <20> <20> una risposta caratteristica dei giovani uomini <20> la salute la famiglia <20> <20> una risposta che caratterizza le persone pi<70> anziane in pratica si utilizzano pi<70> risposte caratteristiche per ogni gruppo
+analisi delle corrispondenze e classificazione
+il volume dei dati richiede l'uso di potenti strumenti di descrizione i metodi di analisi delle corrispondenze e di classificazione possono descrivere le tabelle di contingenza che incrociano le risposte con le forme grafiche o gruppi di risposte (ad esempio raggruppamenti in base al livello di istruzione dei rispondenti) e le forme grafiche questi strumenti permettono di visualizzare sotto forma di serie di mappe piane (o dendrogrammi nel caso dei metodi di classificazione o mappe auto-organizzate di kohonen metodo <20> neurale <20> di visualizzazione) le associazioni tra parole (forme) e gruppi o modalit<69> cos<6F> una visualizzazione delle prossimit<69> tra parole e categorie socio-professionali pu<70> aiutare a leggere le risposte di ciascuna di queste categorie
+conclusioni e prospettive
+per risposte semplici e stereotipate come abbiamo visto le procedure di post-codifica possono funzionare tuttavia tra i difetti di questo tipo di trattamento si possono menzionare:
+la mediazione del codificatore: le decisioni da prendere sono talvolta difficili
+la qualit<69> dell'espressione il registro del vocabolario la tonalit<69> generale dell'intervista sono elementi di analisi persi durante la post-codifica (bisogna codificare in modo diverso <20> non lo so <20> e <20> preferisco non dire nulla <20>?)
+le risposte composite complesse e molto diverse sono difficili da post-codificare ed <20> spesso in questi casi che il valore euristico delle risposte libere <20> maggiore
+le risposte poco frequenti originali e poco chiare a una prima lettura sono considerate come <20> rumore <20> e assegnate a categorie residuali (<28> altre <20>) che sono quindi molto eterogenee e difficili da gestire senza che sia necessario procedere a una post-codifica attualmente <20> possibile a partire da un insieme di testi e da una soglia di frequenza per le forme grafiche ottenere una visualizzazione delle prossimit<69> tra testi in base ai loro profili lessicali e tra forme grafiche in base alla loro distribuzione nei testi l'arricchimento delle unit<69> statistiche con segmenti ripetuti cf a salem pratica dei segmenti ripetuti klincksieck 1987 i loro raggruppamenti per categorizzazione morfologica l'utilizzo delle forme caratteristiche o specificit<69> l'aggiunta delle risposte modali o delle frasi o unit<69> di contesto caratteristiche hanno perfezionato questi approcci e messo a disposizione di molti utenti metodi e software utili in alcuni specifici ambiti applicativi come il trattamento automatico delle risposte alle domande aperte che ci interessa qui l'efficacia del metodo come complemento alle approcci tradizionali <20> riconosciuta parallelamente ai lavori dell'industria della lingua che abbiamo menzionato in precedenza e che fanno parte di un'ingegneria statistica complessa esistono quindi applicazioni testuali della statistica a portata di mano richiedono sicuramente software specifici ma la natura familiare e viva del materiale di base compensa in qualche modo la relativa complessit<69> dei trattamenti e le difficolt<6C> di interpretazione vicino alle basi di dati all'intelligenza artificiale e alle reti neurali alla teoria dell'apprendimento alle tecniche recenti di estrazione e gestione della conoscenza il dominio testuale illustra bene la polivalenza e la potenza della metodologia statistica anche quando i metodi assumono nomi pi<70> esotici come text mining o text mining il lavoro dello statistico <20> sempre necessario quando si tratta di conoscere la portata reale dei fatti osservati e dei tratti strutturali ottenuti di sapere cosa si pu<70> affermare e cosa non si deve dire ovvero di dare uno statuto scientifico ai risultati