Pubblicato il 01/02/2010Tempo di lettura: 4 mins

Da più di un secolo la matematica si pone il problema di esplorare la struttura dei testi letterari. E’ solo da meno di vent'anni, però, che idee fino a poco tempo fa rimaste solo teoriche vengono sperimentate, e in modo sistematico e approfondito, grazie alla diffusione degli strumenti informatici e alla digitalizzazione dei testi.

Due recenti notizie riportate dai media hanno riacceso i riflettori sulla questione. La prima riguardava la possibilità di individuare le parole “importanti”, significative, di un testo senza nemmeno conoscere la lingua in cui è scritto [1], e la seconda che annunciava che un problema di attribuzione di una tragedia sheakspeariana era stato finalmente risolto da un software [2].

Il sogno visionario che spinge chi fa ricerca in questo campo è scoprire, prima o poi, che esiste una 'cifra' caratteristica di ogni autore, in grado di identificarlo completamente. Un’ ‘impronta letteraria’ descrivibile numericamente e che permetta di distinguere senza dubbio alcuno i suoi testi da quelli degli altri.

Certo, potrà sembrare un obiettivo ingenuo di fronte alla complessità di un'opera e della sua relazione con un autore, eppure ci sono robuste idee matematiche che guidano ricerche di questo tipo.

L'astrazione chiave che sta sullo sfondo è considerare un autore come una 'sorgente ergodica' di simboli, cioè un generatore di sequenze infinite di lettere, spazi, simboli di interpunzione, con ben definite proprietà statistiche.

I suoi testi, i testi prodotti da questa particolare sorgente ergodica, sono dei 'campioni', e si possono quindi usare su di essi, con relativa sicurezza concettuale, gli strumenti della teoria della probabilità e della teoria dell'informazione. Si può, in altre parole, misurare la 'quantità' di informazione contenuta in un testo, e si possono ottenere significativi indici numerici, andando ben oltre il mero computo della frequenza delle parole.

Questi metodi hanno dimostrato di funzionare: in collaborazione con la Fondazione Istituto Gramsci, il nostro gruppo di ricerca ha infatti messo a punto un test di 'gramscianità' per distinguere gli articoli di giornale di Antonio Gramsci dagli articoli di altri autori politici dello stesso periodo. E i risultati sono stati incoraggianti. Una fase cruciale della ricerca è stata una prova cieca preparata da ricercatori dell'Istituto, in cui il metodo ha individuato correttamente il 90% dei testi effettivamente gramsciani, e ha respinto il 100% dei testi non gramsciani [3].

Usare queste idee per distinguere un autore da un altro vuol dire, in particolare, spostare l'attenzione dalle parole agli n-grammi, cioè a tutte le possibili sequenze di n simboli, spazi e punteggiatura inclusi.

Un’impostazione che dunque è ben distante dagli approcci umanistici ai problemi di attribuzione. Nello specifico, possiamo affermare che la differenza tra gli scritti di Gramsci e degli altri autori è ben visibile a livello degli 8-grammi (cioè di quelle sequenze lunghe 8 simboli, come per esempio "e; e tut"). Ma nulla sappiamo dire sulla rilevanza, ai fini del nostro discorso, dell'uso ad esempio dell'espressione "vita nazionale".

D'altra parte, questo tipo di sperimentazioni è solo agli inizi, ed è lecito attendersi ulteriori passi avanti e forse anche avvicinamenti tra metodi quantitativi e qualitativi.

Rimane comunque centrale il problema di valutare la validità dei risultati, infatti la scrittura di un'opera non è un evento ripetibile, e in definitiva l'esito di una procedura di attribuzione difficilmente può essere confermato o smentito. È per esempio accaduto con lo scrittore olandese A. Grunberg che confessò di celarsi dietro il nome di M. van der Jagt, confermando pubblicamente le nostre indicazioni [4], mentre un analogo disvelamento non si è verificato con la misteriosa Elena Ferrante [5].

Per dare credibilità ai risultati è dunque indispensabile provare preliminarmente la validità dei metodi in condizioni controllate, e tra gli strumenti utilizzati dalla comunità scientifica ci sono le gare internazionali in cui i metodi vengono messi a confronto su prove cieche [6][7]. Inoltre è essenziale che a questi studi partecipino a pieno titolo ricercatori di formazione letteraria.

In assenza di questi elementi si rischia di ottenere un 'responso oracolare', che viene accettato o rifiutato in base alla fede nello strumento informatico, e non in base alle idee che strutturano il metodo. Ne sono un esempio i titoli della notizia sulla parziale attribuzione a T. Kyd dell'Edoardo III ("un computer dimostra..."), e le reazioni che ha suscitato ("un computer non potrà mai spiegare...").

Un commento più approfondito su questo caso dovrebbe invece partire dall'analisi del programma utilizzato, che è un software antiplagio, presumibilmente inadatto a un problema di attribuzione.

Bibliografia

[1] www.galileonet.it/news/11785/a-ogni-parola-il-suo-valore
[2] www.repubblica.it/2009/10/sezioni/spettacoli_e_cultura/shakespeare-softw...
[3] dx.doi.org/10.1063/1.2996507
[4] libri.blog.rainews24.it/2004/09/27/arnon-grunberg-gstaad-95-98
[5] L'Unita', 23 novembre 2006
[6] www.mathcs.duq.edu/~juola/authorship_contest.html
[7] www.webis.de/pan-09/competition.php

prossimo articolo

Gli sprechi nel Servizio Sanitario Nazionale: è possibile fornire raccomandazioni per combatterli?

di Claudio Maffei

Pubblicato il 27/11/2024

La crisi del SSN italiano è aggravata non solo dal sottofinanziamento, ma anche da sprechi strutturali. Tra le principali cause vi sono inefficienze gestionali, acquisti non ottimizzati e inappropriatezza nell'erogazione di servizi sanitari. Per affrontare il problema, è necessario un approccio scientificamente fondato che includa raccomandazioni su politiche sanitarie più mirate, come la razionalizzazione della rete ospedaliera e l'adozione di modelli assistenziali innovativi.

Salute

Il Servizio Sanitario Nazionale (SSN) italiano è in crisi e la salute è diventato uno dei problema che preoccupa di più gli italiani. La crisi della sanità pubblica ha portato questi giorni a uno sciopero di 24 ore del personale della sanità, promosso da alcune sigle sindacali e che si potrebbe definire “da esaperazione”. Un'esasperazione ampiamente giustificata. Nel quotidiano dibattito politico, tecnico e mediatico sulla crisi del SSN trova giustificatamente un grande spazio il tema del sottofinanziamento, mentre una scarsa attenzione viene riservata alla lotta agli sprechi.

La matematica scopre Gramsci ... in 8 battute

prossimo articolo