Da più di un secolo la matematica si pone il problema di esplorare la struttura dei testi letterari. E’ solo da meno di vent'anni, però, che idee fino a poco tempo fa rimaste solo teoriche vengono sperimentate, e in modo sistematico e approfondito, grazie alla diffusione degli strumenti informatici e alla digitalizzazione dei testi.
Due recenti notizie riportate dai media hanno riacceso i riflettori sulla questione. La prima riguardava la possibilità di individuare le parole “importanti”, significative, di un testo senza nemmeno conoscere la lingua in cui è scritto [1], e la seconda che annunciava che un problema di attribuzione di una tragedia sheakspeariana era stato finalmente risolto da un software [2].
Il sogno visionario che spinge chi fa ricerca in questo campo è scoprire, prima o poi, che esiste una 'cifra' caratteristica di ogni autore, in grado di identificarlo completamente. Un’ ‘impronta letteraria’ descrivibile numericamente e che permetta di distinguere senza dubbio alcuno i suoi testi da quelli degli altri.
Certo, potrà sembrare un obiettivo ingenuo di fronte alla complessità di un'opera e della sua relazione con un autore, eppure ci sono robuste idee matematiche che guidano ricerche di questo tipo.
L'astrazione chiave che sta sullo sfondo è considerare un autore come una 'sorgente ergodica' di simboli, cioè un generatore di sequenze infinite di lettere, spazi, simboli di interpunzione, con ben definite proprietà statistiche.
I suoi testi, i testi prodotti da questa particolare sorgente ergodica, sono dei 'campioni', e si possono quindi usare su di essi, con relativa sicurezza concettuale, gli strumenti della teoria della probabilità e della teoria dell'informazione. Si può, in altre parole, misurare la 'quantità' di informazione contenuta in un testo, e si possono ottenere significativi indici numerici, andando ben oltre il mero computo della frequenza delle parole.
Questi metodi hanno dimostrato di funzionare: in collaborazione con la Fondazione Istituto Gramsci, il nostro gruppo di ricerca ha infatti messo a punto un test di 'gramscianità' per distinguere gli articoli di giornale di Antonio Gramsci dagli articoli di altri autori politici dello stesso periodo. E i risultati sono stati incoraggianti. Una fase cruciale della ricerca è stata una prova cieca preparata da ricercatori dell'Istituto, in cui il metodo ha individuato correttamente il 90% dei testi effettivamente gramsciani, e ha respinto il 100% dei testi non gramsciani [3].
Usare queste idee per distinguere un autore da un altro vuol dire, in particolare, spostare l'attenzione dalle parole agli n-grammi, cioè a tutte le possibili sequenze di n simboli, spazi e punteggiatura inclusi.
Un’impostazione che dunque è ben distante dagli approcci umanistici ai problemi di attribuzione. Nello specifico, possiamo affermare che la differenza tra gli scritti di Gramsci e degli altri autori è ben visibile a livello degli 8-grammi (cioè di quelle sequenze lunghe 8 simboli, come per esempio "e; e tut"). Ma nulla sappiamo dire sulla rilevanza, ai fini del nostro discorso, dell'uso ad esempio dell'espressione "vita nazionale".
D'altra parte, questo tipo di sperimentazioni è solo agli inizi, ed è lecito attendersi ulteriori passi avanti e forse anche avvicinamenti tra metodi quantitativi e qualitativi.
Rimane comunque centrale il problema di valutare la validità dei risultati, infatti la scrittura di un'opera non è un evento ripetibile, e in definitiva l'esito di una procedura di attribuzione difficilmente può essere confermato o smentito. È per esempio accaduto con lo scrittore olandese A. Grunberg che confessò di celarsi dietro il nome di M. van der Jagt, confermando pubblicamente le nostre indicazioni [4], mentre un analogo disvelamento non si è verificato con la misteriosa Elena Ferrante [5].
Per dare credibilità ai risultati è dunque indispensabile provare preliminarmente la validità dei metodi in condizioni controllate, e tra gli strumenti utilizzati dalla comunità scientifica ci sono le gare internazionali in cui i metodi vengono messi a confronto su prove cieche [6][7]. Inoltre è essenziale che a questi studi partecipino a pieno titolo ricercatori di formazione letteraria.
In assenza di questi elementi si rischia di ottenere un 'responso oracolare', che viene accettato o rifiutato in base alla fede nello strumento informatico, e non in base alle idee che strutturano il metodo. Ne sono un esempio i titoli della notizia sulla parziale attribuzione a T. Kyd dell'Edoardo III ("un computer dimostra..."), e le reazioni che ha suscitato ("un computer non potrà mai spiegare...").
Un commento più approfondito su questo caso dovrebbe invece partire dall'analisi del programma utilizzato, che è un software antiplagio, presumibilmente inadatto a un problema di attribuzione.
Bibliografia
[1] www.galileonet.it/news/11785/a-ogni-parola-il-suo-valore
[2] www.repubblica.it/2009/10/sezioni/spettacoli_e_cultura/shakespeare-softw...
[3] dx.doi.org/10.1063/1.2996507
[4]
libri.blog.rainews24.it/2004/09/27/arnon-grunberg-gstaad-95-98
[5] L'Unita', 23 novembre 2006
[6] www.mathcs.duq.edu/~juola/authorship_contest.html
[7] www.webis.de/pan-09/competition.php