Culturomics e Google Trends
Nel 2011 è comparso sulla rivista Science un articolo abbastanza particolare. Era firmato da Michel e da altri 13 autori, ed aveva come titolo: “Quantitative Analysis of Culture Using Millions of Digitized Books”. Cercando deteriminate parole-chiave nell’insieme dei libri scannerizzati da Google, gli autori misuravano processi (anche complessi) intervenuti in un arco temporale tra il 1800 ed il 2000. L’obiettivo dichiarato era quello di proporre una nuova disciplina, la “culturomics”, definita come un vasto terreno di incontro tra linguistica e fenomeni culturali, in grado di fornire informazioni anche sui contenuti della memoria collettiva, l’evoluzione delle tecnologie, l’epidemiologia storica. Seguendo nel tempo il numero delle presenze di determinate parole-chiave, da “Mickey Mouse” a “Marc Chagall”, da “evolution” a DNA”, diventa possibile nelle intenzioni degli autori riconoscere i contenuti determinanti della cultura di un dato periodo. Google Books, uno dei vettori informativi del principale motore di ricerca che riporta quantità sempre più grandi di libri on-line, consente di effettuare analisi di questo tipo.
Un altro strumento in grado di produrre risultati in questa direzione è Google Trends, che fornisce grafici e dati sugli andamenti sui volumi delle ricerche che le persone fanno per le parole-chiave richieste. Funziona dal 2004, per cui non consente ricerche sulla presenza delle parole-chiave nella cultura di lungho periodo. Mentre Google Books misura i libri che cotengono i temi considerati, Google Trends è un misuratore di attenzioni dirette da parte degli utenti del Web, senza il filtro culturale del libro: è in grado di quantificare con una buona definizione temporale (a livello di settimane, o addirittura di giorni) l’andamento nel tempo delle volte in cui la parola-chiave è stata digitata per qualche ricerca. Ma entro certi limiti, da capire meglio, anche andamenti di questo tipo possono riflettere aspetti delle culture attuali.
Un Web Profile Project per capirne di più
I dati ed i risultati che si possono ottenere attraverso Google Trends ed altri vettori informativi derivabili dal Web pongono intriganti problemi dal punto di vista metodologico ed epistemologico. Può essere interessante cercare di focalizzarli e cercare di capirne le implicazioni, anche perché alcune delle indicazioni che si possono iniziare ad estrarne non sono affatto tranquillizzanti. Un ambito di confronto in questa direzione è il Web Profile Project (www.webprofileproject.eu), un programma di lavoro che dal 2009 unisce persone ed esperienze che hanno come obiettivo quello di meglio capire aspetti complessi della realtà attuali attraverso indicatori specificamente messi a punto che utilizzano dati estratti dal Web. Sono consideratidiversi vettori informativi (il Web globale secondo i principali motori di ricerca, Google Trends ed altre sezioni di Google, data-base di arichivi elettronici specializzati) . Il progetto produce rapporti su temi generali e specifici, raccoglie riferimenti bibliografici, conduce su un foglio mensile un monitoraggio degli interessi degli italiani secondo Google Trends. I metodi sono stati utilizzati in alcune esperienze applicative, soprattutto nell’ambito della Valutazione Ambientale Strategica. Ha incominciatro a produrre alcuni articoli tecnico-scientifici (in particolare sulla rivista Valutazione Ambientale, e si sta ponendo l’obiettivi di allargare il confronto per capire meglio i limiti, le potenzialità, le impplicazioni dell’approccio. Anche questo articolo vuole contribruire a questa verifica, per cui sono sollecitate osservazioni, commenti, proposte.
A tal fine, si presenta nel punto successivo un esempio del tipo di risultati ottenibili, usando tre parole-chiave che hanno un ruolo importante nel rapporto tra scienza, società, ambiente nel momento attuale.
Un caso esemplificativo che produce domande
Possiamo meglio comprendere alcuni aspetti della questione attraverso un esempio, cercando quali risultati produca Google Trends per l’Italia usando come chiavi di ricerca “scienza”, “cuore” e “ambiente”: tre parole-chiave per il progresso della conoscenza, per la società e la vita delle singole persone.
Il primo passo è la semplice presa d’atto dei grafici forniti da Google Trends, come quello qui sopra, che mostrano le variazioni negli anni dei volumi delle ricerche sul Web per le parole in questione.
Già una semplice analisi visiva del grafico fornisce indicazioni eloquenti. I volumi di ricerche per “scienza” sono diminuiti significativamente nell’arco degli anni; quelle per “ambiente” ancora di più, mentre “cuore” appare essere stato invece oggetto di un’attenzione progressivamente maggiore nel tempo.
E’ possibile tradurre le impressioni in numeri. In ordinata del grafico non sono in realtà riportati numeri assoluti (quante volte le parole sono state effettivamente cliccate): Google tiene segreti questi dati per motivi di interesse aziendale; fornisce peraltro dati relativi ai grafici sotto forma di un indice numerico specifico (SVI = Search Volume Index). Ciò consente una serie di elaborazioni, a partire dal calcolo delle variazioni percentuali rispetto ad un periodo di riferimento. Google Trends fornisce anche rapporti numerici dei volumi di ricerca rispetto ad una prima parola usata come standard (posta uguale a 1).
Nella tabella seguente sono riportati i risultati per le tre parole dell’esempio: le variazioni rispetto al 2007 e, nella parte destra, i rapporti negli anni rispetto a “scienza” (posta uguale a1) per le altre due parole-chiave.
Variazioni annuali | Attenzioni relative sul Web | |||||
---|---|---|---|---|---|---|
scienza | cuore | ambiente | scienza | cuore | ambiente | |
2007 | 100,00% | 100,00% | 100,00% | 1 | 3,00 | 1,51 |
2008 | 84,80% | 109,30% | 85,00% | 1 | 3,88 | 1,51 |
2009 | 77,10% | 107,50% | 76,40% | 1 | 4,20 | 1,50 |
2010 | 69,20% | 133,20% | 69,50% | 1 | 5,78 | 1,50 |
2011 | 66,30% | 131,10% | 58,70% | 1 | 5,93 | 1,35 |
Vale la pena farsi qualche domanda. Un primo gruppo di questioni è di ordine tecnico: sono accettabili i dati cosiì ottenuti o sono da considerare artefatti? Sono sufficientemente stabili e riproducibili o dovrebbero essere rilevati i modop diverso? Quali sono, se ci sono, i punti di debolezza del sistema dal punto di vista informatico?
La risposta alle domande precedenti è uno dei compiti del Web Profile Project e, ai fini di questo articolo, assumiamo che le risposte siano positive: i risultati ottenuti con Google Trends (al contrario di quelli ottenuti con altri vettori informativi derivati dal Web) sono da considerare sufficientemente solidi sul piano tecnico.
Scatta allora un secondo ordine di questioni: cosa indicano i risultati ottenuti?
In quattro anni i volumi di ricerca per scienza ed ambiente si sono ridotti di un terzo ed oltre; cosa dobbiamo pensare? La società italiana sta perdendo progressivamente interesse per la scienza e per l’ambiente? O forse ciò non vale per “la società italiana”, ma solo per quella sua parte che cerca nel Web; la questione diventa allora la rappresentatività di questa quota rispetto alla cultura italiane diffusa attuale. Quanto dobbiamo preoccuparci? La preoccupazione però potrebbe addirittura aumentare se consideriamo gli utenti “in rete” espressione della parte più avanzata ed innovativa della società, quella che riflette meglio le sue prospettive di avanzamento e di soluzione del problemi.
O forse c’è stato negli anni un cambiamento della composizione degli utenti: nei primi anni essi erano più tecnologici ed ora comprendono strati sociali sempre più ampi. L’aumento delle ricerche per il “cuore” può effettivamente essere spiegato con l’ampliamento degli interessi messi in giuoco da settori diversi: chi se ne interessa per preoccupazione sanitari, chi per questioni sentimentali, chi perché lo sta studiando a scuola o facendo ricerche, chi ne sta scrivendo Ma anche in questo caso non ci sarebbe da stare allegri: Che lo spread (qui inteso come rapporto differenziale) tra “scienza” e “cuore” sia di 3 nel 2007 ci può stare: come si è detto è più ampio lo spettro delle persone che si interessano del cuore. Ma che lo spread passi a 5,9 nel 2011 (quasi il doppio), deve far riflettere. In ogni caso, considerando che il numero assoluto di utenti del Web è significativamente aumentato negli anni, gli andamenti per parole-chiave come “scienza” ed “ambiente” dovrebbero in teoria anch’esse aumentare nel tempo, non diminuire.
Spunti metodologici ed operativi
L’esempio ci suggerisce alcune direzioni su cui vale la pena di lavorare. Prima di tutto è importante una consapevolezza: quella che i risultati ottenibili da indicatori che pescano nel Web possono essere molto importanti per meglio capire cosa sta succedendo cumulativamente nella testa dei milioni di persone che, nel loro insieme, sono in grado di orientare comportamenti e scelte di fondo della società.
Si presenta poi un intreccio di questioni epistemologiche. Quel è l’ontologia di riferimento, ovvero quali sono davvero le realtà misurabili con la costruzione di profili dal Web? Quando analizziamo le incidenze relative di parole-chiave, stiamo solo misurando “attenzioni” di persone, peraltro premessa di scelte di conoscenza e/o di decisioni, o possiamo già parlare di elementi costitutivi della cultura diffusa attuale? E’ possibile riprendere in questa ottica, depurandole dai parallelismi indebiti con i “geni”, la provocazione che fece a suo tempo Richard Dawkins con la proposta dei “memi”, unità di conoscenza in grado di modificarsi ed evolvere nel tempo?
Possono i risultati ottenibili con l’approccio indicato essere ricondotti metodologicamente alla scienza normale (nel senso di Kuhn), o sono solo un giuoco senza valore per la conoscenza? Di fatto non esiste una disciplina di riferimento in questo senso; molte ne sono potenziaalmente coinvolte, riguardanti le scienze sociali, quelle informatiche, quelle ambientali, quelle mediche (Google Trends Flu è stato usato per seguire il diffondersi delle epidemie di influenza) e altre ancora.
I risultati si possono in parte inserire nella proposta di Michel e co-autori ricordata all’inizio per una “culturomics”: il Web profiling è uno strumento che serve per analizzare la cultura diffusa attuale in suoi segmenti e nelle sue variazioni, ma anche forse questo è un obiettivo troppo ambizioso e ci si deve limitare alla presa d’atto di misure di attenzioni. Da un altro punto di vista, il Web Profiling è anche uno strumento utile nel campo delle Valutazioni Ambientali Strategiche, per meglio definire le semantiche collettive che condizionano i sistemi di conoscenza e di valori usati dai decisori e dal pubblico interessato nelle scelte in campo ambientale.
Probabilmente ha poco senso la proposta di una nuova disciplina cumulativa (il Web Profiling): meglio la presa d’atto di uno strumento in grado di aiutare tutte le discipline a meglio comprendere il loro rapporto con la soicietà senza voler costruire per forza una nuova identità. Uno strumento di questo tipo potrebbe essere molto utile in prospettive di scienza post-normale, come quelle proposte da Funkowitz e Ravets per meglio supportare lo sviluppo delle conoscenze e dei metodi nel campo dello sviluppo sostenibile; in tal caso il riconoscimento dell’effettivo avanzamento di conoscenze utili non dovrebbe basersi solo su meccanismi di peer-review specializzati ascrivibili a determinati ambiti disciplinari, ma anche su verifiche e feed-back da parte delle comunità di utenti.
Al netto delle intriganti questioni epistemologiche, risultati come quelli riportati nell’esempio esaminato non dovrebbero essere rimossi: non solo devono far preoccupare, ma devono indurre alla ricerca di approfondimenti e correttivi per parole-chiave cruciali nella fase attuale in cui si sta cercando un nuovo modello di sviluppo.
Se scienza e qualità diminuiscono di incidenza nella coscienza diffusa, anche la soluzione dei problemi si allontana. Un investimento in azioni capaci di migliorare la semantica collettiva aiuterebbe a mgliorare le decisioni in questa fase obiettivamente turbolenta, pericolosa ed imprevedibile per le prospettive del mondo attuale. Cosa sta ad esempio succedendo nella coscienza collettiva diffusa per parole-chiave come “crescita” e “sviluppo”? Sono parole-chiave ormai di tutti i giorni non solo in Italia, che implicano scelte che ci condizioneranno per i prossimi decenni, ma che vengono usate in modo equivalente anche se i significati sottesi sono profondamente diversi. Trattare in modo più efficace le parole-chiave ed i loro slittamenti di incidenza potrà fornire un aiuto per conoscere e decidere meglio.