L’EBI, l’European Bioinformatics Institute, è un centro di ricerca dell’European Molecular Biology Laboratory (EMBL) con sede presso il Wellcome Trust Genome Campus di Hinxton nei pressi di Cambridge, in Gran Bretagna. La sua mission è di fornire, in maniera rigorosamente gratuita, dati e più in generale servizi informatici all’intera comunità scientifica. L’attività dell’EBI consiste, dunque, nel raccogliere, conservare e poi distribuire i dati ottenuti da ricercatori che lavorano in svariati campi della scienze della vita, dalla biologia di base alla clinica medica all’ecologia. Ebbene in tre anni, tra il 2008 al 2010, l’istituto ha quasi quadruplicato la quantità byte (l’unità di misura dell’informazione) accumulati: passando da circa 1.000 a quasi 4.000 terabyte (un terabyte equivale a 1012, mille miliardi di byte). Per avere un termine di paragone, diciamo che una delle più grandi biblioteche del mondo, la Library del Congresso degli Stati Uniti, a Washington, nei suoi 28 milioni di libri e nei suoi 50 milioni di manoscritti contiene una quantità di informazione pari a circa 20 terabyte. In pratica è come se la biblioteca virtuale dell’EBI contenesse 200 biblioteche del Congresso degli Stati Uniti.
Eppure tutto questo è poca cosa rispetto ai dati raccolti in un anno dai fisici del CERN, il Centro europeo di fisica delle alte energia che ha sede a Ginevra. Il solo esperimento, il CSM, condotto presso il Large Hadron Collider (LHC) nell’anno 2008 ha raccolto dati per oltre di 2.000 terabyte. Tre anni dopo però, nel 2010, i dati raccolti erano già saliti a 10.000 terabyte. Per contenerli e gestirli è stato necessario distribuirli in 50 diversi siti sparsi per il mondo.
Ma il futuro prossimo si annuncia ancor più data-intensive, per dirla con i tecnici. Ovvero mastodontico. Quando inizierà a funzionare, negli anni Venti di questo secolo, infatti, lo Square Kilometre Array (SKA), il grande telescopio che sta nascendo tra l’Africa del Sud e l’Australia, raccoglierà un 1.000.000 di terabyte di dati al giorno. Il che significa che quel grande orecchio raccoglierà ogni giorno nel cosmo una quantità di informazioni pari a quelle contenute in 50.000 Library del Congresso americano. Certo, anche la massa di informazione che ogni giorno produciamo e immettiamo in rete noi, comuni mortali, non è poca cosa. Twitter, con i suoi cinguettii, produce 1 terabyte ogni 2,6 giorni. Facebook, addirittura, 15 terabyte. Ma la quantità di dati prodotti dalla comunità scientifica è davvero enorme. Il solo esperimento CMS al CERN, gestito da poche centinaia di fisici, produce già oggi quasi due volte più dei 900 milioni di iscritti a Facebook. Ma qualche migliaio di astronomi sparsi per il mondo che collaboreranno a SKA saranno chiamati a gestire, domani, una quantità di dati superiore di cinque ordini di grandezza (circa 100.000 volte) a quella veicolata da Facebook.
Ma ormai nel mondo ci sono oltre 7 milioni di ricercatori. Non tutti raccolgono dati con la medesima intensità dei loro colleghi all’EBI, al CERN o a SKA. Ma è anche vero che ciascuno di loro, grazie alle nuove tecnologie, informatiche e non, produce una quantità di informazione sconosciuta in altri tempi. La somma di tutte queste informazioni è mastodontica. Certo, l’informazione, di per sé, non è conoscenza. O, almeno, non lo era in passato. Perché molti sono convinti che oggi il salto di quantità nella produzione di informazione è tale da realizzare di per sé un salto di qualità. La raccolta, la conservazione e l’analisi della enorme massa di dati ottenuti dai 7 milioni e passa di ricercatori di tutto il mondo può trasformarsi in nuova conoscenza scientifica. Anzi, in un nuovo modo di produrre conoscenza scientifica. Per questo alcuni parlano di «quarto paradigma».
Prendete il caso della Biobanca in Gran Bretagna, propone la Royal Society in un suo recente rapporto, Science as an open enterprise, essa conserva i campioni di sangue, urina, saliva di 500.000 persone e, dunque, una quantità di dati clinici ma anche genetici, enorme. Tutte queste persone hanno dato il loro consenso informato all’uso dei dati che ne derivano. Questi dati, che non sono solo in forma elettronica, hanno tutte le potenzialità per generare una transizione di fase nelle nostre conoscenze su una serie molto vasta di malattie: dal cancro al diabete, dall’infarto alla depressione. Dobbiamo solo imparare a raccoglierli – in prospettiva tutti devono trasmettere tutto a tutti – conservarli e ad analizzarli. Ciò vale, in campo astronomico, anche per SKA. La rete di computer che gestirà il suo database costituirà quanto di più prossimo a quell’intelligenza ipotetica di cui parlava all’inizio del XIX secolo il marchese Pierre-Simon de Laplace che, avendo presente le condizioni iniziali di ogni particella cosmica, è in grado di conoscere il presente, il passato e il futuro dell’intero universo.
Ma i campi in cui l’informazione scientifica – dall’ecologia al clima, dalla fisica delle particelle alla sociologia – sono tanti che le transizioni di fase nella creazione di nuova conoscenza possono essere praticamente illimitati. Oggi la gran parte della conoscenza potenziale contenuta nella enorme quantità di dati raccolti senza un obiettivo specifico rischia di andare perduta. Perché non abbiamo ancora gli strumenti adatti per trovare in maniera automatica l’ago della conoscenza nel gran pagliaio dei dati. La storia ce ne fornisce un esempio. All’inizio degli anni ’80 del secolo scorso un satellite inviato in orbita per studiare l’ozono nell’alta atmosfera, il Solar Mesosphere Explorer (SME), aveva accumulato una quantità di dati sufficienti a scoprire la diminuzione della concentrazione della molecola nella stratosfera. Ma un sistema automatico di correzione dei dati si rifiutò di leggere quelle piccole variazioni. C’è voluta l’arguzia di Paul Crutzen, Mario Molina e Sherwood Rowland per trarre dalla massa di dati grezzi la nuova conoscenza che contenevano. La vicenda di Crutzen, Molina e Rowland – che per la loro capacità sono stati premiati con il Nobel per la chimica nel 1995 – dimostra che non basta avere una gran mole di dati grezzi, occorre saperli analizzare. Ma poiché la mole di dati disponibili è, appunto, mastodontica non possiamo contare più sull’arguzia degli uomini, ma dobbiamo affidarci alla potenza delle macchine per distillare conoscenza dal pagliaio delle informazioni.
In definitiva, è il combinato disposto di una gran quantità di dati e della capacità di analizzarli, che si propone come un fattore di per sé capace di produrre nuova conoscenza. Oggi è possibile realizzare questo combinato disposto. È per questo che la Royal Society si chiede se non siamo in presenza di un nuovo paradigma epistemologico, il quarto. In realtà a parlare di quarto paradigma generato dalla eScience, dall’irruzione dell’elettronica nel mondo del lavoro degli scienziati, è stato Jim Gray, un informatico vincitore del premio Turing, che ha speso gli ultimi anni della sua vita alla Microsoft per convincere il mondo intero che siamo entrati in una nuova era epistemologica.
Il primo e il secondo paradigma sono quelli che Galileo chiamava “sensate esperienze” e “certe dimostrazioni”, ovvero l’osservazione empirica e la teoria, possibilmente matematizzata. L’avvento del computer ha inaugurato una nuova possibilità di produrre nuova conoscenza scientifica, la simulazione. Oggi molte ricerche scientifiche riguardano non il mondo naturale, ma un mondo simulato. Lo svantaggio è che i risultati riguardano non la realtà, ma un’approssimazione più o meno buona della realtà. Il vantaggio è che si possono ripetere esperimenti controllati all’infinito modificando a piacere i parametri e navigando a piacimento nello spazio e nel tempo. Ebbene, sostiene Jim Gray, il quarto paradigma consiste nel navigare in un mare sconfinato di dati alla ricerca (anche) di ordine e regolarità che non vediamo e che le teorie non prevedono. Si tratta di una navigazione interdisciplinare capace di generare nuova conoscenza. Non sappiamo – non ancora, almeno – se Jim Gary ha ragione. Se possiamo parlare davvero di una transizione di fase epistemologica. È certo tuttavia che la gran massa di dati in ogni settore esiste e che noi abbiamo la possibilità tecnica di navigarci dentro anche con il pilota automatico (gli algoritmi). Sarebbe un peccato perdere o ridurre fortemente questa opportunità. Per coglierla appieno, sostiene giustamente la Royal Society, dobbiamo operare tre scelte drastiche.
La prima è che tutti, in totale trasparenza, devono conferire a una banca dati globale tutti i dati che hanno. Il ricercatore, per esempio, non deve limitarsi a scrivere un articolo, selezionando e rendendo pubblici pochi dati significativi, ma deve mettere a disposizione tutti i dati raccolti. Deve aumentare la sua comunicazione scientifica.
La seconda scelta è che tutti possano liberamente accedere a questa banca globale e intraprendere percorsi di navigazione nel mare magnum dei dati.
La terza scelta è che le autorità pubbliche, nazionali e internazionali, mettino a disposizione la quantità minima di risorse necessaria a creare le infrastrutture informatiche adatte.
Alcuni governi – a iniziare da quello inglese – hanno dimostrato una notevole sensibilità a questi argomenti fatti propri e riproposti dalla Royal Society. Convinti che questa sarà in futuro una delle grandi strade dell’innovazione. Occorre che il governo italiano ma anche le istituzioni scientifiche del nostro paese facciano altrettanto.