Migliori dati, migliore scienza, migliori politiche

Pubblicato il 07/11/2022

Il governo ha deciso che i dati sulla pandemia verranno pubblicati ogni sette giorni, pur continuando a raccoglierli come prima. L'obiettivo è adottare un approccio non ideologico alla gestione della pandemia, valutando i provvedimenti da prendere in base alle evidenze scientifiche e facendo una informazione chiara che responsabilizzi i cittadini. Tuttavia, l'atteggiamento dimostrato in queste prime settimane verso i dati della pandemia va nella direzione opposta. La ricerca scientifica ha bisogno di dati di qualità, aperti, accessibili, facili da reperire e da elaborare. I dati che la Protezione Civile pubblicava giornalmente, e che da ora pubblicherà ogni venerdì, hanno queste caratteristiche e sono quindi diventati la base di visualizzazioni, elaborazioni e ricerca scientifica. Per quel che riguarda l'informazione chiara e la responsabilizzazione dei cittadini, non è cercando di spegnere l'attenzione sui dati che si raggiungerà lo scopo. Piuttosto occorrerebbe educare i cittadini alla lettura di quei dati e quindi soprattutto all’incertezza che essi sempre contengono.
Immagine di Marina Noordegraaf (CC BY-NC-SA 2.0).

Tempo di lettura: 8 mins

Dati

Dopo una settimana di blackout, venerdì scorso la Protezione Civile ha aggiornato la pagina che gestisce dal 24 febbraio 2020 con i dati sull’epidemia di Covid-19 relativi ai sette giorni precedenti. La decisione del ministro della salute Orazio Schillaci, fresco di nomina, di ridurre la frequenza di pubblicazione dei dati su contagi, ricoveri e morti da giornaliera a settimanale, era arrivata il 31 ottobre con uno scarno comunicato, motivata dalla necessità di un progressivo ritorno alla normalità.

Dal 29 ottobre per una settimana i dati sono effettivamente scomparsi e i cittadini non hanno saputo cosa stesse succedendo, né che tipo di dati aspettarsi ogni settimana.

C’è da dire che per qualche giorno l’Istituto Superiore di Sanità (ISS) ha continuato a pubblicare i dati giornalieri e per le persone di buona volontà con una certa competenza tecnica, sarebbe stato possibile sapere come andavano le cose.

A dicembre del 2020 l’ISS aveva infatti cominciato a pubblicare in formato aperto una serie di informazioni aggiuntive rispetto a quelle della Protezione Civile. Per esempio ISS pubblica i nuovi casi distinti per sesso e fascia d'età e anche l’andamento dei contagi per data di insorgenza dei sintomi, mentre la Protezione Civile comunica quanti tamponi hanno avuto esito positivo in un dato giorno.

Dati FAIR

Queste informazioni sono preziose, ma i dati gestiti dalla Protezione Civile hanno il vantaggio di essere non solo aperti, ma anche facilmente reperibili, accessibili, elaborabili e riutilizzabili, delle caratteristiche che vengono spesso riassunte con l’acronimo FAIR (Findable Accessible Interoperable and Reusable).

Per queste ragioni, sono stati utilizzati dai ricercatori per sviluppare modelli matematici dell'epidemia, da giornalisti ed analisti per visualizzare e quindi comunicare l'andamento della crisi sanitaria e costruire degli strumenti di valutazione del rischio.

Un esempio è la pagina “Eventi e Covid-19”, realizzata da Daniela Paolotti, ricercatrice della Fondazione ISI di Torino, e Michele Tizzoni, prima anche lui in ISI e ora ricercatore all’Università di Trento.

«La differenza fondamentale tra i dati dell’Istituto e quelli della Protezione Civile è che i secondi sono facilmente accessibili con delle applicazioni», spiega Tizzoni, «e la nostra pagina, così come tante altre, è programmata per elaborare i dati pubblicati in quel formato e su quel sito».

“Eventi e Covid-19” offre una stima della probabilità di trovare almeno una persona contagiata in un evento con numero variabile di persone. Non è uno strumento nato per la ricerca, ma piuttosto per informare le decisioni individuali. Perché, soprattutto in una fase di ritorno alla normalità, se lo stato vuole intervenire meno è fondamentale che i cittadini si autogestiscano di più e meglio.

«Inoltre, la condivisione dei dati su una piattaforma come GitHub ha sicuramente avuto un impatto positivo sulla qualità dei dati stessi», aggiunge Tizzoni. GitHub è un servizio che ospita progetti di sviluppo di software permettendo agli utenti di scaricare i codici sorgente, porre delle domande agli autori e in alcuni casi di contribuire ai progetti stessi aggiornando il codice e tenendo traccia di questi aggiornamenti.

«Gli utenti che frequentano quella piattaforma hanno competenze tecniche avanzate e hanno svolto un’attività di scrutinio continuo sui dati, a cui la Protezione Civile ha sempre risposto in modo efficiente», conclude.

Ora che sappiamo che i dati continueranno a essere pubblicati tutti, seppure in gruppi di sette giorni, tiriamo un sospiro di sollievo, ma fino a un certo punto.

Perché se non abbiamo perso i dati, abbiamo imparato qualcosa sull’atteggiamento del nuovo governo verso di essi.

Primo, abbiamo dovuto aspettare una settimana per capire quali fossero le intenzioni del Ministero, che abbiamo provato a contattare ripetutamente per ottenere qualche dettaglio in più sulle motivazioni della scelta, ma purtroppo senza ottenere risposta.

Secondo, questo atteggiamento è in contraddizione con quanto dichiarato dalla stessa Presidente del Consiglio Giorgia Meloni nella conferenza stampa del 31 ottobre, dopo il secondo Consiglio dei ministri. «Il tema della salute, il tema del Covid-19» ha detto Meloni in conferenza stampa, «non si affronta con un approccio ideologico, si affronta con un approccio serio che tenga conto quando si prendono dei provvedimenti di quali siano le evidenze scientifiche a supporto di quei provvedimenti.»

I vantaggi di dati aperti e continui

Se davvero si vogliono tenere in considerazione le "evidenze scientifiche", bisogna prima di tutto mettere i ricercatori in condizioni di produrre queste “evidenze” e per farlo, su Covid così come per altri fenomeni, i dati FAIR sono fondamentali.

Se fosse necessario un esempio, Meloni e i suoi ministri potrebbero dedicarsi alla lettura di questo lavoro pubblicato un anno fa sulla rivista Data and Policy, che prende in esame il caso dell’Italia e della Spagna in relazione alla gestione dei primi mesi della pandemia.

Come spiegano bene gli autori, i due paesi hanno imposto delle restrizioni al movimento delle persone sulla base della stima del coefficiente di riproduzione netto dell’epidemia, l’ormai famigerato Rt. Questo coefficiente rappresenta il numero di persone contagiate in media da un infetto e, a differenza del coefficiente di riproduzione R0, incorpora gli effetti dei comportamenti delle persone (e dunque delle eventuali restrizioni imposte), ma anche il livello di immunità presente nella popolazione, sia per via delle infezioni precedenti che di eventuali campagne di vaccinazione.

I ricercatori mostrano come la difficoltà di avere dati tempestivi ha prolungato le restrizioni inutilmente. I motivi per cui in quel periodo era difficile avere dati di alta qualità in modo tempestivo sono del tutto comprensibili: il numero di tamponi a disposizione era limitato, il sistema informatico per comunicare i dati dalle Regioni al Ministero era appena nato e le risorse dedicate a quell'attività erano ancora insufficienti.

In particolare, nella primavera del 2020 il governo italiano basava le proprie decisioni sul numero di contagi per data della diagnosi e non dell’infezione, un’informazione estremamente difficile da raccogliere in quel momento e che ancora oggi, quasi due anni e mezzo dopo, riceviamo con circa dieci giorni di ritardo.

L’indice di riproduzione dell’epidemia calcolato in base ai contagi per data di diagnosi ha un ritardo rispetto a quello calcolato in base alla data di infezione che può essere anche molto grande quando il sistema di test è sovraccarico e probabilmente era pari a circa un paio di settimane nella primavera del 2020.

C’è di più. Ricorderete che la chiusura delle attività produttive venne stabilita il 22 marzo 2020 qualche settimana dopo rispetto all’inizio del lockdown per i cittadini. Bene, se avessimo avuto dati in tempo reale, probabilmente non avremmo chiuso le attività produttive perché quella misura non ha avuto praticamente alcun effetto sulla diffusione del contagio che stava già fortemente rallentando, ma ha avuto un grosso impatto economico.

«È chiaro che non è possibile conoscere il numero di persone che si sono contagiate oggi o che hanno sviluppato sintomi oggi in tempo reale» commenta Tizzoni, autore dell’articolo insieme ad altri tre ricercatori. «Non era possibile allora e non lo è neanche oggi, ma avere a disposizione quei dati a posteriori permette di correggere quelli che invece abbiamo in tempo reale, cioè quelli per data di diagnosi. Questo perché consente di stimare in modo più affidabile il ritardo che c’è tra infezione e diagnosi e come questo ritardo dipenda dalla fase dell’epidemia e dal carico che questa sta imprimendo sul sistema di diagnosi.»

Dunque, i dati possono essere fondamentali. Lo sono stati per questa epidemia, lo saranno per quelle che verranno.

Per questo, se il governo vuole, come dice, tenere un approccio basato sulle evidenze scientifiche deve andare nella direzione di dati non solo aperti, ma anche facilmente trovabili, accessibili, elaborabili e riutilizzabili.

In questo senso, i dati sulla pandemia rappresentano un successo nel panorama italiano, ottenuto soprattutto grazie alla campagna Dati bene comune, lanciata dall'associazione ActionAid, Ondata e Transparency International Italia e sottoscritta da quasi 60'000 cittadini e da centinaia di associazioni e testate giornalistiche, tra cui anche Scienza in rete.

In particolare, è stato grazie a Dati bene comune che l'ISS ha cambiato la licenza con cui pubblicava i dati, permettendone così il riutilizzo. «Uno tra i risultati più importanti della nostra campagna è quello di fare emergere il valore dei dati in termini di diritti e di opportunità», commenta Andrea Borruso, presidente di Ondata. «Mi occupo di dati da anni, ma soltanto dal 2020 ho visto un interesse così largo e così consapevole», aggiunge.

Conosce bene l'importanza dei dati per la ricerca scientifica Susanna-Assunta Sansone, direttrice del Data Readiness Group dell’Università di Oxford, che nel 2018 scriveva sulla rivista Scientific Data, «le infrastrutture dati supportano il ciclo della ricerca (dalla raccolta dei dati, all'elaborazione, all'analisi, alla presentazione, alla pubblicazione, alla conservazione e al riutilizzo) e hanno l'obiettivo finale di contribuire al processo che trasforma i dati in conoscenza e la conoscenza in soluzioni per le sfide più urgenti della società».

“Better data for better science”, è il motto del gruppo di Sansone, che mette a punto metodi e strumenti per favorire e migliorare il riutilizzo dei dati da parte della comunità scientifica, collaborando con riviste scientifiche, aziende e governi.

La pandemia ha messo alla prova questo paradigma in modo inedito. Come spiega un gruppo di ricercatori uniti nel progetto BY-COVID in un articolo pubblicato a maggio di quest’anno sempre sulla rivista Data and Policy, gli scienziati di tutto il mondo hanno incontrato ogni tipo di ostacolo per ottenere i dati. Dalla mancanza di chiarezza sulle regole di accesso, ai tempi burocratici necessari agli addetti per valutare le richieste e preparare i dati, fino al costo di alcuni dati privati o semi-privati e alle politiche ambigue sul loro riutilizzo.

Educare ai dati e alla loro incertezza

Infine, sullo sfondo resta un problema culturale. Se il governo ha deciso di pubblicare i dati settimanalmente è soprattutto per contenere l’allarmismo dei media che, certe volte irresponsabilmente, hanno interpretato in modo ideologico i dati per screditare la politica.

In conferenza stampa Meloni aveva infatti aggiunto che sulla pandemia il governo intende fare «un’informazione molto più chiara che in passato [...] e lavorando secondo me molto sulla responsabilizzazione dei cittadini che è proprio figlia di un’informazione chiara».

Se questo è uno degli obiettivi del nuovo esecutivo, tenere i dati semi-nascosti non aiuterà a raggiungerlo. Piuttosto occorrerebbe educare i cittadini alla lettura di quei dati e quindi soprattutto all’incertezza che essi sempre contengono.

L'articolo è stato aggiornato il 9 novembre per inserire una riferimento alla campagna Dati bene comune.

Migliori dati, migliore scienza, migliori politiche

Dati FAIR

I vantaggi di dati aperti e continui

Educare ai dati e alla loro incertezza

prossimo articolo

Di latticini, biotecnologie e latte sintetico