Pubblicato il 10/12/2020

Tempo di lettura: 7 mins

“Pas de calcul là où l’observation peut être faite” (Nessun calcolo quando si può osservare). Con questa frase, nel 1895, lo statistico Georg von Mayr rispondeva a un altro statistico, il norvegese Anders Nicolai Kiær, che aveva proposto di usare una parte, e non tutta la popolazione, per ottenere informazioni sociali ed economiche a livello nazionale. L’idea di utilizzare un campione era strana (all’epoca si usavano solo censimenti) e von Mayr non era l’unico a dubitare di questa proposta, che effettivamente era ancora debole: non era chiaro come dovesse essere scelto questo campione per potersi fidare dei risultati ottenuti.

Non si può osservare il tutto

Ma, come diceva von Mayr, perché non osservare direttamente? Perché molto spesso non è facile ottenere i dati di tutta la nazione. La pandemia del 2020 ha reso questo limite evidente. Vogliamo sapere quanti sono i positivi in un paese, ma non abbiamo le risorse per testarne tutti i residenti. E così procediamo osservando qualcuno sì e qualcuno no, molto spesso privilegiando i soggetti più gravi, che chiaramente hanno bisogno di maggiori attenzioni e cure specializzate. Se questo sistema può funzionare da un punto di vista sanitario, da un punto di vista informativo è invece fuorviante, perché oltre a non permetterci di misurare il numero di contagiati in Italia (impossibile senza testare tutti), nemmeno ci dice quanto il valore ottenuto sia distante dal valore vero.

Questo era il problema di Kiær. Il suo metodo di raccolta dati, così come quello che utilizziamo oggi per testare i casi di Covid-19, non permette di ottenere stime rappresentative e rischia di fornire descrizioni distorte della realtà. Nel 1934 lo statistico polacco Jerzy Neyman propose un altro metodo: se associamo a ogni possibile campione di una popolazione la sua probabilità di essere selezionato, l’incertezza intorno alle stime da esso ottenute può essere matematicamente misurata. È quello che oggi chiamiamo campionamento probabilistico. E così, diversi decenni dopo la proposta originale di Kiær, Neyman elaborò la teoria di campionamento.

Oggi nessuno mette in dubbio la teoria di campionamento, oggettiva e scientifica, e campioni rappresentativi vengono usati tutti i giorni dall’Istat - per esempio - per fornire stime della disoccupazione, del PIL, della speranza di vita e di altri aspetti economici, sociali e produttivi del Paese. E sono proprio due ex-presidenti dell’Istat, Giorgio Alleva e Alberto Zuliani, che in una lunga intervista alla pagina facebook Coronavirus - Dati e Analisi Scientifiche, spiegano come si possono usare campioni probabilistici per stimare lo stato dell’epidemia, esattamente come facciamo con altri indicatori nazionali.

Un campione probabilistico per stimare l’epidemia

La proposta di Alleva e Zuliani, insieme ad altri loro colleghi, raccolta in un articolo accettato dal Journal of Official Statistics, consiste brevemente nel selezionare un campione dal gruppo dei contagiati e dei loro contatti e un altro campione dal gruppo dei sani e poi seguirli longitudinalmente, attraverso la somministrazione del tampone ogni due settimane, per studiare eventuali passaggi da una stato clinico all’altro. Ma non solo il tampone. A ogni persona selezionata andrebbero fatte domande mirate a raccogliere informazioni utili per capire le dinamiche dell’epidemia; per esempio il numero di contatti che ogni intervistato ha giornalmente, il rispetto delle norme igieniche e di contenimento imposte dal governo o il numero degli spostamenti che effettua.

Queste informazioni, raccolte con metodo, aiuterebbero a rispondere a quegli interrogativi oggi lasciati senza risposta. Per esempio, qual è la probabilità di contagiarsi? Oggi stimiamo il numero di persone che un contagiato in media può contagiare, ma non sappiamo qual è la nostra probabilità di contrarre la COVID-19 uscendo una mattina di casa. Una stima precisa della prevalenza del virus nella popolazione si potrebbe facilmente ottenere attraverso l’indagine proposta, senza fare affidamento alla bontà di un modello. Inoltre, tenendo conto delle differenze territoriali nel campione, la stessa probabilità si potrebbe stimare localmente, e non solo per regioni, ma per città, se non addirittura quartieri.

Il campione non dovrebbe essere enorme. Come affermano gli statistici nella loro intervista: «La dimensione della popolazione influisce molto poco sulla numerosità del campione; assai più influente è la rarità o meno della caratteristica della popolazione che si intende stimare». Secondo la proposta degli ex-presidenti, circa 10.000 persone (il 5% di quelli a cui viene somministrato il tampone) da seguire periodicamente sarebbero sufficienti per ottenere stime non distorte ed efficienti. E se possono sembrare poche, si pensi che l’Istat utilizza un campione di circa 22.000 persone per stimare mensilmente il numero di occupati in Italia.

Il mondo (e la pandemia) è un sistema complesso

Oltre a sapere con quanta facilità possiamo infettarci e l’impatto delle misure di contenimento, ci interessa anche conoscere la risposta delle diverse istituzioni coinvolte nella pandemia. Come sta reagendo la medicina territoriale? E le strutture ospedaliere? E poi c’è il mondo del lavoro; che impatto hanno l’intensità dello smart working e della forza lavoro in presenza o l’introduzione delle misure igieniche e di distanziamento nei posti di lavoro? E ancora, cosa sappiamo veramente sulla pericolosità delle scuole?

Grazie al monitoraggio di questi aspetti si può veramente calcolare l’efficacia delle misure fino a oggi adottate da ogni singola entità. Perciò gli statistici propongono un sistema di raccolta dati integrato, dove dati raccolti da diverse indagini vengono uniti insieme per rappresentare molteplici aspetti dello stesso fenomeno.

Il ruolo delle scuole nella diffusione del virus si può stimare osservando l’evoluzione dei contagi su un campione di scuole e alunni - o sul loro censimento. Le indagini che l'Istituto di Statistica Nazionale (Istat) conduce regolarmente potrebbero essere modificate per contenere più informazioni relative all’epidemia. I questionari che periodicamente vengono fatti alle imprese possono infatti essere aggiornati con domande specifiche sulla loro risposta alla pandemia. A livello europeo una proposta del genere è già stata avanzata. L’economista Daniel Gros suggerisce di utilizzare un campione già esistente, lo EU statistics on income and living conditions (EU-SILC), e somministrare il test molecolare alle famiglie di cui si conoscono indirizzi, numeri di telefono e indicatori socio-demografici da indagini passate. Così si risparmierebbe molto tempo, prezioso durante un’epidemia.

Integrare, non sostituire

«Stiamo tutti cercando di tornare a una normalità, ma la pandemia da Covid-19 non è ancora finita. Le tue risposte al nostro questionario, insieme ad aggiornamenti giornalieri, aiuteranno l'istituto di ricerca Weizmann a individuare possibili focolai della malattia il prima possibile e prepararsi adeguatamente». Così una pagina web invita chi la sta osservando a partecipare a un questionario promosso dal Weizmann Institute of Science, l’Università di Gerusalemme e il Clalit Health Service in collaborazione con il ministero della salute. L’idea è quella di raccogliere più dati possibili direttamente dagli abitanti, sulla loro residenza, sulla loro storia clinica, se sono risultati positivi o meno alla COVID-19, sulle loro abitudini (se sono in contatto con molte persone, se prendono mezzi di trasporto, etc..) e tante altre informazioni che possono permettere di monitorare, identificare e predire le zone di maggiore diffusione del virus.

Sebbene anche in questo caso il campione non sia probabilistico, ma di convenienza, i dati ottenuti sono comunque importanti e ad alta risoluzione e possono essere confrontati con i risultati dei test condotti dal sistema sanitario e dall’indagine campionaria. Infatti un campione integrato con altri dati, anche se non perfetti, può dirci molte più cose di quanto non farebbe da solo. Come suggeriscono Alleva e Zuliani: «Per studiare in profondità fenomeni complessi come quelli connessi con la pandemia in corso occorrono disegni congiunti che sfruttino e valorizzino il potenziale informativo delle varie fonti. La nostra proposta è quella di realizzare una integrazione tra sorveglianza sanitaria e monitoraggio statistico, non di sostituire una fonte con l’altra».

Oltre il metodo rappresentativo

La disponibilità di dati e di nuovi metodi di raccolta oggi disponibili ci fa quindi riflettere su un nuovo modello di gestione dell’informazione. Come emerge dalla proposta fatta dai due statistici, il sistema informativo è un sistema complesso, composto da svariati dati raccolti da molteplici entità; e da dati non ancora raccolti, ma con grande potenziale. La loro integrazione è essenziale.

La pandemia ha messo in luce questo aspetto, non estraneo a chi di dati e stime si occupa quotidianamente. E se nel futuro risulterà sempre più evidente la necessità di un sistema integrato di raccolta dei dati, supportato da collaborazioni tra istituzioni, privati e organizzazioni, le basi si possono iniziare a gettare nel corso di questa emergenza.

prossimo articolo

Biodiversità oscura: la perdita invisibile

di Laura Scillitani

Pubblicato il 09/04/2025

Anche dove la natura sembra intatta, la biodiversità vegetale è spesso incompleta: lo rivela uno studio globale che dimostra come molte piante autoctone siano assenti dai loro habitat naturali a causa dell’impronta ecologica umana

Crediti immagine: Tobias Tullius/Unsplash

Ambiente

Una delle immagini più ricorrenti quando si parla di perdita di biodiversità è quella di una foresta pluviale in fiamme o assediata da ruspe e scavatori, la nuda terra a prendere il posto di una lussureggiante vegetazione. Meno facile pensare che, anche a centinaia di chilometri dal punto in cui le piante sono divorate dal fuoco o buttate giù, anche in luoghi in cui la foresta pare florida e variegata, la biodiversità si sta erodendo.

Per capire l'epidemia usiamo i dati, ma con metodo