Spesso si sente dire che il numero di vittime che sta mietendo l’epidemia di SARS-CoV-2 in Italia sia ben superiore ai numeri che ci vengono forniti quotidianamente dalla Protezione Civile. Inoltre si leggono sempre più notizie relative a decessi non direttamente dovuti al virus ma indirettamente dovuti all’epidemia: sono spesso persone con patologie serie, che nulla hanno a che vedere con Covid-19, ma che hanno difficoltà o ritrosia ad accedere in tempo al servizio sanitario e ciò ne provoca a volte il decesso. Purtroppo ad oggi una stima accurata di questi due numeri, ossia dei reali decessi dovuti direttamente e indirettamente al virus, non è disponibile. In questo articolo cerchiamo di supplire a questa lacuna, fornendo una stima ragionevole di tali decessi tramite l’analisi statistica dei dati messi a disposizione dall’Istat sui decessi totali che sono avvenuti in Italia fino al 4 aprile 2020, anche elaborando scenari che partono dalla constatazione della minore prevalenza di donne nella mortalità da Covid-19. Nel grafico, sbilanciamento di genere nella mortalità Covid in Lombardia per fasce di età.
Un'analisi dei dati Istat sui decessi legati all'epidemia Covid-19 in Italia: verso una stima del numero di morti dirette e indirette, anche grazie allo sbilanciamento di genere
Messaggi chiave
- la copertura dei dati dell’Istat è tale da non permettere stime significative in molte regioni italiane. Noi ci limitiamo a quelle con copertura superiore al 50% della popolazione (Lombardia, Liguria ed Emilia-Romagna) e riteniamo che un eventuale uso di questi dati per stimare il numero di decessi nelle regioni mal campionate possa portare a severi errori;
- il numero dei decessi in eccesso rispetto ad un anno senza epidemia mostra un andamento temporale chiaramente legato all’epidemia, crescendo a partire dall’ultima settimana di febbraio e mostrando un picco intorno al 20 marzo;
- il confronto con i dati riportati dalle Protezione Civile mostra che questi ultimi sono molto sottostimati nelle regioni maggiormente colpite dall’epidemia (circa 7000 decessi in meno in Lombardia e circa 1000 in Emilia-Romagna). Nelle province maggiormente colpite come Bergamo stimiamo che il numero reale dei decessi sia piú del doppio di quelli riportati dalla Protezione Civile;
- il confronto dell’evoluzione temporale dei decessi stimati dai dati Istat e di quelli ufficiali forniti dalla Protezione Civile suggerisce che questi ultimi non solo siano sottostimati, ma presentino anche un probabile “ritardo temporale” che ne modifica sensibilmente l’andamento in funzione del tempo con importanti conseguenze sulla stima dei parametri dell’epidemia;
- è ben noto che la patologia Covid-19 porti a morti ospedaliere piú numerose negli uomini che nelle donne. Questo sbilanciamento di genere rispetto ai decessi normali, quelli che avvengono per tutte le altre cause, ci ha permesso di stimare, in vari scenari, possibili percentuali dei decessi avvenuti a causa dell’epidemia in modo indiretto, ossia non direttamente causati dal virus.
Introduzione
L’epidemia di coronavirus SARS-CoV-2 che è dilagata in Italia negli ultimi mesi ha prodotto un elevato numero di decessi certificati ufficialmente come positivi al virus (più di 24.000 a oggi). Questi includono soprattutto i decessi ospedalieri, ma il numero reale è probabilmente molto più alto. In questa nota cerchiamo di fornire una prima stima del numero di questi decessi fino alla data del 4 aprile 2020.
Ogni giorno il Dipartimento della Protezione Civile italiana (DPC) [1] fornisce un resoconto con i numeri dell’epidemia in corso (contagiati, ospedalizzati, in terapia intensiva, guariti, decessi, etc..). Tuttavia vi sono diverse evidenze che suggeriscono che alcuni di questi numeri (qui abbiamo in mente in modo particolare quello relativo ai decessi) siano fortemente sottostimati [2].
Recentemente l’Istat ha messo a disposizione i dati relativi ai decessi totali avvenuti fino al 4 aprile 2020 in 1.689 comuni italiani [3]. Comparando questi dati con quelli degli anni precedenti relativi allo stesso gruppo di comuni possiamo osservare come in molti comuni delle regioni più colpite il numero di decessi non solo è sensibilmente più alto della media stagionale degli anni precedenti, ma che lo scarto è decisamente superiore al numero di decessi certificati dalla Protezione Civile come dovuti al Covid-19.
Una recente attenta analisi di Alessandro Amici [4] trova conferme nel lavoro che esponiamo qui. Occorre però fare maggiore attenzione nel fornire una stima più precisa del numero di decessi avvenuti in Italia durante l’epidemia di Covid-19. Questo sia per quel che riguarda i decessi conseguenti ai contagi non rilevati (tipicamente molte delle morti sono avvenute in casa), sia quelli “collaterali”, dovuti cioè al fatto che il sistema sanitario è stato, per periodi anche lunghi e in molte località, sotto forte stress. Infatti, pazienti con altre patologie serie hanno avuto in alcuni casi difficoltà di accesso agli ospedali, o a un posto in rianimazione, i tempi medi di soccorso delle ambulanze per le emergenze sono molto aumentati, le visite ambulatoriali di controllo di casi anche gravi sono state in parte sospese, la ricezione al pronto soccorso è più complessa. A questo si aggiungano la dissuasione talvolta operata dai servizi sanitari dal rivolgersi alle strutture medico-ospedaliere se non in condizioni gravi, che sono, però complicate da valutare per chi non ha conoscenze mediche, e le motivazioni psicologiche che trattengono pazienti non Covid in necessità dall’andare al pronto soccorso, in strutture ospedaliere a vocazione non Covid e addirittura dai loro medici curanti. Una recente e interessante analisi di Daniele Del Re e Paolo Meridiani discute come noi il problema di classificare i decessi nelle varie categorie.
I decessi registrati da Istat dal 22 febbraio al 4 aprile
Il periodo di riferimento della nostra analisi si estende dal 22 febbraio 2020 (data del primo decesso in Italia attribuito ufficialmente al Covid-19) al 4 aprile 2020 (data ultima del periodo coperto dai dati messi a disposizione dall’Istat al momento della stesura di questo contributo).
Bisogna tenere presente che i dati forniti dall’Istat contengono tutti i decessi avvenuti nel periodo di riferimento, che possiamo dividere per comodità in tre categorie:
- i decessi di base sono quelli che sarebbero avvenuti in condizioni normali, ossia in assenza dell’epidemia da coronavirus;
- i decessi causati direttamente dal Covid-19 (parte di questi sono quelli ufficialmente certificati ed entrati nelle statistiche fornite dalla Protezione Civile prima e dall’Istituto Superiore di Sanità poi);
- i decessi causati indirettamente dall’epidemia, ossia non provocati dal virus Covid-19, ma che non sarebbero avvenuti in condizioni normali e che sono presumibilmente conseguenza delle condizioni critiche in cui ha dovuto operare il sistema sanitario in alcune regioni.
Naturalmente il confinamento ha indotto anche altre variazioni nei decessi totali: probabilmente più incidenti mortali domestici e meno in strada e sul lavoro. Tuttavia tutte queste categorie di morte incidono molto poco sui totali (rispettivamente circa 20, 10 e 3 decessi giornalieri in tutta Italia). Quindi nella prima approssimazione di questa analisi, li trascuriamo.
Chiamiamo decessi in eccesso tutti quelli non di base, quindi la somma delle morti dirette ed indirette causate dall’epidemia e riassumiamo nello schema qui sotto le categorie in cui dividiamo i decessi nel periodo di riferimento.
I dati sulle morti certificate da Covid-19 combinati con quelli forniti recentemente dall’Istat ci permettono di ottenere una stima statisticamente fondata dei decessi in eccesso nel periodo di riferimento. Purtroppo il campione dei dati Istat è parziale e condizionato, perché rappresenta un sottoinsieme di 1.689 comuni, distribuiti in modo non omogeneo sul territorio italiano, che soddisfano i criteri di cui alla nota metodologica dell’Istat [6]: sono entrati nella lista comuni con almeno 10 decessi nei primi mesi del 2020 e un incremento di decessi nel mese di marzo 2020 rispetto alla media 2015-2019 superiore al 20%. Questi criteri creano un bias non trascurabile, di cui è necessario tenere conto nella rielaborazione dei dati. Secondo alcuni studiosi questo bias introdotto dall’Istat nel fornire i dati non permetterebbe neanche una stima significativa del numero reale dei decessi [7], ma come mostriamo in questa nota tale stima può essere ottenuta usando le giuste accortezze e le tecniche discusse in dettaglio nella nota metodologica in calce.
La stima dei decessi basata su una selezione del campione Istat dei 1.689 comuni
Per prima cosa, abbiamo selezionato solo province e regioni dove il campionamento messo a disposizione dall'Istat costituisce un'ampia copertura del totale. I comuni monitorati dall’Istat sono un sottoinsieme di quelli che hanno aderito all’ANPR (Anagrafe Nazionale Popolazione Residente) la cui copertura del territorio in termini di popolazione è mostrata nelle tabelle 1 e 2. Per ogni regione e per le province meglio campionate riportiamo in tabella la percentuale di popolazione nei comuni che hanno aderito all’ANPR (che chiameremo comuni ANPR) e dei comuni di cui l'Istat ha fornito i dati sui decessi nel 2020 (che chiameremo comuni campionati). Quest’ultima percentuale l’abbiamo calcolata sui decessi nel quinquennio 2015-19, ossia rappresenta la percentuale di decessi avvenuti nei comuni campionati: il numero che otteniamo è chiaramente compatibile con quello ottenuto basandosi sulla percentuale della popolazione, ma, visto lo scopo di questo lavoro, ci sembra più corretto usare la percentuale dei decessi.
Tabella 1. Copertura dati Istat per regione | Tabella 2. Copertura dati Istat per provincia.
La stima dei decessi in Lombardia e Emilia Romagna
Al fine di ridurre il bias dovuto al campionamento dei dati forniti dall’Istat e le incertezze statistiche nelle nostre stime, preferiamo concentrarci principalmente su due delle tre regioni che hanno una copertura superiore al 50% nei comuni campionati, ovvero Lombardia ed Emilia-Romagna. Essendo queste le regioni maggiormente colpite dall’epidemia, riteniamo che l’analisi sia estremamente significativa. All’interno di esse ci concentriamo poi sulle sole province con la copertura maggiore, presenti nella tabella 2, dove mostriamo i dati relativi alle 17 province con copertura della popolazione superiore al 65%.
Si noti che alcune regioni sono particolarmente poco rappresentate nei dati forniti dall’Istat (ad esempio Lazio e Campania hanno una copertura sotto il 5%): usare questi dati per cercare di valutare il reale impatto dell’epidemia in quelle regioni produrrebbe risultati statisticamente non significativi.
Rimandiamo alla nota metodologica la spiegazione dettagliata della procedura usata per stimare al meglio il numero di decessi totali nel periodo di riferimento del 2020 e passiamo direttamente alla discussione dei risultati.
In figura 1 mostriamo per la Lombardia il confronto tra il numero dei decessi che si sono avuti nell’anno 2016 e quelli che in questo studio stimiamo che siano avvenuti nel presente anno 2020. La scelta dell’anno 2016 come anno di riferimento è dettata dal fatto che risulta essere l’anno (tra quelli del quinquennio 2015-19 a nostra disposizione) che meglio approssima i dati dell’anno 2020 nei mesi di gennaio e febbraio; può quindi essere usato come valido riferimento per i successivi mesi. Nella nota metodologica mostriamo che altre scelte per la curva di riferimento conducono alle stesse conclusioni.
Figura 1 (a sinistra). Decessi totali in Lombardia giorno per giorno: confronto tra quelli che si sono avuti nel 2016 (curva blu) e quelli che stimiamo siano avvenuti nel 2020 (dati rossi con errore) | Figura 2 (a destra). Numero di decessi in eccesso rispetto ad un anno senza epidemia stimato per la Lombardia dai dati Istat (punti rossi con errore) e numero di decessi certificati positivi al Covid-19 forniti dalla Protezione Civile (punti blu).
I dati in figura 1 mostrano chiaramente gli effetti dell’attacco epidemico che in Lombardia ha causato vittime a partire dall’ultima settimana di febbraio. Ci dicono anche che il picco nel numero totale dei decessi è stato raggiunto intorno al 20 marzo. Inoltre tutti i decessi sopra la curva blu di riferimento sono decessi in eccesso dovuti all’epidemia di Covid-19 in corso. Tenteremo nel seguito di stimare quanti siano dovuti direttamente all’attacco del virus e quanti siano decessi dovuti indirettamente all’epidemia. Per ora ci limitiamo a confrontare i decessi in eccesso con quelli ufficialmente certificati come positivi al Covid-19 e forniti ogni giorno dal Dipartimento della Protezione Civile.
In figura 2 mostriamo tale confronto per la Lombardia e ne deduciamo che i dati ufficiali raccolti e diffusi dalla Protezione Civile sono soggetti probabilmente a qualche errore sistematico. Il più evidente è che il numero ufficiale di decessi dovuti al Covid-19 è stato molto sottostimato, a meno di non ipotizzare che la differenza tra le due curve in figura 2 sia completamente dovuta alle morti indirette (più avanti discutiamo questo aspetto in dettaglio). Nei primi giorni di aprile i dati rossi (decessi totali) vanno sotto ai dati blu (decessi certificati covid). Questa è chiaramente una cosa impossibile che dimostra che almeno una delle due curve non segue i dati reali. Purtroppo abbiamo indicazioni che entrambi i set di dati potrebbero discostarsi in modo apprezzabile dalla realtà.
I decessi certificati positivi da Covid-19 vengono probabilmente riportati nel database gestito dalla Protezione Civile con un certo ritardo temporale (per esempio la regione Piemonte ha più volte annunciato che i decessi inclusi in un dato giorno non erano avvenuti tutti nelle ultime 24 ore). Nell’ipotesi che i dati dei decessi vengano registrati nel database della Protezione Civile con un certo ritardo (che varia da caso a caso), l’eventuale picco nel numero reale dei decessi da Covid-19 potrebbe diventare molto più largo (ricordiamo che in questi giorni si discute molto del fatto che i decessi giornalieri in molte regioni siano pressoché costanti da diverse settimane, ovvero che invece di un picco netto si stia osservando una sorta di plateau). Tuttavia è doveroso segnalare un’anomalia per difetto nei dati forniti dall’Istat: un confronto incrociato con i dati presenti nei rapporti del Sistema di Sorveglianza della Mortalità Giornaliera (SISMG) che riportiamo nell’ultima sezione del lavoro mostra che i numeri forniti dall’Istat sono sistematicamente più bassi negli ultimi giorni del periodo considerato. Questo potrebbe creare l’effetto di una decrescita troppo veloce dopo il picco. Siamo quindi costretti ad attendere un aggiornamento dei dati Istat per poter confermare lo scenario della decrescita veloce che vediamo ora.
L’analisi giorno per giorno che abbiamo mostrato nelle figure 1 e 2 per la Lombardia può essere effettuata solo per le situazioni nelle quali il numero di decessi quotidiani è sufficientemente elevato. Per esempio in figura 3 mostriamo il numero totale di decessi stimato per la provincia di Bergamo, la più colpita in Italia.
Figura 3: Decessi totali nella Provincia di Bergamo.
Una stima allargata a più regioni e province
Volendo studiare un numero maggiore di regioni e province, preferiamo considerare il numero totale di decessi nell’intero periodo epidemico, in modo da ridurre le fluttuazioni che su numeri più piccoli possono diventare troppo grandi. Considerando che il primo decesso attribuito ufficialmente al coronavirus Covid-19 in Italia è avvenuto il giorno 22 febbraio, prendiamo in considerazione tutti i decessi avvenuti da quella data in poi. Il risultato per le 3 regioni e per le 17 province con copertura maggiore è mostrato in tabella 3 e in figura 4: in quest’ultima riportiamo i decessi “di base” con una barra verde, quelli in eccesso con una barra rossa e i decessi ufficialmente certificati positivi al Covid-19 con una barra azzurra.
Tabella 3. Decessi reali nel periodo di riferimento (23 febbraio - 4 aprile), divisi tra quelli di base e quelli in eccesso, e confrontati con quelli riportati dalla Protezione Civile il 5 aprile 2020. Gli intervalli numerici riportati in tabella corrispondono a una deviazione standard.
Figura 4. Rappresentazione grafica dei dati in tabella 3. I decessi totali sono divisi in “di base” e “in eccesso”. Di questi ultimi solo una parte sono certificati come dovuti al Covid-19.
In tutti i casi analizzati si trova che i decessi ufficialmente imputati al Covid-19 sono solo una parte dei decessi in eccesso nel periodo esaminato. Il valore quantitativo di questa frazione fluttua di regione in regione e di provincia in provincia, ed è riportato nella quarta colonna della tabella 3. Notiamo in particolare il caso drammatico della provincia di Bergamo, dove il numero reale di decessi in eccesso è più del doppio di quelli ufficiali, e grande quasi cinque volte quelli che si sarebbero avuti senza l’epidemia.
Possiamo estendere questa stima realistica dei decessi in eccesso a livello nazionale? Prima di rispondere a questa domanda si deve analizzare la tabella 1, che mostra le coperture del campione Istat, e ricordare che la maggior parte delle regioni non sono sufficientemente rappresentate dal campione da permetterci una stima corretta. Proprio per questo motivo è più prudente considerare solo gli eccessi dei decessi stimati da Istat nelle regioni con copertura elevata, e considerare per le altre il dato riportato dal DPC: in questo modo si ottiene che al 4 aprile 2020 il numero reale di decessi in eccesso dovuti all’epidemia (in modo diretto ed indiretto) era circa 25.000 ed oggi potrebbe superare le 30.000 unità.
Questa analisi conferma che, analogamente al numero delle persone contagiate, anche il numero dei decessi causati da Covid-19 è largamente sottostimato. Per esempio, è noto che nelle zone più colpite molte persone sintomatiche non hanno mai avuto accesso alle cure ospedaliere necessarie durante il decorso della malattia e sono morte in casa senza neanche aver fatto un tampone che certificasse la loro positività al virus.
In che senso le morti non certificate come Covid potrebbero essere correlate all'epidemia?
Sorge spontaneo chiedersi se tutti le morti in eccesso non certificati positivi al virus siano comunque da imputarsi direttamente alla sindrome Covid-19. In realtà, un sistema ospedaliero in crisi mette a rischio la salute e la sopravvivenza di tutti i pazienti, soggetti a qualsiasi malattia, diminuisce fortemente il soccorso nelle emergenze, sospende il monitoraggio ordinario di patologie anche molto serie. È molto probabile che, in un periodo di tempo limitato e in alcune precise regioni del paese, attaccate in modo drammatico dall'epidemia, molte persone, in mancanza di cure o di soccorso immediati, non siano sopravvissute. Si aggiunga anche il fatto che gli ospedali sono diventati luoghi di elevata diffusione del virus e molte persone hanno tardato il proprio accesso al pronto soccorso per timore dell’infezione: così facendo si sono aggiunti altri decessi evitabili in condizioni normali. È utile ricordare che questo effetto può manifestarsi anche in una situazione di una buona funzionalità del sistema ospedaliero, per puri motivi psicologici, se i cittadini con patologie gravi non Covid non richiedono assistenza alle strutture ospedaliere: ci sono segnali del fatto che questo fenomeno possa essere in parte realistico, ed è certamente necessario intervenire per arginarlo.
Sbilanciamento di genere nelle morti Covid e stime della mortalità Covid e per altre cause
Figura 5. Sbilanciamento di genere nei decessi certificati positivi al Covid-19 in Lombardia per fascia d’età (dati al 5 aprile 2020).
Lo sbilanciamento di genere nella letalità ospedaliera del coronavirus Covid-19 è ben documentata a tutti i livelli, sia nazionali che internazionali. Ad esempio, in Cina [8] la frazione di donne tra i decessi certificati positivi al virus, che chiameremo fC nel seguito, è pari al 36,2%, mentre in Spagna [9] è pari al 36,6% ed in Italia [10] è pari al 35,8%. In molti altri paesi [11], tra cui Francia e Germania, tale frazione si attesta vicino al 40%. Eccezioni significative sono il Belgio, il Canada, la Corea del Sud e altri, con percentuali di decessi certificati femminili vicine al 48-49%. E' importante chiarire che parliamo qui di decessi certificati, e quindi soprattutto ospedalieri. In Lombardia invece questo sbilanciamento di genere sembra essere, nei dati di decessi certificati dal DPC, ancora più severo e pari al 30,6% alla data del 5 aprile 2020, mantenendosi inoltre elevato nelle diverse fasce di età, come mostrato in figura 5.
Possiamo sfruttare il forte sbilanciamento di genere tra i decessi ospedalieri dovuti al Covid-19 per cercare di separarli dai decessi per altre cause che avvengono in una proporzione di circa uno a uno. Naturalmente per fare questo abbiamo bisogno di una ipotesi ulteriore, sullo sbilanciamento di genere nei decessi Covid di natura non ospedaliera: non è affatto ovvio, infatti, che le due percentuali siano uguali. Per fare questo analizzeremo quattro scenari, in cui nel totale dei decessi Covid (che includono quindi qui sia decessi ospedalieri che decessi a casa non certificati positivi al Covid) la percentuale di decessi femminili è rispettivamente pari a 30% (media in Lombardia), 36% (media in Italia), 40% (media in alcuni paesi europei) e 47% (media nei dati Istat su tutti i decessi).
Nella pratica abbiamo due tipologie di decessi che si distinguono per il rapporto di mortalità tra uomini e donne. Una tipologia “non-covid” in cui le donne compaiono proporzionalmente a quante sono nella popolazione totale: chiamiamo fNC la frazione di decessi femminili in questa tipologia e notiamo che varia lievemente da zona a zona, mantenendosi intorno al valore medio del 52% (tuttavia nell’analisi consideriamo il valore fNC misurato nella regione o provincia in un periodo senza l’epidemia). Un’altra tipologia di decessi “covid” in cui le donne sono una frazione fC (e i 4 scenari sopra delineati corrispondono ad fC= 0,3, 0,36, 0,4 e 0,47). A questo punto, conoscendo il rapporto tra decessi maschili e femminili nella totalità delle morti in eccesso (quelle stimate dai dati Istat) è immediato calcolare la ripartizione di tali decessi tra covid e non-covid tramite la formula:
frazione di decessi non-covid = (x - fC) / (fNC - fC)
dove x è la frazione di decessi femminili tra tutti i decessi in eccesso. Si noti che l’incertezza nella stima della frazione dei decessi non-covid diventa molto grande quando le frazioni fC ed fNC si avvicinano. Quindi più è forte lo sbilanciamento di genere nei decessi dovuti al Covid-19 e più risulta precisa la stima della percentuale di morti indirette.
In tabella 4 abbiamo considerato 4 scenari diversi in cui facciamo variare la percentuale delle donne decedute a causa del virus. E riportiamo i risultati relativi alla ripartizione dei decessi in eccesso non certificati Covid-19 nelle due categorie: decessi Covid-19 non certificati e decessi indiretti. La loro lettura accurata può darci informazioni preziose su quanti decessi siano avvenuti a causa del virus, ma non siano stati riconosciuti come tali (decessi covid non certificati) e invece quanti siano i danni collaterali dell’epidemia (decessi non-covid) avvenuti per le cause discusse prima.
Tabella 4. Ripartizione dei decessi in eccesso non certificati Covid-19 tra le categorie “covid non certificati” e “non-covid” per le regioni e le province statisticamente più significative. Gli intervalli numerici riportati in tabella corrispondono ad una deviazione standard. Se il limite inferiore dell’intervallo è negativo il valore nullo è altamente probabile.
- Il primo scenario in cui la percentuale è pari al 30% di decessi di donne può avere senso solo per la Lombardia e per le province lombarde dove tale percentuale è stata effettivamente misurata nei decessi certificati come dovuti al Covid-19. Se questo scenario risultasse essere quello corretto, allora in Lombardia ci sarebbero stati un numero di decessi collaterali pari a circa la metà di quelli dovuti direttamente al virus (circa 5.000 morti non-covid contro circa 10.000 morti covid). Questo dovrebbe far riflettere profondamente su quanto l’organizzazione dell’emergenza e il mantenimento dei servizi essenziali permetta di ridurre notevolmente l'impatto di un epidemia.
- Il secondo e terzo scenario in cui la percentuale di decessi femminili dovuti al Covid-19 è pari al 36% o il 40% sono forse quelli piú plausibili visto che queste percentuali sono quelle misurate in molte nazioni diverse. Le conclusioni a cui si giunge in questi scenari è che l’epidemia abbia provocato sia un elevato numeri di morti indirette, sia un elevato numero di decessi dovuti al Covid-19 che non sono stati certificati tali. La percentuale delle morti indirette rispetto a tutte quelle in eccesso varia in Lombardia tra il 20% e il 35%, mentre in Emilia-Romagna tra il 20% e il 30%, quindi il risultato sembra robusto e dirci che circa un terzo dei decessi sono ‘danni collaterali’ dell’epidemia. La percentuale delle morti Covid non certificate rispetto al totale dei decessi dovuti al virus varia in Lombardia tra il 15% e il 30%, mentre in Emilia-Romagna varia tra il 10% e il 22%. Anche questo risultato sembra ragionevole, sulla base dell’osservazione che nelle zone piú colpite dall’epidemia i decessi Covid che non si è riusciti a certificare con il tampone sono in percentuale maggiore. Riteniamo che questi siano numeri molto importanti che è necessario validare in ulteriori studi futuri.
- Il quarto scenario (47% di decessi di donne) ipotizza che la maggior parte dei decessi sia dovuta direttamente al virus. Infatti osserviamo che fissando fC al 47% la percentuale di decessi femminili tra quelli dovuti al virus otteniamo un numero di morti in eccesso non-covid sempre compatibile con zero (tranne per le province di Cremona e Parma). In questo scenario ovviamente abbiamo un numero molto elevato di decessi dovuti al Covid-19 che non sono stati certificati. Purtroppo in questo scenario le stime hanno un’elevata incertezza a causa del fatto che fNC-fC è piccolo. Notiamo che questa situazione proporrebbe un quadro in cui le morti reali di uomini e donne per Covid-19 sono molto più bilanciate di quel che avviene per le morti ospedaliere.
Evidenziamo che le predizioni più affidabili sono quelle per le province di Parma e Milano che hanno percentuali di copertura molte alte (90,7% e 87,7% rispettivamente).
Conclusioni
Il nostro messaggio principale è che lo sbilanciamento fra decessi maschili e femminili dovuti a Covid-19 è un'informazione cruciale, che può aiutarci molto a migliorare la nostra comprensione dello sviluppo dell'epidemia. Registriamo oggi una evidenza per uno sbilanciamento dei decessi fra morti maschili e femminili e, insieme a questo, un segnale per la presenza di decessi dovuti alla crisi del sistema e dell'approccio sanitario legato a patologie non Covid-19. Applicare il nostro schema di analisi a dati più accurati, che ci auguriamo siano disponibili presto, potrà consentire di sviscerare la reale distribuzione dei decessi, per genere e per età, quantificare con precisione la letalità della patologia e, insieme, delle crisi sanitarie che la patologia causa e, speriamo, anche di chiarificare meccanismi clinici che sono legati alla differente abbondanza di decessi per la popolazione femminile e per quella maschile.
Le direzioni in cui procedere questo tipo di studio sono molte. Ad esempio l’analisi che consideri separatamente le diverse classi d’età è di sicuro interesse. Infatti notiamo che il rapporto tra i decessi maschili e femminili in Lombardia e in Germania, è molto simile sotto i 60 anni, ma con l'aumentare dell'età cresce la differenza e in Lombardia il rapporto è più grande che in Germania, come se mancasse in Lombardia una componente ugualmente distribuita sui due sessi. Si tratta di un fenomeno interessante che dovrebbe essere approfondito, facendo confronti anche con altri paesi.
Ringraziamo Diego Alberici per averci messo a disposizione i dati dei decessi per le province dell’Emilia-Romagna ed i nostri amici che ci hanno segnalato prontamente un errore importante in una delle tabelle in una versione preliminare del testo.
Nota metodologica
I dati forniti dall’Istat non sono, purtroppo, relativi a tutti i comuni italiani, bensì ad un loro sottoinsieme che chiamiamo ‘comuni campionati’ e che soddisfano le seguenti tre condizioni:
-
essere subentrati entro il 31/12/2019 nell’ANPR (Anagrafe Nazionale della Popolazione Residente): si tratta di 5.295 su un totale di 7913 comuni italiani;
-
aver trasmesso le variazioni anagrafiche in tempo;
-
aver registrato un numero di decessi dal 1/1/2020 al 4/4/2020 non inferiore a 10 ed aver registrato un incremento di mortalità pari ad almeno il 20% a partire dal mese di marzo (1/3/2020-4/4/2020) rispetto alla corrispondente media del quinquennio 2015-2019.
Per garantire una continuità nelle analisi i comuni che erano entrati in questa lista nel primo rilievo, fino al 28/3, non ne sono usciti nel secondo (relativo al 4/4) anche se hanno perso qualcuna di questa caratteristiche.
Nel tentativo di fornire una stima unbiased del numero di decessi in eccesso sull’intero territorio (nazionale, regionale o provinciale) dobbiamo stimare gli errori sistematici prodotti dal fatto di conoscere i dati dei decessi solo sui comuni campionati con questi criteri.
Ipotizziamo che la condizione 1 sia scorrelata dal numero dei decessi in eccesso e chiamiamo F1 la frazione di popolazione nei comuni che soddisfano la condizione 1. Chiamiamo inoltre D1 il numero di decessi nel periodo di riferimento in questi comuni.
La condizione 2 è probabilmente correlata negativamente con i decessi in eccesso, visto che un comune colpito severamente dall’epidemia potrebbe avere più problemi ad aggiornare i propri dati anagrafici. Ipotizzando quindi che tutti i comuni abbiano trasmesso i dati, stiamo ignorando tale correlazione e la stima del numero dei decessi in eccesso che otteniamo è probabilmente inferiore al numero vero. Chiamando F2 la frazione di popolazione nei comuni che soddisfano le prime due condizioni, stiamo ipotizzando F2=F1 e D2=D1 dove D2 è il numero di decessi in questi comuni.
La condizione 3 è invece positivamente correlata con i decessi in eccesso e fornirebbe una stima superiore al loro numero vero se non tenessimo conto correttamente del bias con cui sono stati selezionati dall’Istat i comuni campionati. Chiamiamo F3 la percentuale di popolazione nei comuni campionati e approssimiamo F3 con la frazione di decessi che si sono verificati in tali comuni nel quinquennio 2015-19 (su grande scala i decessi sono certamente proporzionali alla popolazione ed inoltre lo studio presente analizza i decessi). Chiamiamo inoltre D3 il numero di decessi in questi comuni: questo numero ci è stato fornito dall’Istat.
Il numero totale dei decessi
La migliore stima del numero totale di decessi avvenuti nel periodo di riferimento nell’anno 2020 si ottiene sommando ai decessi nei comuni campionati, D3, una stima dei decessi avvenuti nei comuni ANPR di cui l’Istat non ha fornito i numeri, pari a D1-D3, ed infine normalizzando per la copertura che forniscono i comuni ANPR (F1) sulla totalità di tutti i comuni italiani:
D = (D3 + (D1 - D3) ) / F1
Il numero di decessi può essere sempre scritto come la mortalità per la popolazione e quindi per stimare i decessi nei comuni non campionati possiamo scrivere:
D1 - D3 = MNON-3 * (P1 - P3) = MNON-3/M * M * (P1 - P3) = MNON-3/M * B * (F1 - F3)
dove P1 e P3 sono rispettivamente le popolazioni dei comuni che soddisfano solo la condizione 1 (comuni ANPR) e di quelli che soddisfano anche la condizione 3 (comuni campionati), MNON-3 è la mortalità nei comuni che NON soddisfano la condizione 3, mentre M è la mortalità media in assenza di epidemia e B è il numero di decessi di base, ossia i morti totali in un periodo senza l'epidemia (discutiamo in calce due scelte diverse per questa base). La mortalità MNON-3 dei comuni che non soddisfano la condizione 3 è ovviamente un po’ più piccola della mortalità media M. Il rapporto MNON-3/M dipende in linea di principio dall’anno in cui si misura MNON-3 e noi usiamo quello misurato nel quinquennio 2015-19, dove i dati sono completi, come approssimazione per quello nell’anno 2020. Riteniamo che questo fornisca una stima molto ragionevole perché i comuni che non soddisfano la condizione 3 sono quelli meno colpiti dall’epidemia (quindi con minori variazioni tra il quinquennio 2015-19 e l’anno 2020). Inoltre, essendo interessati ad ottenere un buon limite inferiore al reale numero dei decessi, ci è sufficiente ipotizzare che anche nei comuni che non soddisfano la condizione 3 i decessi nel 2020 siano non inferiori a quelli degli anni prima (la base). Sotto questa ipotesi la formula che usiamo per il calcolo di D fornisce una stima molto ben approssimata, che possiamo considerare un buon limite inferiore, del reale numero dei decessi.
La definizione della base
Nella formula per la stima dei decessi compare il cosiddetto ‘valore base’ B, ossia il numero medio dei decessi in un periodo senza epidemia. Lo stesso valore base ci serve per stimare i decessi in eccesso a partire dai decessi totali. Tuttavia il valore base dei decessi può essere stimato in modi diversi che vale la pena discutere.
L’inverno del 2020, fino all’outbreak dell’epidemia, è stato un inverno particolarmente mite dal punto di vista influenzale e ci sono stati meno decessi della media dei 5 anni precedenti. Dunque usare la media del quinquennio 2015-19 come valore base sarebbe stato sbagliato.
In un primo approccio abbiamo quindi definito il valore di base come la media dei decessi negli anni 2015-2019 opportunamente riscalata per un fattore moltiplicativo che facesse coincidere tale media con i decessi realmente avvenuti nel 2020 prima dell’epidemia (ossia nel periodo 1/1-22/2). In alternativa, abbiamo osservato che dei 5 anni precedenti anche il 2016 è stato particolarmente mite per numero di decessi, con un andamento molto simile a quello del 2020, come mostrato in figura 1 per la Lombardia. Abbiamo, quindi, usato i dati misurati nel 2016 come valore di base.
Tabella. Confronto tra le stime dei decessi che si ottengono con diversi valori base.
Come possiamo vedere nella tabella per il caso purtroppo più emblematico dell’attuale crisi epidemica, la regione Lombardia, cambiando la definizione del valore di base le stime dei decessi totali sono molto simili, e compatibili tra di loro all’interno degli intervalli di incertezza riportati, corrispondenti ad una deviazione standard. Il numero stimato di eccesso di decessi (una volta sottratta la base) è ancora simile, benché distinto da più di una deviazione. Per ulteriore prudenza abbiamo utilizzato nella discussione dei risultati la seconda scelta, quella in cui la base è il valore nell’anno 2016, che porta a un eccesso in media più piccolo del 4%.
Un controllo dei dati forniti dall'Istat
Viste le condizioni di urgenza in cui sono stati elaborati i dati da parte dell’Istat riteniamo che un controllo sulla loro consistenza sia utile. Possiamo effettuare tale controllo incrociando i dati forniti dall’Istat con quelli presentati dal Sistema di Sorveglianza della Mortalità Giornaliera (SISMG) nel suo rapporto settimanale.
Abbiamo scelto di farlo per 4 città che rientrano tra i comuni campionati dall’Istat e mostrano un chiaro discostamento dalla baseline: Milano, Brescia, Bologna e Genova.
Nei grafici che seguono abbiamo sovrapposto al grafico estratto dall’ultimo rapporto del SISMG [12] i dati forniti dall’ISTAT (pallini rossi). Trattandosi sempre di un singolo comune incluso tra quelli campionati dall'Istat il valore indicato dai pallini rossi dovrebbe essere esatto, visto che non richiede alcuna estrapolazione.
Possiamo notare che la consistenza dei due set di dati non è mai perfetta. Tuttavia, mentre per alcune città (come ad esempio Bologna) l’andamento è qualitativamente molto simile, per altre gli ultimi punti si discostano notevolmente.
Ci preme sottolineare il caso di Milano in cui il numero di decessi ISTAT sembra aver avuto una diminuzione notevole nell’ultima settimana. Questo miglioramento non appare affatto nei dati forniti dal SISMG. Sono questi i dati che ci portano ad essere prudenti nella lettura troppo ottimistica dei dati forniti dall’ISTAT: la discesa dopo il picco potrebbe essere un effetto dovuto ai numeri sottostimati negli ultimi giorni forniti dall’Istat. È ragionevole ipotizzare che vi possa essere un ritardo nell’aggiornamento dei dati anagrafici in alcuni comuni.
Bibliografia
[1] http://www.protezionecivile.gov.it/attivita-rischi/rischio-sanitario/eme...
[2] https://www.scienzainrete.it/articolo/epidemiologia-dei-necrologi/luca-c... https://www.scienzainrete.it/articolo/confermato-eccesso-di-mortalit%C3%...
[3] https://www.istat.it/it/archivio/240401
[4] https://naturalstupidity.ghost.io/cosa-ci-dicono-i-dati-istat-in-piu-ris...
[5] https://www.istat.it/it/archivio/240401
[6] https://www.istat.it/it/files//2020/03/Il-punto-sui-decessi_al_16-aprile...
[7] https://www.lavoce.info/archives/65171/morti-da-coronavirus-calcoli-sul-...
[8] http://weekly.chinacdc.cn/en/article/id/e53946e2-c6c4-41e9-9a9b-fea8db1a...
[9] https://covid19.isciii.es/
[10] https://www.epicentro.iss.it/coronavirus/sars-cov-2-decessi-italia
[11] https://globalhealth5050.org/covid19/
[12] http://www.deplazio.net/images/stories/SISMG/SISMG_COVID19.pdf