martedì 24 marzo 2020

Le trappole della Statistica

La Statistica si illude di costringere la Natura entro i suoi modelli,
ma la Natura ignora la Statistica e fa quello che vuole

L’arrivo (speriamo presto confermato) del tanto atteso picco dei nuovi contagi giornalieri cambia radicalmente l’approccio che dovremo seguire per analizzare il flusso dei dati che arriveranno nelle prossime settimane. Alcune approssimazioni che avevano senso durante la fase iniziale dell’epidemia non sono più valide e possiamo finalmente tentare di dare una prima grossolana stima dei danni complessivi che ci aspettiamo di registrare alla fine dell’epidemia. In questo post cercherò di delineare quale potrebbe essere una possibile strategia per la futura analisi dei dati.

Partiamo da un parametro che ormai ci è familiare perché lo abbiamo monitorato costantemente durante le settimane precedenti: il tempo di raddoppio dei casi. Questo parametro è molto importante nella fase iniziale dell’epidemia, quando ancora non sappiamo dove andremo a parare. Oggi, superato il massimo dei contagi giornalieri, possiamo già dire che – a meno di  improbabili recrudescenze dell’epidemia (che tutti speriamo non ci saranno!) – tutti i nuovi casi di contagio che avverranno nelle prossime settimane saranno inferiori rispetto ai casi accumulati fino ad oggi. Quanti di meno, dipende da quanto saremo capaci a ridurre R0 il più possibile vicino a zero (vedi post di ieri dedicato alla durata dell’epidemia). È facile capire che a questo punto non ha più senso domandarci quanto sia attualmente il tempo atteso per il raddoppio dei contagi perché alla fine dell’epidemia certamente il numero complessivo dei casi sarà minore del doppio dei casi contati fino ad oggi. In altre parole, salvo recrudescenze dell’epidemia, al raddoppio non ci arriveremo mai.

Vediamo ora un semplice esempio matematico che ci permette di capire meglio quanto espresso sopra. Per descrivere l’andamento dell’epidemia userò la cosiddetta funzione logistica. Eviterò la matematica e mi limiterò a mostrare i risultati. I più esperti potrebbero obiettare che è un grave errore concettuale pensare di utilizzare una semplice equazione logistica per descrivere l’andamento dei contagi in una epidemia durante la quale sono cambiate, nel corso del tempo, le condizioni di propagazione del contagio senza attendere il famoso “effetto gregge” (presenza crescente di guariti nella popolazione). Personalmente ritengo che, almeno in parte, l’effetto gregge ci sia stato, specialmente in talune zone della provincia di Bergamo. Questo però lo sapremo solo dopo una attenta analisi della presenza di anticorpi nella popolazione. Comunque l’obiezione è giusta. L’approccio è grossolano e sovrastima i nuovi casi che registreremo da ora in avanti, ma il modello è semplice e ci fa comunque capire come vanno le cose.


Nella figura che segue riportiamo tre informazioni relative all’epidemia calcolate con il modello logistico: numero complessivo dei contagi, nuovi contagi giornalieri e tempo di raddoppio dei contagi complessivi, T2. La linea tratteggiata verticale indica il momento in cui il numero dei nuovi contagi giornalieri raggiunge il massimo, corrispondente al punto di flesso della curva dei contagi complessivi.


La cosa interessante da notare è che l’andamento del tempo di raddoppio dei casi cresce, sia pure lentamente per tutta la durata iniziale dell’epidemia, quella che nel nostro grafico appare come una linea retta. È più o meno quello che abbiamo osservato durante le due scorse settimane. Il tempo di raddoppio diverge quando si ci avvicina al punto di flesso della curva dei contagi complessivi (linea nera tratteggiata verticale). A destra della linea tratteggiata verticale il tempo di raddoppio non è mostrato semplicemente perché non è più calcolabile. Infatti arrivati al punto di flesso abbiamo accumulato la metà di tutti i contagi che conteremo alla fine dell’epidemia. Passato quel punto, non ha più senso chiederci quanto tempo ci vorrebbe per un ulteriore raddoppio perché un ulteriore raddoppio non potrà mai verificarsi.


Nel mondo reale, non trattiamo funzioni matematiche ma dati sperimentali con i loro errori sistematici e le loro fluttuazioni. Finché siamo nella fase esponenziale dell’epidemia ha senso calcolare il tempo di raddoppio mediando su un congruo numero di giorni in modo da evitare di dare troppa importanza alle fluttuazioni dei dati. Quando ci avviciniamo al flesso della curva dei contagi complessivi le valutazioni di T2 diventano poco affidabili perché o siamo in presenza di una divergenza oppure l’abbiamo già passata e siamo in una zona dove (fortunatamente) non ha più senso parlare di tempo di raddoppio. Quindi da ora in poi, abbandoniamo le stime dei tempi di raddoppio, augurandoci di non doverle più calcolare.

Passiamo ora ad un altro argomento. Nei giorni scorsi abbiamo discusso di come si possa fare una valutazione sia pur tardiva del numero effettivo dei contagi, valutando il numero dei decessi e quello delle persone che hanno avuto necessità di un ricovero ospedaliero. Questa valutazione parte dalla ipotesi che tutte le persone che abbiano necessità di essere ricoverate in ospedale siano effettivamente accolte. Difficile sostenere che questo sia vero perché talvolta si preferisce assistere a domicilio le persone in condizioni critiche che abbiano una scarsissima probabilità di trarre beneficio dalle cure che possono essere praticate nelle strutture ospedaliere e, in particolare, nelle terapie intensive. La situazione si sta complicando ulteriormente perché in questi giorni molte regioni stanno organizzando strutture per accogliere persone ancora contagiose, ma che abbiano superato la fase critica della malattia. Non chiamiamo queste strutture “lazzaretti”, ma più o meno l’idea è quella. Queste iniziative sono importanti perché il picco dei ricoveri ospedalieri avverrà in ritardo rispetto al picco dei nuovi contagi giornalieri e se non si liberano i posti occupati dai malati ricoverati nelle settimane precedenti la situazione potrebbe farsi ancora più critica di quanto non sia già adesso. Ai fini statistici però registreremo senz’altro delle forti anomalie sui dati che andremo ad analizzare. Ad esempio, a Genova è stata attrezzata a tempo di record una nave ospedale dove è già iniziato il trasferimento di pazienti non gravi che erano ricoverate nei nosocomi cittadini. Ci aspettiamo quindi nei prossimi giorni una riduzione del numero delle persone che risultano ufficialmente ricoverate in ospedale, ma tale riduzione non potrà essere correlata all’andamento dei contagi.


Che informazione ci vorrebbe per poter capire meglio cosa succede? In questi momenti tragici può sembrare irrispettoso porsi questa domanda. Non sono solo numeri, ma sono persone che soffrono e talvolta muoiono. Bisogna però capire che avere dati affidabili non serve solo per la curiosità degli statistici, ma serve piuttosto per valutare l’efficacia delle azioni di contenimento del contagio e per capire quando tali azioni potranno essere rese meno rigide. Tra tutti i dati disponibili quello che, a mio avviso, potrebbe fornirci più informazioni, è quello dei nuovi ricoveri giornalieri. Attualmente viene fornito il dato delle persone attualmente ricoverate, dato che risente di entrate ed uscite, ma i dettagli sulle entrate non sono noti (o meglio, qualcuno li ha, ma non vengono pubblicati). Bisognerebbe anche sapere quale è il numero dei nuovi contagiati che, pur essendo in gravi condizioni, non vengono ricoverati per i motivi che ho illustrato sopra. Con questi numeri si potrebbe tentare una valutazione del numero effettivo di nuovi contagi, sia pure con un ritardo di circa 10 giorni rispetto ai dati reali. Vedremo nei prossimi giorni se sarà possibile effettuare questa analisi.





Nessun commento:

Posta un commento