venerdì 27 marzo 2020

Perché i dati fluttuano?

Ieri (26 marzo) abbiamo assistito ad una giornata che potrei definire di “delirio statistico”. Nel pomeriggio il Governatore Fontana ci ha fatto partecipi delle sue preoccupazioni a causa dell’aumento dei contagi rilevati in Lombardia. Idea colta al balzo dal circo mediatico che si è subito scatenato sulle ipotesi più pessimistiche. Qualcuno è arrivato a ipotizzare che Milano sia destinato a diventare una sorta di nuova Bergamo e così via.

In questi giorni ho più volte ribadito l’idea che bisogna tenere l’attenzione sempre alta, ma non si possono cogliere trend sulla base di dati temporalmente limitati. Bisogna avere pazienza: non dobbiamo esaltarci per un paio di giorni di dati in ribasso, né deprimerci per una fluttuazione in salita. Siamo così presi dall’ossessione del “picco”, da aver dimenticato (o,  ahimè, non ancora capito) che un conto sono i modelli matematici e un conto sono i dati reali. Madre Natura segue regole ben precise, incurante delle nostre speranze e delle nostre paure. Ma i numeri che vengono raccolti quotidianamente sono il frutto di campionamenti statistici soggetti a fluttuazioni che possono essere percentualmente rilevanti. Quanto siano grandi queste fluttuazioni lo potremo stimare solo alla fine, facendo una analisi complessiva dei dati. Qui mi limiterò a spiegare quali siano le cause principali delle fluttuazioni, senza ricorrere a teoremi matematici, cercando di farmi capire anche grazie a semplici esempi.

Partiamo dal dato dei nuovi contagi, quello che dovrebbe mostrare il famoso “picco”. Credo che oggi tutti siano finalmente coscienti del fatto che il numero dei contagi “ufficiali” sia molto inferiore rispetto a quello dei contagi effettivi. Quanto inferiore non lo sappiamo: potrebbe essere 1/5, 1/10, qualcuno ipotizza che sia addirittura 1/100. Faccio un esempio che non è rigoroso, ma ci aiuta a capire. In pratica è come se stessimo misurando l’altezza della punta di un iceberg in un mare in tempesta per avere un’idea di quanto l’iceberg sia grande. La distanza tra la cima dell’iceberg ed il livello del mare dipende non solo dalle dimensioni dell’iceberg, ma anche dall’altezza delle onde. Ovviamente se l’iceberg si scioglie, mediamente misureremo una altezza decrescente in funzione del tempo. Ma le singole misure potranno fluttuare entro ampi margini.

Ci sono poi da tener presente gli effetti sistematici. Sappiamo che – finalmente – c’è una tendenza ad aumentare il numero di test, abbandonando progressivamente lo sciagurato approccio iniziale che limitava il test ai sintomatici più gravi (a meno che non fossero calciatori di serie A!). Tornando all’esempio del nostro iceberg è come se ci fossero distacchi di ghiaccio dai bordi emersi dell’iceberg, lasciando intatta la punta dell’iceberg. Un po’ come quando fate la punta alla matita, tagliando il legno, ma stando attenti a non spezzare la parte centrale in grafite. La famosa legge di Archimede ci dice che la massa della parte emersa dell’iceberg corrisponde a circa il 10% della massa totale. Se “facciamo la punta” alla parte emersa dell’iceberg, succede che l’altezza della parte emersa aumenti, anche se la massa complessiva dell’iceberg scende. Quindi, dal punto di vista della nostra misura dei contagi otterremo un risultato non confrontabile con i dati dei giorni precedenti.

Una ulteriore importante causa di fluttuazione dei dati giornalieri è legata ai possibili sfasamenti temporali. Sappiamo che il completamento dei test richiede tempi che possono arrivare anche ad alcune ore. Inoltre è facile immaginare che soprattutto dove l’epidemia è esplosa le strutture dedicate all’analisi dei campioni si trovino in condizioni di stress estremo. C’è il rischio che i dati arrivino in ritardo andando a ridurre artificialmente la misura giornaliera, salvo andare a produrre un aumento della misura stessa nel giorno successivo. Se i ritardi fossero costanti non sarebbe un grosso problema, ma temo che non sia così.

Un commento infine sulle fluttuazioni intrinseche dei risultati statistici, con particolare attenzione ai casi in cui il valore sia piccolo in assoluto (diciamo inferiore a circa 100). Prendete nota di questa osservazione perché sarà di importanza cruciale quando finalmente arriveremo nella fase calante dell'epidemia e dovremo decidere come e quanto allentare le restrizioni alla mobilità personale. Salto tutti i dettagli, ma gli studenti volenterosi possono approfondire l’argomento e in particolare studiare come la distribuzione di Poisson possa essere utilizzata per prevedere le fluttuazioni statistiche intrinseche dei cosiddetti eventi rari. Facendo le cose nel miglior modo possibile, assumendo che il valore esatto della quantità che stiamo misurando sia N, da un punto di vista statistico ci aspettiamo che il risultato della nostra misura possa assumere un ampio ventaglio di valori (interi) all’interno di un intervallo che è centrato intorno a N. Quanto ampio? I fisici esprimono i loro risultati nella forma N ± Δ, ovvero non parlano di un valore, ma piuttosto di un intervallo di valori che va da N - Δ a N + Δ. Nel caso di eventi rari si può dimostrare che, ripetendo lo stesso esperimento nelle stesse identiche condizioni, in circa 2/3 dei casi, i risultati dei singoli esperimenti cadranno entro un intervallo di semi-ampiezza Δ = N1/2 (N1/2 altro non è che la radice quadrata di N). Se volessimo ampliare il livello di confidenza, potremmo considerare che in oltre il 99% dei casi (un numero molto vicino al 100%, ma mai il 100%)  Δ = 3 N1/2. Quindi supponendo che sia  N = 25, in circa 2/3 dei casi otterremo un risultato che cadrà entro l’intervallo 20-30, ed in quasi la totalità degli esperimenti  avremo un risultato nell'intervallo che va da 10 a 40. Questo ci fa capire quanto sia difficile, sulla base di un singolo esperimento, attribuire pieno significato statistico a numeri piccoli. Questo fatto pone un limite intrinseco alla nostra possibilità di disaggregare i dati, considerando campioni statistici di dimensioni ridotte.

I fisici sono persone fortunate perché nei loro laboratori possono ripetere i loro esperimenti molte volte fino a che non ottengono dati statisticamente significativi. Lo stesso non vale per gli epidemiologi, soprattutto se gli chiedete di stimare quale è l’andamento giornaliero di una epidemia. L’esperimento è uno solo, irripetibile, e noi siamo contemporaneamente osservatori e cavie. Tuttavia il concetto illustrato sopra è sempre valido. Attenzione ad attribuire significato a cambiamenti che siano dell’ordine di grandezza della radice quadrata del valore misurato!

Morale della favola: dobbiamo tutti avere pazienza. E i fortunati che stanno al sicuro in casa loro e godono di buona salute, se non hanno di meglio da fare, possono studiare la distribuzione di Poisson. È un potente anticorpo contro i virus della cattiva informazione.

Nessun commento:

Posta un commento