È il 2 di ottobre; le nubi coprono il cielo di Milano ma le temperatura sono nelle medie stagionali: tra i 10 e i 20 gradi. Nulla giustificherebbe l’acquisto di un girocollo di lana e di un piumino imbottito. Eppure… Non c’è vetrina di negozio di abbigliamento che non esponga i capi più pesanti e caldi di cui disponga. Folli? No bayesiani!
I negozianti non stanno facendo altro che
applicare una delle teorie più discusse e affascinanti della statistica: l’inferenza bayesiana. Nessun timore,
dietro a due parole così sinistre si nasconde solo il seguente ragionamento: l’autunno
e l’inverno sono succeduti all’estate per miliardi di anni. Ora l’estate sta
finendo. Con un’elevata probabilità arriverà l’autunno. Banale? Tutt’altro! A
formalizzare per la prima volta il concetto fu il reverendo britannico Thomas
Bayes ( 1702 – 1761) ma il teorema venne pubblicato postumo nel 1763;
indipendentemente da lui anche Pierre Simone de Laplace arrivò alla sua
enunciazione nel 1774. Da un certo punto di vista il teorema di Bayes non è
nient’altro che l’esplicitazione del metodo scientifico: a partire da una serie
di dati già in nostro possesso possiamo formulare un’ipotesi; collezionando
sempre nuovi dati possiamo continuamente aumentare (o rivedere) il grado di
bontà delle nostre ipotesi. Sostanzialmente il teorema di Bayes ci dice con
quanta probabilità possiamo stimare che una determinata causa abbia generato un
certo evento: una volta ottenuto un preciso risultato possiamo così valutare
quanto questo si accordi con la teoria da cui siamo partiti; è una misura della
bontà dell’ipotesi e della soggettività della ricerca che lo scienziato
conduce.
Per capire meglio, è opportuno citare un esempio fatto Giulio
d’Agostini, professore associato a La Sapienza di Roma: qual è la probabilità
che un cittadino scelto a caso all’interno della popolazione italiana sia
affetto dal virus dell’HIV posto che sia risultato positivo al test?
Considerando che il test dell’HIV può avere lo 0.2% di falsi positivi (ossia
nello 0,2% dei casi l’individuo non ha l’HIV anche se il test risulta positivo)
ma non ha falsi negativi, calcoli alla mano. Il teorema di Bayes ci dice che la
probabilità di avere contratto l’HIV è del 45%: anche a test positivo è quindi
più probabile non avere l’HIV. Calcoli simili si possono fare per i test
diagnostici di tumori o sindrome di down. Soprattutto in ambito medico la
statistica Bayesiana risulta essere particolarmente utile e, al contempo ,
misconosciuta; ecco perché la Food and
Drug Administration, l'ente governativo statunitense che si occupa della
regolamentazione dei prodotti alimentari e farmaceutici adotta per i propri
trial la statistica bayesiana e riporta sulle pagine del proprio sito un’intera
sessione dedicata all’argomento. Ciò non significa che la statistica
“frequentista” sia errata: un buon frequentista e un bayesiano arriveranno alla
determinazione delle stessa probabilità; il teorema di Bayes offre uno
strumento per non incappare in errori spesso nascosti e insidiosi nella
distribuzione della probabilità: è un bastone a cui appoggiarsi per evitare gli
ostacoli del senso comune.
L'importante è non trovare la capra
Già perché il senso comune spesso ci induce all’errore. Un caso tipico è quello del Monthy Hall, un gioco a premi americano (Let’s make a deal) il cui conduttore Maurice Halprin, era noto con lo pseudonimo di Monty Hall. Nel gioco il concorrente è posto davanti a tre porte chiuse ed è invitato a indovinare dietro quale delle tre porte si celi l’automobile in palio; dietro alle altre due porte si trovano due capre. Supponiamo ora che il partecipante scelga la porta 1; prima di aprirla e scoprire cosa c’è dietro di essa il conduttore che sa dove sta l’automobile (questo è un punto fondamentale) apre la porta 3 dimostrando che dietro di essa si trova una capra. A questo punto il conduttore chiede al partecipante se vuole cambiare la porta. Noi cosa faremmo? Il senso comune ci direbbe che la scelta è indifferente perché esiste il 50 % di possibilità che l’auto sia dietro la porta 1 o dietro la porta 2; un bayesiano al contrario cambierebbe subito la porta 1 con la porta 2 perché saprebbe in questo modo di raddoppiare la probabilità di vincita. Ecco perché: quando il concorrente è davanti alle tre porte ha il 33,3% di possibilità di trovare l’auto dietro ogni porta. Sceglie la porta 1 con una possibilità di vittoria del 33,3%; questo significa che nel 66,6% dei casi l’auto sarà dietro la porta 2 o 3; aprendo la porta 3 e scoprendo dietro di essa una capra, il 66,6% di trovare l’auto ricadrà interamente sulla porta 2.
Il punto fondamentale
che porta a una distribuzione diversa da quella suggerita dal senso comune sta
nel fatto che il conduttore non è libero di aprire una porta a caso ma deve
necessariamente aprire una porta dietro la quale vi sia una capra; è la
conoscenza del dato che cambia la distribuzione statistica; provare per
credere!
Verrebbe da chiedersi perché un teorema così utile sia stato quasi
dimenticato per secoli; la motivazione è che il calcolo necessaria per
svilupparlo correttamente nei casi complessi è tutt’affatto banale. Solo con i
moderni calcolatori possiamo essere in grado di applicare l’inferenza bayesiana
a una serie di variabili (o nodi) ricostruendo quelle che vengono chiamate reti
bayesiane in grado di monitorare sistemi complessi; le reti bayesiane e i software
implementati per la loro costituzione sono utili oggi per l’individuazione
della malattia di cui è affetto un individuo (posto che più malattie possano
dare gli stessi sintomi) facendo incrociare sintomi e stili di vita; vengono
usate nei filtri anti-spam oppure nei musei per realizzare narrazioni audiovisive in funzione del
percorso intrapreso e del tempo speso da un visitatore nelle diverse sale di
museo. Oggi il “controverso teorema” sta vivendo un momento di grande successo,
comparendo sia in articoli di riviste
scientifiche (circa un quarto degli articoli scientifici usa la statistica
bayesiana) sia in review e commenti di varia dal campo della giurisprudenza a
quello dell’economia, passando per le telecomunicazioni.
Ma non è sempre stato
così: il piccolo gruppo di statistici bayesiani attivi in America durante la
presidenza McCarthy venivano considerati “un-American”
e definiti dai loro colleghi dell’Harvard Business Scholl “socialist and so-called
scientist”.
E se ora scriverete “bayesian statistic” su Google per averne un
quadro più completo vi renderete conto di quante applicazioni possa avere un
solo teorema, senza dimenticare che Google stesso farà la sua ricerca usando,
ovviamente, algoritmi bayesiani.