Quest'anno l'Intelligenza Artificiale ha fatto la parte del leone nei Nobel per la fisica e la chimica. Meglio sarebbe dire machine learning e reti neurali, grazie al cui sviluppo si devono sistemi che vanno dal riconoscimento di immagini alla IA generativa come Chat-GPT. In questo articolo Chiara Sabelli racconta la storia della ricerca che ha portato il fisico e biologo John J. Hopfield e l'informatico e neuroscienzato Geoffrey Hinton a porre le basi dell'attuale machine learning.
Immagine modificata a partire dall'articolo "Biohybrid and Bioinspired Magnetic Microswimmers" https://onlinelibrary.wiley.com/doi/epdf/10.1002/smll.201704374
Il premio Nobel per la fisica 2024 è stato assegnato a John J. Hopfield, fisico e biologo statunitense dell’università di Princeton, e a Geoffrey Hinton, informatico e neuroscienziato britannico dell’Università di Toronto per aver sfruttato strumenti della fisica statistica nello sviluppo dei metodi alla base delle potenti tecnologie di machine learning di oggi.
Perché il lavoro di Hopfield e Hinton sulle reti di neuroni artificiali sia stato premiato con il Nobel per la fisica si può capire leggendo le prime righe dell’articolo pubblicato dallo stesso Hopfield nel 1982. Hopfield, che aveva da poco lasciato Princeton per il California Institute of Technology per dedicarsi a tempo pieno alla neurobiologia, si chiede se la capacità delle reti di neuroni di memorizzare sia dovuta a un comportamento collettivo che emerge spontaneamente in sistemi in cui un gran numero di entità fondamentali interagisce tra loro.
Hopfield si pone questa domanda perché esistono sistemi in fisica in cui accade qualcosa di simile. Un esempio sono i materiali magnetici. Possiamo immaginare un materiale magnetico come un reticolo sui cui vertici sono posizionati atomi. Ogni atomo può avere lo spin verso l’alto o verso il basso. Gli spin conferiscono agli atomi proprietà magnetiche che li spingono a interagire tra loro. Per questo, lo spin di ciascun atomo è determinato da quello di tutti gli altri atomi del reticolo. Studiando questi sistemi, i fisici si erano accorti che esistono degli stati stazionari, che minimizzano cioè l’energia del sistema, in cui gli spin si allineano a gruppi. Emergono così nel materiale “domini magnetici” gruppi di atomi vicini con tutti gli spin allineati. Se alcuni spin vengono ribaltati rispetto allo stato degli altri atomi nel dominio, il sistema col tempo tornerà nello stato stazionario.
In una rete neurale, l’analogo degli atomi sono i neuroni, e l’analogo dello spin è lo stato di attivazione del neurone, “acceso” oppure “spento”. L’analogia può essere estesa anche al tipo di interazione, sulla base di una conoscenza che già all’epoca di Hopfield era condivisa e cioè che le connessioni tra neuroni, le sinapsi, si rinforzano quanto più spesso i neuroni connessi si attivavano simultaneamente in risposta a un certo stimolo (così come l’energia di sistema magnetico scende se due spin vicini si allineano).
Ci si può aspettare quindi che anche in una rete neurale emergano degli stati stazionari, analoghi ai domini magnetici.
L’esistenza di una serie di schemi, che il nostro cervello è in grado di riconoscere, può essere paragonata agli stati stazionari di un sistema magnetico, in quanto se un sistema riceve in ingresso una forma distorta di uno schema che ha già visto in precedenza sarà in grado di associarlo allo schema memorizzato.
Immaginiamo di confrontare la lettera A scritta a mano con una A stampata. Ci saranno delle differenze tra le due immagini: qualche pixel che nella stampa è bianco nella lettera scritta a mano è nero e viceversa. La lettera stampata gioca il ruolo degli stati stazionari del sistema mentre la lettera scritta a mano è una sua perturbazione. Lasciando evolvere il sistema, con il tempo questo raggiungerà spontaneamente uno stato di equilibrio che corrisponde alla configurazione di energia minima più vicina (la lettera stampata).
Apprendere dai dati
Le reti costruite da Hopfield erano deterministiche, nel senso che permettevano di riconoscere un certo numero di schemi precisi, gli stati stazionari. Questo approccio può funzionare per riconoscere lettere scritte a mano, ma non è sufficientemente flessibile per compiti più complessi, come quello di dire se in una certa immagine c’è o meno un cane. Non esiste uno schema preciso di cosa sia un cane. Tra il 1983 e il 1985 Hinton, insieme all’informatico David Ackley e al biofisico Terrence Sejnowski, mise a punto una versione più flessibile della rete di Hopfield, che denominò macchina di Boltzmann. Possiamo immaginare la macchina di Boltzmann come un sistema magnetico in cui gli spin si agitano per effetto della temperatura, che Hopfield aveva fissato a zero. Il “rumore” introdotto dalla temperatura, permette alla macchina di Boltzmann di classificare ciascuna immagine in modo statistico sulla base di un insieme di versioni di quello schema che gli vengono mostrate. Questa capacità è alla base del concetto di allenamento delle reti neurali che tutt’oggi usiamo. Mostriamo alla rete un numero sufficientemente grande e rappresentativo di immagini che contengono cani e la rete diventa capace di riconoscere immagini che contengono cani che non ha mai visto prima.
Verso le reti neurali moderne
Le reti di Hopfield e le macchine di Boltzmann sono chiamate reti neurali artificiali ricorrenti, in cui cioè ciascun neurone può in principio essere connesso a tutti gli altri neuroni della rete. Nella seconda metà degli anni Ottanta Hinton cominciò a lavorare su un altro tipo di reti neurali, chiamate feed-forward. Sono queste le reti che somigliano di più a quelle che usiamo oggi e che animano le applicazioni di maggior successo.
In queste reti, i neuroni sono organizzati in strati ordinati in sequenza, immaginiamo da sinistra verso destra, e l’attivazione dei neuroni di uno strato dipende solamente dagli input che arrivano dai neuroni dello strato precedente. Hinton, insieme allo psicologo David Rumelhart e all’informatico Ronald Williams, mostrarono come fosse possibile utilizzare questo tipo di reti neurali per svolgere compiti di classificazione, usando una particolare strategia di allenamento, chiamata backpropagation. Nel fare questo, gli autori si resero conto che la presenza di strati nascosti di neuroni permetteva di svolgere compiti che prima non erano risolvibili.
Un passo avanti importante arrivò nel 1989, quando Hinton, insieme a Yan LeCun e Yoshua Bengio, capirono che per trattare in modo efficace le immagini era necessario sintetizzare l’informazione contenuta nella sequenza di pixel dell’immagine e proposero un modo per farlo, chiamato convolutional neural network. Questa operazione da una parte diminuisce la complessità della rete neurale (ci sono meno neuroni e quindi meno connessioni), dall’altra tiene conto del fatto che in immagini con tanti pixel ci sono delle correlazioni molto forti, in altre parole la probabilità che pixel adiacenti siano dello stesso colore è molto elevata perché i “riempimenti” occupano superfici molto più grandi dei “bordi”, quelle zone dell’immagine dove invece pixel vicini hanno molto più spesso colori diversi.
Tuttavia, la maggior parte dei problemi concreti richiedeva un numero di strati nascosti troppo grande per le capacità computazionali del periodo. A partire dagli anni 2000 il progresso nelle capacità di calcolo, soprattuto l’introduzione delle GPU, e la grande disponibilità di dati grazie alla diffusione di internet e dei socia media, ha portato le reti neurali profonde, per prime le convolutional neural network, a ottenere nel 2012 un risultato considerato irraggiungibile fino a pochi anni prima nella classificazione delle immagini.
Da quel momento in poi, lo sviluppo e le applicazioni delle reti neurali profonde ha subito un’incredibile accelerazione, in particolare con l’introduzione delle reti neurali chiamate transformer, quelle alla base dei grandi modelli di linguaggio, come ChatGPT di OpenAI e Gemini di Google, capaci di generare testi verosimili, in vari stili e su un gran numero di argomenti. I chatbot sono stati i primi esempi di una categoria di modelli di machine learning chiamata AI generativa, di cui sono poi entrati a far parte anche I sistemi per la generazione delle immagini o video sulla base di una descrizione testuale, fino ai cosiddetti deep fake.
Le capacità dell’IA generativa ha suscitato un acceso dibattito pubblico, che oscilla quotidianamente tra la minaccia esistenziale che questi sistemi costituirebbero per l’umanità, a causa per esempio della loro capacità di generare immagini false ma credibili e quindi contribuire alla disinformazione, e la promessa di sollevare finalmente l’umanità dalla fatica dei lavori più ripetitivi e gravosi e addirittura di potenziarne l’intelligenza.
A questa oscillazione ha contribuito, con segno negativo, anche Hinton quando a maggio dello scorso anno si è dimesso da Google, dove lavorava da circa dieci anni, per poter parlare più liberamente dei rischi posti dalla tecnologia che lui stesso ha contribuito a sviluppare. Hinton si è detto in particolare preoccupato che questi sistemi sfuggano al nostro controllo, e lo ha ribadito anche durante la conferenza stampa di annuncio del Nobel.
Reti neurali per la scienza
Raramente capita che la motivazione di due premi Nobel assegnati lo stesso anno citino gli stessi lavori scientifici, ma quest’anno è successo.
Il lavoro sulle reti neurali profonde avviato e portato avanti dai due vincitori del Nobel per la fisica ha infatti permesso nel 2020 di battere un altro record, quello della previsione computazionale della struttura delle proteine a partire dalla sequenza di aminoacidi che le compongono.
La società specializzata in reti neurali DeepMind, acquisitata da Google nel 2014 per la cifra – all’epoca sorprendente – di 400 milioni di dollari, si aggiudicò quell’anno il primo posto nella competizione CASP (Critical Assessment of techniques for protein Structure Prediction) con l’algoritmo AlphaFold2.
AlphaFold2 aveva ottenuto un punteggio 25 punti superiore a quello del secondo algoritmo in classifica, RoseTTA fold, sviluppato da un gruppo di ricercatori guidati da David Baker, biochimico della University of Washington. Il Nobel per la chimica quest’anno è stato assegnato per metà a due tra gli autori di AlphaFold2, Demis Hassabis, co-fondatore e amministratore delegato di DeepMind, e John Jumper, che di DeepMind è il direttore. L’altra metà del premio è andata a David Baker che ha adattato il suo algoritmo RoseTTA fold per dedurre a partire dalla forma desiderata per una proteina, la sua sequenza di aminoacidi. Questo permette di progettare nuove proteine, che non esistono in natura, capaci di svolgere funzioni completamente nuove.