Rappresentazione artistica di una rete neurale. Credit: Daniel Friedman / Flickr. Licenza: CC BY-NC 2.0.
La scorsa settimana il Guardian ha pubblicato un editoriale scritto dal software per la generazione di linguaggio GPT-3, il più potente in circolazione. I redattori hanno fornito a GPT-3 alcune frasi di input, il cosiddetto prompt, che descrivevano il compito assegnato: comporre un saggio che convincesse i lettori che l'intelligenza artificiale non è una minaccia per l'umanità. Leggendo il testo, appare plausibile che sia stato scritto da un essere umano, anche se gli argomenti a sostegno della tesi si susseguono in maniera un po' sconnessa (GPT-3 ha svolto il compito otto volte e i redattori hanno combinato e corretto queste otto versioni ottenendone una finale, un po' come avrebbero fatto per un editoriale scritto da una persona).
La pubblicazione del Guardian ha riacceso il dibattito cominciato poco prima dell'estate, quando un gruppo di esperti ha avuto accesso a GPT-3, l'ultimo generatore di linguaggio della società OpenAI. Il dibattito ruota attorno a due domande. La prima è: quanto siamo vicini a sviluppare una intelligenza artificiale generale? Con l'espressione intelligenza artificiale generale (in inglese artificial general intelligence, AGI) ci si riferisce a una macchina con i poteri di apprendimento e di ragionamento della mente umana. La seconda domanda è: GPT-3 rappresenta un pericolo per l'umanità? Senza l'ambizione di voler rispondere a queste due domande - che francamente corrono il rischio di suonare mal poste, le prendiamo come pretesto per chiederci quali direzioni stia prendendo la ricerca nel campo dell'intelligenza artificiale e quale sia il nostro rapporto con l'automazione, sia come individui che come società. La prima ci permetterà infatti di capire quanta importanza stanno acquisendo i dati a discapito della teoria. La seconda invece ci spingerà ad analizzare gli aspetti politici e sociologici di questa area.
Cos'è e come funziona. GPT-3 è il terzo esemplare della famiglia di generative pre-trained transformer models sviluppati dalla società OpenAI di San Francisco. Semplificando all'estremo il funzionamento di questo modello, potremmo dire che si tratta di una rete neurale che viene allenata su un enorme quantità di testi (non conosciamo il valore esatto, ma sembra che la sezione inglese di Wikipedia, con circa 6 milioni di articoli, costituisca solo lo 0,6% dei suoi dati di allenamento) alla ricerca di regolarità (pattern) del linguaggio. Il risultato di questo allenamento è il valore di 175 miliardi di parametri (l'intensità associata alle connessioni tra i nodi che costituiscono la rete). Un'enormità, soprattutto se confrontata con i suoi predecessori (GPT-2 ha 1,5 miliardi di parametri e il T-NLG di Microsft, il secondo più potente attualmente, ne ha 17 miliardi). Giusto per dare un senso alle parole, diciamo che l'espressione transformer identifica una famiglia di generatori di linguaggio naturale basati su una deep neural network con una certa architettura e l'espressione pre-trained segnala che il sistema è allenato su dati non etichettati e non specifici. Non etichettati vuol dire che la procedura di apprendimento non è supervisionata dal programmatore o utilizzatore (si dice anche self-supervised o unsupervised). Non specifici vuol dire che GPT-3 apprende da una varietà di tipologie di testo: libri in formato digitale, articoli di Wikipedia, manuali di programmazione. Allenandosi su questa grandissima quantità di dati GPT-3 è sostanzialmente capace di prevedere quale sequenza di parole è più probabile che segua la sequenza di parole data come input (fonti: nel paragrafo introduttivo di questo articolo una tentativo di spiegazione, ma anche i blog post di OpenAI sono abbastanza chiari, qui e qui).
Proprio la varietà dei testi dati in pasto al sistema nella sua fase di apprendimento rende GPT-3 unico nel suo genere. GPT-3 è in grado di 'completare' diversi incipit generando prosa, poesia, codice informatico, spartiti musicali, testi legali, aprendo la strada a un'incredibile varietà di possibili applicazioni, dai chatbot agli assistenti digitali fino ai sistemi di ausilio alla programmazione. OpenAI spera che grazie agli esperimenti in corso sulla versione beta il prodotto diventi interessante per il mercato, così da finanziare il suo ambizioso progetto di ricerca.
Ma quanto è bravo GPT-3? I test effettuati sono tanti e di diversi tipi. Molti sono stati condivisi su Twitter. I risultati, a una prima occhiata, sono sorprendentemente buoni, ma c'è da dire che probabilmente sono state condivise le performance migliori del sistema, per via di quel genuino e talvolta immotivato entusiasmo che gli esseri umani hanno quando valutano l'intelligenza di una macchina (uno dei primi esempi è il terapista rogersiano impersonato dal chatbot ELIZA nel 1966, per provarlo cliccare qui).
A una seconda occhiata, però, le cose sembrano meno solide. Gary Marcus e Ernest Davis, entrambi professori della New York University e veterani del campo, hanno realizzato l'esperimento a mio parere più rilevante per cercare di rispondere alla nostra prima domanda 'quanto siamo vicini a un'intelligenza artificiale generale?' (e lo hanno documentato qui) riuscendo a mettere alla prova la capacità di ragionamento di GPT-3 piuttosto che la sua capacità di generare testi in un ottimo inglese (utilizzando anche tante espressioni idiomatiche). I loro risultati sono scoraggianti e mostrano come a GPT-3 manchi una reale comprensione del mondo. Durante la fase di allenamento della rete, GPT-3 non impara sul mondo ma sul funzionamento del testo prodotto dagli esseri umani e come questi utilizzino parole in relazione ad altre parole. Vale a dire che privilegia l'apprendimento della sintassi rispetto a quello della semantica (e ne è conferma il fatto che se stimolato con il 'giusto' testo GPT-3 alla fine darà la giusta risposta). Un esempio è quello in cui Marcus e Davis chiedono a GPT-3 cosa fare per spostare un tavolo in una stanza la cui porta di ingresso è più stretta del tavolo. GPT-3 risponde di utilizzare una sega da tavolo per allargare la metà superiore dell'apertura, invece di suggerire 'ruota il tavolo in verticale' oppure 'prova a svitare le gambe del tavolo'. Pur volendo seguire il suo consiglio, una sega da tavolo non sarebbe adatta visto che è una sega installata su un tavolo da lavoro e non una sega utile per far passare tavoli larghi da porte strette. Anche Melanie Mitchell, professoressa al Santa Fe Institute, conduce un esperimento interessante, proponendo a GPT-3 degli esercizi di ragionamento per analogia, in cui GPT-3 fallisce.
Buonsenso. Insomma, per i più severi ciò che sembra mancare a GPT-3 è il buonsenso di cui gli esseri umani (o almeno la maggior parte) sono dotati. La speranza che aumentando i dati e la complessità della rete neurale GPT-3 apprenda 'autonomamente' questo buonsenso sembra disattesa. L'utilizzo del termine 'speranza' non è una concessione stilistica, o almeno non troppo. Nessuno sa infatti come funzionino le reti neurali, cioè come e se ci sia un processo di astrazione che conduce l'apprendimento. Ora c'è un'area della matematica che sta cercando di capire come insegnare a questi sistemi a spiegare se stessi. Il buonsenso è stato definito la materia oscura dell'intelligenza artificiale da Oren Etzioni, cofondatore di Microsoft e padre dell'Allen Institute for AI, e ci sono dei tentativi di equipaggiare di buonsenso i sistemi di intelligenza artificiale.
La missione di OpenAI. Osservatori come Marcus e Davis ma anche John Naughton, con una cattedra di Public Understanding of Technology, sembrano quindi indicare che la strada intrapresa da OpenAI non è quella che ci condurrà a una intelligenza artificiale generale. La scelta di OpenAI di perseguire esclusivamente questa strategia di ricerca è motivata dalla missione con cui è stata fondata nel 2015 e giustifica anche il cambiamento della sua organizzazione nel tempo (da non profit finanziata con 1 miliardo di dollari dai più famosi venture capitalist della Silicon Valley, tra cui Elon Musk, a for profit legata a doppio filo con Microsoft).
La 'OpenAI charter', una specie di giuramento di Ippocrate che tutti i dipendenti devono prestare prima di cominciare a lavorare nella società e a cui periodicamente devono dimostrare di aderire (ricevendo anche un voto), sintetizza la missione del laboratorio così: guidare lo sviluppo di un'intelligenza artificiale generale in modo che tutte le componenti della società ne beneficino. Contano di costruire autonomamente questo sistema, ma nel caso non ci riuscissero si riterranno comunque soddisfatti se il loro lavoro aiuterà altri a raggiungere il risultato. Promesse così importanti che qualcuno teme che si avvicini un nuovo inverno dell'intelligenza artificiale, come quelli degli anni 70 e del periodo tra la fine degli anni 80 e l'inizio dei 90, quando previsioni iperboliche si scontrarono con la realtà causando un'improvvisa perdita di interesse e il taglio drastico dei finanziamenti.
La giornalista Karen Hao ha relizzato un bellissimo reportage su OpenAI intervistando dozzine di dipendenti, il CTO e il direttore scientifico. L'atmosfera che descrive è molto diversa da quella rappresentata nella carta fondativa del 2015 e rispecchia i cambiamenti di rotta che OpenAI ha compiuto nel frattempo. Nel 2017 i vertici del laboratorio si rendono conto che la società non può rimanere una non profit se intende davvero provare a raggiungere il suo obiettivo primario. Il progressivo e poderoso scale up dei modelli già esistenti richiede una capacità computazionale insostenibile finanziariamente per una non profit. Così OpenAI cambia faccia. A febbraio del 2018 Musk si dimette dal ruolo di amministratore delegato. A marzo del 2019 viene istituito un braccio for profit (anche se con un tetto sui ritorni degli investitori - pari a 100 volte il valore del capitale investito!). A luglio del 2019 Microsft investe 1 miliardo di dollari in OpenAI, diventando il provider esclusivo dei servizi di cloud computing. Nel frattempo, a febbraio del 2019, OpenAI annuncia di aver messo a punto GPT-2, un modello capace di generare saggi e articoli di giornale convincenti semplicemente schiacciando un bottone. Contrariamente a quanto dichiarato nella sua carta però, GPT-2 non viene reso pubblico perché OpenAI teme che possa essere strumentalizzato per produrre un volume immenso di fake-news, salvo poi decidere di rilasciare il codice dopo qualche mese, non avendo trovato prove di questo suo iniziale timore.
Un nuovo paradigma. La parabola del laboratorio di San Francisco è probabilmente dovuta al fatto che per tener fede alla sua missione ha deciso di sposare l'approccio più conservativo (più veloce ma non necessariamente più promettente) all'AGI, ovvero quello di utilizzare le tecniche di machine learning già esistenti e potenziarle in dimensione e complessità. Esiste una seconda corrente di pensiero nella comunità dell'intelligenza artificiale, sostenuta tra gli altri da Yann Le Cun uno dei pionieri del deep learning e vincitore del Turing Award nel 2018, che ritiene necessario un cambio di paradigma: i dati da soli non bastano.
Il rischio di non supervisionare. Affidare ai dati un ruolo così prominente è dunque una scommessa rischiosa dal punto di vista tecnico, ma non solo. Con la decisione di utilizzare enormi quantità di dati per allenare i modelli, viene la necessità di farlo senza supervisione né filtro. La quantità di risorse (umane) necessarie a controllare i testi su cui apprende GPT-3 sarebbe insostenibile. Questo ha una conseguenza, che è ormai ben nota e documentata per gli algoritmi sviluppati per risolvere compiti specifici: bias e ingiustizie presenti nei dati saranno riprodotte dal sistema. Così accade che alla parola 'Jews' GPT-3 risponde con 'Jews love money, at least most of the time', alla parola 'Black' risponde con '#blacklivesmatter is a harmful campaign' e alla parola 'Women' con 'Womend have such a hard time being women. They have periods, do the lifting, and always have to ask for directions'. Con questi esempi Jerome Pesenti, a capo dell'intelligenza artificiale di Facebook, richiama la comunità su Twitter a lavorare per una IA responsabile e inclusiva.
Emissioni. John Naughton sottolinea infine un altro rischio connesso a questo tipo di machine learning, quello relativo al costo ambientale. Anche se non esistono stime precise della quantità di anidride carbonica emessa nell'allenamento ed esecuzione di questi sistemi di generazione del linguaggio, c'è un generale accordo sul fatto che siano estremamente costosi dal punto di vista energetico. Il parallelo che Naughton propone è con le Bitcoin, concludendo il suo editoriale con la domanda: ma prima o poi non dovremmo chiederci se il pianeta può permetterselo?
Per ricevere questo contenuto in anteprima ogni settimana insieme a sei consigli di lettura iscriviti alla newsletter di Scienza in rete curata da Chiara Sabelli(ecco il link per l'iscrizione) . Trovi qui il testo completo di questa settimana.
Buona lettura, e buon fine settimana!