finesettimana #28
16 aprile 2021
a cura di Chiara Sabelli

Buon venerdì,
questa settimana parliamo del linguaggio della scienza, della regolamentazione UE sull'intelligenza artificiale, dello sversamento nell'Oceano Pacifico dell'acqua contaminata del reattore nucleare di Fukushima, degli embrioni di scimmia in cui sono state traferite cellule staminali umane, dei T-Rex e diamo gli ultimi aggiornamenti su COVID-19.
Abbiamo poi intervistato Dirk Hovy, linguista computazionale dell'Università Bocconi, riguardo ai rischi posti dai modelli di linguaggio che apprendono da database di grandi dimensioni attraverso un enorme numero di parametri. Un articolo scientifico sui rischi posti dall'utilizzo di questi modelli in tecnologie come i motori di ricerca, gli assistenti vocali o i chat bot, ha recentemente causato il licenziamento di due autorevoli ricercatrici del gruppo Ethical AI di Google e, la scorsa settimana, le dimissioni di Samy Bengio, direttore di Google Brain.
Buona lettura (per segnalare questa newsletter agli amici ecco il link per l'iscrizione)

SEI PEZZI BELLI

1 Il gergo scientifico confonde anche gli scienziati
Analizzando i titoli e gli abstract di 21 mila articoli scientifici due ricercatori del CNR hanno osservato che quelli che contengono più espressioni gergali e tecniche hanno meno probabilità di essere citati. I risultati sono stati pubblicati sui Proceedings della Royal Society B [New York Times]

2 L'Unione Europea potrebbe limitare fortemente l'uso di sistemi automatici da parte delle società tecnologiche
È quanto si legge in una bozza della proposta di Regolamento sull'intelligenza artificiale circolata in questi giorni e la cui versione definitiva dovrebbe essere resa pubblica la prossima settimana. Le società potrebbero andare in contro a multe fino al 4% dei loro utili se impiegassero algoritmi discriminatori e lesivi dei diritti fondamentali dei cittadini. La bozza parla di un'intelligenza artificiale centrata sulle persone, proponendo di sottoporre a scrutinio aggiuntivo i sistemi utilizzati per dare accesso al credito, selezionare il personale, aiutare i giudici nelle loro decisioni, autorizzare i visti o gestire gli strumenti di previdenza sociale [New Scientist]

3 L'acqua contaminata del reattore nucleare di Fukushima verrà sversata nell'Oceano Pacifico
Il governo giapponese ha dichiarato che questa è la strategia più sicura ed efficace per riportare in sicurezza la centrale nucleare Daiichi danneggiata dallo tsunami di 10 anni fa e per evitare la fusione del nocciolo. I paesi vicini e i pescatori della zona hanno protestato, ma l'Agenzia internazionale per l'energia atomica supporta la decisione del Giappone perché gli isotopi più pericolosi verranno filtrati e le acque verranno diluite per portare la concentrazione delle sostanze pericolose sotto i livelli di sicurezza [The Guardian]

4 Per la prima volta embrioni di scimmia contenenti cellule staminali umane si sono sviluppati fino a 19 giorni dopo la fecondazione
È la prima volta che questo esperimento riesce con successo. Finora era stato possibile solo in embrioni di maiale o mucca. La speranza dei ricercatori è che le conoscenze acquisite possano portare alla costruzione di modelli animali miglio di quelli esistenti per testare i farmaci oppure alla crescita di organi più compatibili per trapianti. Ma gli scienziati contestano l'utilizzo di embrioni di primati non umani. La regolamentazione per queste specie è molto più stringente rispetto a quella valida, ad esempio, per i roditori. Gli autori della nuova ricerca si difendono, dicendo che non hanno in programma di impiantare questi embrioni. Il loro lavoro potrebbe piuttosto aiutare a capire perché finora i tentativi di trasferire cellule umane in embrioni di topi sono falliti [Nature]

5 La popolazione dei Tyrannosaurus rex in Nord America sarebbe stata composta da 20 mila esemplari
È la stima ottenuta da un gruppo di biologi evoluzionisti della University of Berkeley e pubblicata sull'ultimo numero d Science. Per ottenere questo risultato i ricercatori hanno sfruttato una relazione matematica formulata da John Damuth della University of California, Santa Barbara, che di solito si usa per le specie animali moderne. Questa relazione, chiamata legge di Damuth, permette di stimare la dimensione di una popolazione a partire dal peso e dal tipo di metabolismo dei suoi componenti. La stima ottenuta (20 000 T-Rex viventi in media) implicherebbe che in totale il numero di questi predatori vissuti sulla Terra sarebbe di 2,5 miliardi. Tuttavia, il numero ha un ampio margine di incertezza e potrebbe arrivare fino a 100 000 o 200 000 esemplari [New York Times]

6 Aggiornamenti COVID-19
   × Martedì CDC e FDA hanno deciso di sospendere la somministrazione del vaccino Johnson & Johnson negli Stati Uniti dopo la segnalazione di sei casi di trombosi rara, del tipo osservato in Europa fra i vaccinati con AstraZeneca, tra i 6,8 milioni di persone che hanno ricevuto una dose del farmaco. Tutti i casi si sono verificati in donne fra i 18 e 48 anni [Science]
   × Il Consiglio di Europa ha accettato di negoziare i dettagli di un green digital certificate per vaccinati, guariti e negativi [Reuters]
   × Dall'analisi dell'epidemia in corso a Manaus, città nel nord del Brasile, la variante P.1 potrebbe essere da 1,7 a 2,4 volte più trasmissibile delle varianti storiche circolanti localmente. L'immunità acquisita tramite l'infezione con le varianti storiche proteggerebbe al 54–79% dall'infezione con P.1 [Science]
   × Il livello di cellule B della memoria capace di produrre anticorpi efficaci verso SARS-CoV-2 e anche altri coronavirus dipende dall'età e dal tipo di tessuto [Science]
   × Per le persone con sistemi immunitari compromessi, da patologie congenite o da terapie farmacologiche, l'efficacia dei vaccini è tutt'altro che scontata. Trattamenti alternativi, come gli anticorpi monoclonali, non sono ancora stati testati a sufficienza. Per ora queste persone possono solo contare sul fatto che gli altri si vaccinino [The Atlantic]
   × Dieci prove indirette dell'importanza degli aerosol per la trasmissione del virus [The Lancet]
   × L'esplosione dei contagi in India potrebbe mettere a rischio l'accesso ai vaccini da parte del resto del mondo, in particolare per i paesi in via di sviluppo [Nature]
   × La Francia pianifica le riaperture, ma con molte incertezze [Le Monde]
   × Covid-19 nel mondo: da Israele in procinto di rimuovere l'obbligo di indossare le mascherine all'aperto alla preoccupante crescita dei contagi in Germania [Le Monde]

I MODELLI DI LINGUAGGIO NON DEVONO LIMITARSI AD APPRENDERE DAI DATI

La scorsa settimana, Samy Bengio, direttore del progetto Google Brain, ha annunciato le sue dimissioni. A fine aprile lascerà la società dopo 14 anni. La decisione di Bengio arriva dopo mesi turbolenti per Google, segnati dal licenziamento di Timnit Gebru e Margareth Mitchell, le due ricercatrici a capo del gruppo Ethical AI di Google, a causa di un articolo critico verso i modelli statistici di linguaggio basati su grandi quantità di dati e di parametri. Si tratta di sistemi già utilizzati in diverse tecnologie, come i motori di ricerca, gli assistenti vocali o i chat bot. L’articolo, scritto insieme Emily Bender e Angelina McMillan-Major, linguiste computazionali della University of Washington, è stato presentato un mese fa durante la conferenza Fairness Accountability and Transparency.

Abbiamo parlato con Dirk Hovy, professore associato all’Università Bocconi dove si occupa di linguistica computazionale con particolare attenzione verso gli impatti sociali dell’impiego dei cosiddetti large language model. Da settembre dello scorso anno Hovy è coordinatore del progetto INTEGRATOR, finanziato con uno Starting Grant dello European Research Council, e che ha l’obiettivo di integrare fattori demografici nei modelli di linguaggio naturale per mitigare il rischio che i contenuti generati siano discriminatori verso minoranze etniche, donne e persone con identità di genere non binaria, persone anziane e in generale gruppi sociali minoritari.

Che idea si è fatto del contenuto dell’articolo all’origini di questa vicenda? È davvero così controverso? Contiene elementi di novità tali da giustificare le conseguenze che ha avuto?

Posso rispondere solo sulla base di quello che è stato riportato dai giornali riguardo le decisioni di Google perché la società ha deciso di seguire l’approccio che ha sempre avuto finora, cioè non rilasciare dichiarazioni pubbliche. L’articolo dal punto di vista accademico è di ottimo livello e le sue conclusioni sono piuttosto condivise dalla comunità di riferimento. Le definirei non controverse e basate su conoscenze scientifiche consolidate. L’intento dell’articolo era chiaramente di aprire un dibattito e, in particolare, mettere in discussione l’idea che per migliorare i modelli di linguaggio si debba aumentare la dimensione dei database su cui vengono allenati e il numero di parametri utilizzati per codificare il loro apprendimento. Sono numerosi i lavori che hanno provato ridurre le dimensioni di questi modelli e lo fanno per diverse ragioni, non solo etiche. La dimensione dei modelli pone infatti un problema che è prima di tutto di natura tecnologica: è estremamente difficile far girare un modello con miliardi di parametri su uno smartphone.

Che impatto crede abbia avuto questa vicenda sulla reputazione di Google?

Credo che la reputazione di Google esca danneggiata da questa vicenda. È stato messo in luce il problema della libertà accademica dei ricercatori che lavorano nel settore privato e anche la sicurezza del loro posto di lavoro. In ambito accademico i ricercatori non devono sottoporre a nessuna revisione interna i loro lavori prima di inviarli a una rivista o a una conferenza. Al contrario, questa è una pratica comune nell’industria.

Ma fino a che punto è accettabile? Stiamo assistendo a una rinegoziazione del rapporto tra ricerca pubblica e privata in questo settore?

Credo che stia emergendo una nuova dimensione etica della ricerca in ambito informatico, e questa discussione passa prima di tutto dagli schemi di finanziamento. L’informatica e le discipline STEM hanno storicamente ricevuto fondi da tre sorgenti: i governi, le fondazioni private e l’industria. La rilevanza industriale dell’informatica ha fatto sì che nascesse un ecosistema di finanziamenti da parte di grandi società private, come Google, Amazon e Facebook. Ciascuna di queste società ha programmi annuali o semestrali per offrire ai ricercatori universitari fondi aggiuntivi ed è in corso un dibattito all’interno dell’accademica sull’opportunità di accettare questi fondi, un dibattito che tradizionalmente esisteva riguardo ai finanziamenti da parte del settore militare (dipartimenti della difesa e loro fornitori). Oltre ai finanziamenti però ci sono anche le collaborazioni. Google ha una cultura della ricerca molto vivace che inizialmente era focalizzata solo su argomenti rilevanti per la loro attività ma rapidamente si è spostata anche su temi di base ottenendo risultati eccellenti. Sono ormai numerosi gli scienziati che hanno doppia affiliazione e ci sono tanti lavori co-firmati da accademici e ricercatori di Google.

Tornando al contenuto dell’articolo, Bender e coautrici parlano dell’impatto dei database di allenamento sul comportamento di questi modelli di linguaggio. In altre parole sostengono che se un modello di linguaggio viene allenato su un database che privilegia i punti di vista dei gruppi egemonici nella società è molto probabile che li replicherà. Quanto sono importanti i dati? Sono l’unico aspetto su cui si può intervenire per mitigare il rischio di avere generatori di linguaggio discriminatori?

Le fonti su cui vengono allenati questi modelli hanno un grande impatto. All’estremo possiamo chiederci cosa succederebbe se allenassimo i modelli solo sugli scritti di marxisti radicali: probabilmente otterremo un generatore che riproduce i loro punti di vista. Ma la verità è che qualsiasi database ha delle distorsioni se non viene progettato opportunamente. Nelle scienze sociali il problema della rappresentatività del campione è al centro dell’attenzione dei ricercatori da molto tempo e la selezione dei dati è un processo che viene effettuato con estrema cura. In ambito informatico non facciamo lo stesso. Questo è stato in parte motivato dalla convinzione fallace che se un database è sufficientemente grande è anche sufficientemente rappresentativo.

Ci può fare un esempio?

Un esempio è quello delle stime di letalità del SARS-CoV-2. All’inizio della pandemia queste stime si basavano sul tasso di mortalità tra i casi di infezione confermati ma trascuravano completamente la parte di contagi asintomatici che non venivano identificati per via della limitata capacità di diagnosi. Il campione non era rappresentativo e la letalità all’inizio è stata sovrastimata. Il numero di casi su cui venivano effettuate queste stime era molto grande, ma il nostro metodo di campionamento era estremamente distorto. Allo stesso modo, come sottolineano anche Bender e colleghe, se alleniamo un modello di linguaggio sulle conversazioni tra gli utenti di Reddit stiamo considerando un campione formato per la maggior parte da uomini, bianchi, americani e giovani. Il primo passo, e il più importante, per evitare queste distorsioni è costruire i database in maniera più attenta e inclusiva. Tuttavia, dobbiamo intervenire anche dopo la raccolta dei dati. I bias non sono solo nei dati. Margareth Mitchell e Emily Bender lo hanno affermato in diverse occasioni osservando che questo è un modo in cui gli sviluppatori cercano di non assumersi responsabilità. Le decisioni di chi progetta gli algoritmi sono altrettanto importanti. Diverse ricerche hanno mostrato che se i modelli sono mal progettati restituiscono risultati problematici anche quando vengono allenati su campioni rappresentativi.

In che modo si può tenere conto di questi aspetti nel progettare i modelli?

L’idea è quella di implementare delle misure di sicurezza all’interno degli algoritmi. La mia attività di ricerca attuale si concentra proprio su questi aspetti. L’obiettivo del progetto INTEGRATOR che coordino è quello di costruire modelli che siano consapevoli che persone diverse parlano in modo diverso e di argomenti diversi. È quello che facciamo come esseri umani quando ascoltiamo qualcuno parlare. Non ci aspettiamo che tutti parlino nello stesso modo e delle stesse cose. Supponiamo di avere davanti una collezione di testi scritti da ragazzi di 16 anni. La nostra conoscenza della lingua ci permetterebbe di riconoscere la situazione e di filtrare questi dati. I nostri modelli non sono in grado di fare lo stesso. La sfida è quella di “insegnare” ai modelli che ci sono tanti modi di usare la lingua e che sono tutti accettabili.

Il punto quindi è non affidarsi completamente ai dati ma codificare nei modelli una certa dose di comprensione della realtà e dell’uso del linguaggio.

Bisogna abbandonare l’idea che avere più dati vuol dire necessariamente ottenere risultati migliori. Questa idea parte dal presupposto che I modelli debbano imparare tutto da zero, ma questo non è affatto necessario. Il motivo per cui questa strada non ci porterà lontano è che il linguaggio è molto più del significato delle parole o delle frasi. In un recente lavoro che ho condotto con Diyi Yang, ricercatrice al Georgia Institute of Technology, mettiamo in luce proprio questo aspetto. La cosa che stiamo ignorando è che la lingua è uno strumento sociale che non si riduce solo alle informazioni contenute nel testo, ma che è caratterizzato anche dal momento e dal modo in cui le parole vengono pronunciate oltre che dalle caratteristiche di chi sta parlando. Un esempio è l’espressione «Oh wow, that was a sick perfomance!». Se viene pronunciata da un ragazzo di 16 anni, significa che la performance è stata fantastica, ma se la stessa frase viene pronunciata da un ottantenne dopo essere stato all’Opera, allora vuol dire l’opposto. Noi siamo in grado di fare queste considerazioni di contesto e interpretare correttamente la parola “sick” in quella frase. I modelli statistici di linguaggio sviluppati finora ignorano proprio il contesto. Sono in grado di produrre dei testi che “sembrano” linguaggio naturale ma senza considerare la componente sociale che lo caratterizza.

Cosa possiamo fare nel frattempo? Questi grandi modelli di linguaggio regolano già le nostre interazioni sociali quotidiane. Esistono degli interventi che ne potrebbero mitigare gli impatti negativi?

Una possibilità è quella di sviluppare dei sistemi che ne testino alcune caratteristiche, una sorta di auditing. Insieme a Debora Nozza e Federico Bianchi, post-doc alla Bocconi, abbiamo elaborato un punteggio per misurare la percentuale di frasi offensive che un modello di linguaggio genera in risposta al prompt. In altre parole abbiamo dato al modello una frase e gli abbiamo chiesto di completarla contando quale percentuale delle sue risposte avesse un contenuto offensivo. Abbiamo considerato i generatori di linguaggio naturale BERT, che è alla base del funzionamento del motore di ricerca di Google, e GPT-2, il predecessore dell’ultimo sistema sviluppato dalla società Open-AI, e abbiamo osservato che nel 5% dei casi il testo prodotto è offensivo. Abbiamo poi guardato alla differenza tra i testi ottenuti a completamento di frasi che contenevano soggetti femminili e maschili in diverse lingue. Troviamo che se il soggetto nel prompt è femminile allora i completamenti offensivi sono di natura sessuale, mentre per i soggetti maschili le frasi aggressive fanno riferimento all’omosessualità con connotazione negativa. Quello che suggeriamo è di usare questo sistema per testare i nuovi modelli che verranno sviluppati in futuro, basati su più dati e più parametri. Il lavoro verrà presentato a giugno durante la conferenza della North American Chapter of the Association for Computational Linguistics (NAACL).

Non si corre il rischio di tenere in considerazione certi punti di vista ma non altri?

Ognuno di noi ha la propria zona cieca, per questo è fondamentale creare gruppi il più diversi possibile, che includano persone provenienti da diversi gruppi sociali. Gli algoritmi di riconoscimento facciale hanno sofferto di questo tipo di problemi: sono stati sviluppati da uomini bianchi e allenati su database contenenti principalmente foto di uomini bianchi che non si sono resi conto che funzionavano molto male sui volti di persone nere o asiatiche. Spesso questi errori non sono intenzionali, ma dobbiamo creare un ambiente che ne riduca l’impatto il più possibile. Oltre a questo è fondamentale regolare questi sistemi da un punto di vista legale. Proprio in questi giorni si è acceso il dibattito sulla direzione che prenderà l’Unione Europea, probabilmente stabilirà un precedente che sarà difficile ignorare per gli Stati Uniti e per le società private che sono incorporate lì ma che operano anche in Europa.

Per ricevere questo contenuto in anteprima ogni settimana insieme a sei consigli di lettura iscriviti alla newsletter di Scienza in rete curata da Chiara Sabelli (ecco il link per l'iscrizione). Trovi qui il testo completo di questa settimana. Buona lettura, e buon fine settimana!

Per suggerimenti e commenti scrivere a: info@scienzainrete.it

Per donare alla Newsletter clicca qui

Se invece non vuoi più ricevere la newsletter clicca qui

PS: per tenere Scienza in rete fuori dallo spam aggiungi la nostra mail --info@scienzainrete.it--ai tuoi contatti (per Gmail, vai a contacts.google.com e clicca su "crea contatto"). Se Scienza in rete finisce nelle promozioni di Gmail, trascinala nella casella della tua posta in entrata per non perdere mai un numero!

Segui Scienza in rete

By: