I modelli di linguaggio non devono limitarsi ad apprendere dai dati

Pubblicato il 17/04/2021

« Allenare i modelli satistici di linguaggio su database rappresentativi dei diversi punti di vista della società, inclusi quelli minoritari, è fondamentale, ma dobbiamo anche intervenire nella progettazione dei modelli. Li stiamo sviluppando come se dovessero imparare tutto da zero, ma non è necessario», ci ha detto Dirk Hovy, linguista computazionale dell'Università Bocconi. Hovy coordina il progetto INTEGRATOR, finanziato dallo European Research Council con uno Starting Grant, che ha l'obiettivo di integrare fattori demografici nei modelli di linguaggio per mitigare il rischio di discriminazione. I rischi etici e sociali posti dall''utilizzo di modelli di linguaggio che apprendono da database di grandi dimensioni tramite un enorme numero di parametri è l'oggetto dell'articolo che ha portato tra dicembre e febbraio al licenziamento di due autorevoli scienziate del gruppo Ethical AI di Google e ora alle dimissioni del coordinatore del progetto Google Brain. Ma il contenuto dell'articolo, secondo Hovy, non è così controverso e anzi affronta problemi di cui una parte della comunità informatica si occupa da tempo. «La vicenda sottolinea che la nostra ricerca ha una nuova dimensione etica e che il rapporto tra accademia e industria deve essere rinegoziato per affrontarla».

Crediti immagine: M-OCRROR typeface

Tempo di lettura: 9 mins

Intelligenza artificiale

La scorsa settimana, Samy Bengio, direttore del progetto Google Brain, ha annunciato le sue dimissioni. A fine aprile lascerà la società dopo 14 anni. La decisione di Bengio arriva dopo mesi turbolenti per Google, segnati dal licenziamento di Timnit Gebru e Margareth Mitchell, le due ricercatrici a capo del gruppo Ethical AI di Google, a causa di un articolo critico verso i modelli statistici di linguaggio basati su grandi quantità di dati e di parametri. Si tratta di sistemi già utilizzati in diverse tecnologie, come i motori di ricerca, gli assistenti vocali o i chat bot. L’articolo, scritto insieme Emily Bender e Angelina McMillan-Major, linguiste computazionali della University of Washington, è stato presentato un mese fa durante la conferenza Fairness Accountability and Transparency.

Abbiamo parlato con Dirk Hovy, professore associato all’Università Bocconi dove si occupa di linguistica computazionale con particolare attenzione verso gli impatti sociali dell’impiego dei cosiddetti large language model. Da settembre dello scorso anno Hovy è coordinatore del progetto INTEGRATOR, finanziato con uno Starting Grant dello European Research Council, e che ha l’obiettivo di integrare fattori demografici nei modelli di linguaggio naturale per mitigare il rischio che i contenuti generati siano discriminatori verso minoranze etniche, donne e persone con identità di genere non binaria, persone anziane e in generale gruppi sociali minoritari.

Che idea si è fatto del contenuto dell’articolo all’origini di questa vicenda? È davvero così controverso? Contiene elementi di novità tali da giustificare le conseguenze che ha avuto?

Posso rispondere solo sulla base di quello che è stato riportato dai giornali riguardo le decisioni di Google perché la società ha deciso di seguire l’approccio che ha sempre avuto finora, cioè non rilasciare dichiarazioni pubbliche. L’articolo dal punto di vista accademico è di ottimo livello e le sue conclusioni sono piuttosto condivise dalla comunità di riferimento. Le definirei non controverse e basate su conoscenze scientifiche consolidate. L’intento dell’articolo era chiaramente di aprire un dibattito e, in particolare, mettere in discussione l’idea che per migliorare i modelli di linguaggio si debba aumentare la dimensione dei database su cui vengono allenati e il numero di parametri utilizzati per codificare il loro apprendimento. Sono numerosi i lavori che hanno provato ridurre le dimensioni di questi modelli e lo fanno per diverse ragioni, non solo etiche. La dimensione dei modelli pone infatti un problema che è prima di tutto di natura tecnologica: è estremamente difficile far girare un modello con miliardi di parametri su uno smartphone.

Che impatto crede abbia avuto questa vicenda sulla reputazione di Google?

Credo che la reputazione di Google esca danneggiata da questa vicenda. È stato messo in luce il problema della libertà accademica dei ricercatori che lavorano nel settore privato e anche la sicurezza del loro posto di lavoro. In ambito accademico i ricercatori non devono sottoporre a nessuna revisione interna i loro lavori prima di inviarli a una rivista o a una conferenza. Al contrario, questa è una pratica comune nell’industria.

Ma fino a che punto è accettabile? Stiamo assistendo a una rinegoziazione del rapporto tra ricerca pubblica e privata in questo settore?

Credo che stia emergendo una nuova dimensione etica della ricerca in ambito informatico, e questa discussione passa prima di tutto dagli schemi di finanziamento. L’informatica e le discipline STEM hanno storicamente ricevuto fondi da tre sorgenti: i governi, le fondazioni private e l’industria. La rilevanza industriale dell’informatica ha fatto sì che nascesse un ecosistema di finanziamenti da parte di grandi società private, come Google, Amazon e Facebook. Ciascuna di queste società ha programmi annuali o semestrali per offrire ai ricercatori universitari fondi aggiuntivi ed è in corso un dibattito all’interno dell’accademica sull’opportunità di accettare questi fondi, un dibattito che tradizionalmente esisteva riguardo ai finanziamenti da parte del settore militare (dipartimenti della difesa e loro fornitori). Oltre ai finanziamenti però ci sono anche le collaborazioni. Google ha una cultura della ricerca molto vivace che inizialmente era focalizzata solo su argomenti rilevanti per la loro attività ma rapidamente si è spostata anche su temi di base ottenendo risultati eccellenti. Sono ormai numerosi gli scienziati che hanno doppia affiliazione e ci sono tanti lavori co-firmati da accademici e ricercatori di Google.

Tornando al contenuto dell’articolo, Bender e coautrici parlano dell’impatto dei database di allenamento sul comportamento di questi modelli di linguaggio. In altre parole sostengono che se un modello di linguaggio viene allenato su un database che privilegia i punti di vista dei gruppi egemonici nella società è molto probabile che li replicherà. Quanto sono importanti i dati? Sono l’unico aspetto su cui si può intervenire per mitigare il rischio di avere generatori di linguaggio discriminatori?

Le fonti su cui vengono allenati questi modelli hanno un grande impatto. All’estremo possiamo chiederci cosa succederebbe se allenassimo i modelli solo sugli scritti di marxisti radicali: probabilmente otterremo un generatore che riproduce i loro punti di vista. Ma la verità è che qualsiasi database ha delle distorsioni se non viene progettato opportunamente. Nelle scienze sociali il problema della rappresentatività del campione è al centro dell’attenzione dei ricercatori da molto tempo e la selezione dei dati è un processo che viene effettuato con estrema cura. In ambito informatico non facciamo lo stesso. Questo è stato in parte motivato dalla convinzione fallace che se un database è sufficientemente grande è anche sufficientemente rappresentativo.

Ci può fare un esempio?

Un esempio è quello delle stime di letalità del SARS-CoV-2. All’inizio della pandemia queste stime si basavano sul tasso di mortalità tra i casi di infezione confermati ma trascuravano completamente la parte di contagi asintomatici che non venivano identificati per via della limitata capacità di diagnosi. Il campione non era rappresentativo e la letalità all’inizio è stata sovrastimata. Il numero di casi su cui venivano effettuate queste stime era molto grande, ma il nostro metodo di campionamento era estremamente distorto. Allo stesso modo, come sottolineano anche Bender e colleghe, se alleniamo un modello di linguaggio sulle conversazioni tra gli utenti di Reddit stiamo considerando un campione formato per la maggior parte da uomini, bianchi, americani e giovani. Il primo passo, e il più importante, per evitare queste distorsioni è costruire i database in maniera più attenta e inclusiva. Tuttavia, dobbiamo intervenire anche dopo la raccolta dei dati. I bias non sono solo nei dati. Margareth Mitchell e Emily Bender lo hanno affermato in diverse occasioni osservando che questo è un modo in cui gli sviluppatori cercano di non assumersi responsabilità. Le decisioni di chi progetta gli algoritmi sono altrettanto importanti. Diverse ricerche hanno mostrato che se i modelli sono mal progettati restituiscono risultati problematici anche quando vengono allenati su campioni rappresentativi.

In che modo si può tenere conto di questi aspetti nel progettare i modelli?

L’idea è quella di implementare delle misure di sicurezza all’interno degli algoritmi. La mia attività di ricerca attuale si concentra proprio su questi aspetti. L’obiettivo del progetto INTEGRATOR che coordino è quello di costruire modelli che siano consapevoli che persone diverse parlano in modo diverso e di argomenti diversi. È quello che facciamo come esseri umani quando ascoltiamo qualcuno parlare. Non ci aspettiamo che tutti parlino nello stesso modo e delle stesse cose. Supponiamo di avere davanti una collezione di testi scritti da ragazzi di 16 anni. La nostra conoscenza della lingua ci permetterebbe di riconoscere la situazione e di filtrare questi dati. I nostri modelli non sono in grado di fare lo stesso. La sfida è quella di “insegnare” ai modelli che ci sono tanti modi di usare la lingua e che sono tutti accettabili.

Il punto quindi è non affidarsi completamente ai dati ma codificare nei modelli una certa dose di comprensione della realtà e dell’uso del linguaggio.

Bisogna abbandonare l’idea che avere più dati vuol dire necessariamente ottenere risultati migliori. Questa idea parte dal presupposto che I modelli debbano imparare tutto da zero, ma questo non è affatto necessario. Il motivo per cui questa strada non ci porterà lontano è che il linguaggio è molto più del significato delle parole o delle frasi. In un recente lavoro che ho condotto con Diyi Yang, ricercatrice al Georgia Institute of Technology, mettiamo in luce proprio questo aspetto. La cosa che stiamo ignorando è che la lingua è uno strumento sociale che non si riduce solo alle informazioni contenute nel testo, ma che è caratterizzato anche dal momento e dal modo in cui le parole vengono pronunciate oltre che dalle caratteristiche di chi sta parlando. Un esempio è l’espressione «Oh wow, that was a sick perfomance!». Se viene pronunciata da un ragazzo di 16 anni, significa che la performance è stata fantastica, ma se la stessa frase viene pronunciata da un ottantenne dopo essere stato all’Opera, allora vuol dire l’opposto. Noi siamo in grado di fare queste considerazioni di contesto e interpretare correttamente la parola “sick” in quella frase. I modelli statistici di linguaggio sviluppati finora ignorano proprio il contesto. Sono in grado di produrre dei testi che “sembrano” linguaggio naturale ma senza considerare la componente sociale che lo caratterizza.

Cosa possiamo fare nel frattempo? Questi grandi modelli di linguaggio regolano già le nostre interazioni sociali quotidiane. Esistono degli interventi che ne potrebbero mitigare gli impatti negativi?

Una possibilità è quella di sviluppare dei sistemi che ne testino alcune caratteristiche, una sorta di auditing. Insieme a Debora Nozza e Federico Bianchi, post-doc alla Bocconi, abbiamo elaborato un punteggio per misurare la percentuale di frasi offensive che un modello di linguaggio genera in risposta al prompt. In altre parole abbiamo dato al modello una frase e gli abbiamo chiesto di completarla contando quale percentuale delle sue risposte avesse un contenuto offensivo. Abbiamo considerato i generatori di linguaggio naturale BERT, che è alla base del funzionamento del motore di ricerca di Google, e GPT-2, il predecessore dell’ultimo sistema sviluppato dalla società Open-AI, e abbiamo osservato che nel 5% dei casi il testo prodotto è offensivo. Abbiamo poi guardato alla differenza tra i testi ottenuti a completamento di frasi che contenevano soggetti femminili e maschili in diverse lingue. Troviamo che se il soggetto nel prompt è femminile allora i completamenti offensivi sono di natura sessuale, mentre per i soggetti maschili le frasi aggressive fanno riferimento all’omosessualità con connotazione negativa. Quello che suggeriamo è di usare questo sistema per testare i nuovi modelli che verranno sviluppati in futuro, basati su più dati e più parametri. Il lavoro verrà presentato a giugno durante la conferenza della North American Chapter of the Association for Computational Linguistics (NAACL).

Non si corre il rischio di tenere in considerazione certi punti di vista ma non altri?

Ognuno di noi ha la propria zona cieca, per questo è fondamentale creare gruppi il più diversi possibile, che includano persone provenienti da diversi gruppi sociali. Gli algoritmi di riconoscimento facciale hanno sofferto di questo tipo di problemi: sono stati sviluppati da uomini bianchi e allenati su database contenenti principalmente foto di uomini bianchi che non si sono resi conto che funzionavano molto male sui volti di persone nere o asiatiche. Spesso questi errori non sono intenzionali, ma dobbiamo creare un ambiente che ne riduca l’impatto il più possibile. Oltre a questo è fondamentale regolare questi sistemi da un punto di vista legale. Proprio in questi giorni si è acceso il dibattito sulla direzione che prenderà l’Unione Europea, probabilmente stabilirà un precedente che sarà difficile ignorare per gli Stati Uniti e per le società private che sono incorporate lì ma che operano anche in Europa.

Per ricevere questo contenuto in anteprima ogni settimana insieme a sei consigli di lettura iscriviti alla newsletter di Scienza in rete curata da Chiara Sabelli (ecco il link per l'iscrizione). Trovi qui il testo completo di questa settimana. Buona lettura, e buon fine settimana!

HideArticoli correlati

Coded bias: sull'importanza dell'inclusività quando si progettano e impiegano gli algoritmi

Pappagalli stocastici e il potere delle big tech

Algoritmi ingiusti