Artificial intelligence. Credit: Seanbatty / Pixabay. Licenza: CC0.
In questi giorni Science ha pubblicato un articolo con la lista dei 10 ricercatori più influenti in campo biomedico, elaborata da Semantic Scholar, un motore di ricerca per la ricerca facilitata di paper accademici, lanciato nel 2015 e sviluppato dall'Istituto Allen per l'intelligenza artificiale (AI2), un ente no profit con sede a Seattle fondato nel 2014 dal co-fondatore di Microsoft Paul Allen. Eccoli:
- Eric Lander, Massachusetts Institute of Technology (biology)
- Karl Friston, University College London (neuroscience)
- Raymond Dolan, University College London (neuroscience)
- Shizuo Akira, Osaka University (immunology)
- David Botstein, Calico (biology)
- Dennis Smith, Pfizer (pharmacokinetics)
- Eugene Koonin, National Center for Biotechnology Information (biology)
- Walter Willett, Harvard School of Public Health (epidemiology)
- Rudolf Jaenisch, Massachusetts Institute of Technology (genetics)
- Bert Vogelstein, Johns Hopkins Medical School (oncology)
Secondo l'algoritmo di Semantic Scholar, lo scienziato più influente al mondo in ambito biomedico sarebbe Eric Lander, in effetti un personaggio molto influente nella genomica che, con una formazione da matematico è approdato a studi di genomica e bioinformatica fino a diventare direttore e fondatore del prestigioso Broad Institute, nato da una generosa offerta dei coniugi Broad che hanno messo insieme in questo istituto il meglio dei cervelli di Harvard e del MIT. Per intenderci, dall'esempio del "Broad" ha preso il via l'accidentata vicenda del progetto Human Technopole di Milano. A seguire, altri 9 ricercatori (tutti uomini), di cui 7 americani fra Harvard, il MIT, la Johns Hopkins Medical School, e il National Center for Biotechnology Information, e due inglesi di stanza allo University College. Due di questi 10 inoltre vengono da colossi dell'industria biotecnologica e farmaceutica quali Calico e Pfizer.
Come è prevedibile, un istante dopo la pubblicazione di questa lista, sui social si è scatenato il dibattito sullo statuto e sul significato di questo genere di statistiche algoritmiche, a partire dalla domanda – ben ripresa in un tweet di Leonid Kruglyak della UCLA – se una metrica di questo tipo sia una misura davvero pertinente per valutare l'influenza dei ricercatori.
Balza anche all'occhio l'assenza di donne in questa top10 dell'eccellenza biomedica mondiale, che ha scatenato ancora una volta il dibattito sui social. Il pomo della discordia è sempre il medesimo: si tratta di un bias nell'algoritmo o di un problema al di fuori dell'algoritmo?
Per non parlare delle distorsioni e lacune a livello strutturale presenti e dichiarati apertamente dagli sviluppatori, che ci fanno interrogare ancora una volta se tradurre questo genere di tentativi nell'ambito dell'intelligenza artificiale in classifiche di “merito” non finisca per impoverire il senso stesso di progetti come questo, che nascono invece da prospettive tutt'altro che banali.
Arriva la semantica
Facciamo un passo indietro. Semantic Scholar nasce con l'obiettivo di affiancarsi a tool di ricerca già esistenti come Google Scholar e Pubmed, con una differenza fondamentale però rispetto a questi ultimi: portare in evidenza le correlazioni fra gli articoli studiando il linguaggio dell'articolo stesso, le parole, la loro semantica. L'idea di fondo è che molte delle risposte circa le nuove direzioni che la ricerca scientifica dovrebbe intraprendere si celano dietro alle connessioni fra i diversi aspetti discussi all'interno dei vari paper. Tuttavia, la mole di articoli presenti nei database a livello mondiale fa sì che per effetture questa ricerca su tutti gli articoli presenti nella letteratura non sia più sufficiente la mente umana. Per farla breve, non è detto che un articolo che parla di A, a partire dal titolo e dall'abstract, non contenga importanti riferimenti anche a B o C, che a loro volta rappresentano settori scientifici diversi da A, ma che potrebbero beneficiare delle scoperte o delle osservazioni contenute all'interno di paper che parlano esplicitamente di A. Il problema è che gli esperti di B (o di C) sono portati a leggere articoli che parlano di B (o di C), perdendosi molti spunti utili che possono derivare per esempio da A. Da qui l'esigenza di un algoritmo in grado di portare alla luce queste correlazioni fra ambiti diversi.
A giudicare dai paper già indicizzati dal nuovo motore di ricerca, il volume della ricerca accademica è in aumento a un tasso esponenziale, scrive Cade Metz su Wired. Uno studio indipendente condotto da STM, afferma che il numero delle riviste scientifiche sta aumentando del 4-5 per cento all'anno, con 2,5 milioni di articoli pubblicati nel 2014. Oltre 5000 al giorno. Insomma, è una questione di complessità, per dirla con i termini cari ai pionieri dell'AI.
“Semantic Scholar” - lo suggerisce il nome – è un motore di ricerca semantico, cioè un algoritmo di information retrieval molto più evoluto rispetto ai sistemi di ricerca più primitivi, che mira a risalire al concetto madre che si cela dietro una sequenza di parole, lettere e simboli, con l'obiettivo ambizioso per l'intelligenza artificiale di abbracciare e interpretare il senso di un discorso in linguaggio naturale.
“Strumenti come Google Scholar e Microsoft Academic Search sono ottimi per aiutare chi lavora in un settore particolare e sanno già quello che cercano” spiega a Science Marie Hagman, senior manager dell'Allen Institute e fra i coordinatori di Semantic Scholar. “Ma per coloro che esplorano le connessioni tra diversi campi o esaminano nuove aree di ricerca, serve uno strumento in grado di cogliere i nessi fra gli autori e gli articoli, che è quello che si propone di fare Semantic Scholar.” Al suo avvio nel 2015 l'archivio di Semantic Scholar si era concentrato sulla computer science, mentre nel 2016 si è ampliato per includere le neuroscienze, e nel 2017 tutte le scienze biomediche.
"Questo algoritmo semantico potrebbe correlare una scoperta relativamente insignificante in un campo con una soluzione innovativa per far fronte a una sfida importante in un altro campo” aggiunge Randy Olson, ricercatore in AI all'Università della Pennsylvania.
Alcuni problemi
Il primo grosso limite di Semantic Scholar, spiega invece Nature, è che il servizio al momento copre solo le riviste non a pagamento, anche se attualmente – raccontano gli autori a Science – sono in corso trattative anche con riviste a pagamento.
L'algoritmo inoltre presenta a oggi dei “bug” per usare un termine del mondo dei gamers, per esempio nei metadati. Sam Gershman, neuroscienziato computazionale all'Università di Harvard, sottolineava un anno fa sempre sulle pagine di Science la presenza di dati come si dice “sporchi”, cioè catalogati erroneamente. “Gli scienziati non sono indicati allo stesso modo su tutti i loro documenti” spiega Gershman. “Inoltre, uno degli articoli che mi vengono attribuiti risale secondo l'algoritmo al 1987, quando avevo 2 anni!”.
Ma ciò che Gershman ha trovato più sconcertante era la scarsa corrispondenza fra i documenti che si sono rivelati più influenti per la ricerca scientifica contemporanea e successiva, e quelli indicati dall'algoritmo. "Per esempio, nessuno degli articoli più influenti di Thomas Griffiths, psicologo alla University of California, Berkeley, rientra nei suoi cinque articoli più citati". C'è ancora da lavorare, insomma.