fbpx Software Heritage: l’iniziativa per preservare il futuro del software e della ricerca | Scienza in rete

Software Heritage: l'arca di Noè digitale

Un'iniziativa per archiviare, conservare e condividere tutto il codice sorgente pubblicamente disponibile, salvandola dall'oblio digitale: è Software Heritage, lanciata nel 2016. Questa sorta di Arca di Noè per software rappresenta un punto di accesso unico a una vasta base di conoscenza tecnologica, necessaria per sostenere la trasformazione digitale e l'innovazione.

Crediti immagine: Markus Spiske/Unsplash

Tempo di lettura: 4 mins

Immaginate solo per un momento le fotografie perse nel Lete digitale della memoria di un vecchio computer o di un vecchio cellulare che magari hanno smesso di funzionare: erano lì, ma adesso non si trovano o non si aprono, perché non esistono più i programmi con cui sono state salvate. In ogni caso, sono perse per sempre.

Pensate adesso al software in sé e al codice che ne è l’incarnazione. Non ritrae ricordi, ma descrive algoritmi. Miliardi di linee di programmi che formano il tessuto connettivo su cui poggia molto del nostro mondo. Coinvolto in quasi tutti gli aspetti della vita, dalle comunicazioni alla gestione delle informazioni, dalla ricerca scientifica all'industria, dall'arte alla cultura, è un elemento essenziale per il funzionamento della società contemporanea. Immateriale come le foto digitali, il codice rappresenta un patrimonio che rischia di scomparire, un bene comune che deve essere preservato.

Per questo è nata Software Heritage, iniziativa aperta, non profit e multi-stakeholder, lanciata nel 2016 dall’istituto di ricerca francese INRIA (Institut national de recherche en informatique et en automatique) in collaborazione con l’UNESCO, con l’obiettivo di archiviare, conservare e condividere tutto il codice sorgente pubblicamente disponibile. Una sorta di Arca di Noè per salvare i manufatti software dal diluvio del tempo, ma anche per offrire un punto di accesso unico a una vasta base di conoscenza tecnologica, necessaria per sostenere la trasformazione digitale e l'innovazione.

L’idea è venuta all’informatico italiano Roberto Di Cosmo, professore all’Université Paris Cité e direttore di Software Heritage che per anni ha lavorato al progetto insieme a Stefano Zacchiroli, professore al Politecnico di Parigi e CTO di Software Heritage. Nel corso del tempo, i due sono riusciti a coinvolgere un’ampia rete di partner, sia industriali con aziende leader nel settore tecnologico come Microsoft, Intel, Google e GitHub, sia accademici, in Italia, l’Università pisana, quella bolognese, L’ENEA e la Scuola Normale Superiore di Pisa.

Questo perché un archivio come quello di Software Heritage può avere un ruolo strategico per la ricerca scientifica, almeno per due ragioni. La prima è che il software adesso permea ogni area disciplinare, incorporandone ogni volta i metodi e non più in funzione di mero supporto ai processi. La seconda ragione è che la sua salvaguardia è essenziale per la riproducibilità della scienza e più in generale per la Scienza Aperta. Infatti, per poter riprodurre i risultati della ricerca non basta preservare gli articoli e i dati utilizzati o prodotti, ma occorre salvare anche il codice sorgente del software usato per elaborare questi dati. Da questo punto di vista Software Heritage rappresenta un’infrastruttura chiave, offrendo la possibilità a chi lo sviluppa di archiviare e descrivere il proprio software (qui le indicazioni per farlo) e prevedendo un modo semplice e stabile per poterlo citare. Al momento dell’archiviazione i progetti vengono infatti associati a speciali identificatori chiamati SWHID (SoftWare Hash persistent IDentifiers), attraverso i quali chiunque potrà accedervi. Questi riferimenti sono persistenti, mentre quelli che rimandano alle piattaforme collaborative o forge private usate dagli sviluppatori potrebbero non esserlo per sempre: per logiche di mercato potrebbero cessare la loro attività in ogni momento.

Il frutto di anni di impegno è un archivio universale che consente un accesso senza precedenti a una vasta varietà di codice sorgente, oggi con quasi 19 miliardi di file per oltre 290 milioni di progetti. Come dice Roberto Di Cosmo, è come avere un potente telescopio con cui osservare la galassia del software, consentendo a tutti di studiare come si sviluppa, come si scrive e come si può riutilizzare. Una vera manna per chi si occupa di big data e intelligenza artificiale (IA) generativa. Per quest’ultima, in particolare, Software Heritage può fornire un enorme dataset per l'addestramento di algoritmi di Machine Learning e per lo sviluppo di modelli linguistici LLM per la generazione di codice da prompt, i così detti AI-for-code models. Non per niente è stato da poco rilasciato il primo modello aperto allenato con il dataset di Software Heritage: StarCoder2, risultato del progetto BigCode, lanciato da Hugging Face, la piattaforma open source di IA che collabora con l’iniziativa dell’INRIA, in un’ottica di sviluppo etico e responsabile.

Per questo ogni riga di codice conta e va salvata dall’oblio digitale. Come per le foto, non possiamo dare per scontato che tutto ciò che nato solo in forma digitale rimanga sempre a nostra disposizione, almeno senza un nostro intervento: i supporti informatici, da questo punto di vista, sono più fragili della carta.

 


Scienza in rete è un giornale senza pubblicità e aperto a tutti per garantire l’indipendenza dell’informazione e il diritto universale alla cittadinanza scientifica. Contribuisci a dar voce alla ricerca sostenendo Scienza in rete. In questo modo, potrai entrare a far parte della nostra comunità e condividere il nostro percorso. Clicca sul pulsante e scegli liberamente quanto donare! Anche una piccola somma è importante. Se vuoi fare una donazione ricorrente, ci consenti di programmare meglio il nostro lavoro e resti comunque libero di interromperla quando credi.


prossimo articolo