fbpx Software Heritage: l’iniziativa per preservare il futuro del software e della ricerca | Scienza in rete

Software Heritage: l'arca di Noè digitale

Tempo di lettura: 4 mins

Un'iniziativa per archiviare, conservare e condividere tutto il codice sorgente pubblicamente disponibile, salvandola dall'oblio digitale: è Software Heritage, lanciata nel 2016. Questa sorta di Arca di Noè per software rappresenta un punto di accesso unico a una vasta base di conoscenza tecnologica, necessaria per sostenere la trasformazione digitale e l'innovazione.

Crediti immagine: Markus Spiske/Unsplash

Immaginate solo per un momento le fotografie perse nel Lete digitale della memoria di un vecchio computer o di un vecchio cellulare che magari hanno smesso di funzionare: erano lì, ma adesso non si trovano o non si aprono, perché non esistono più i programmi con cui sono state salvate. In ogni caso, sono perse per sempre.

Pensate adesso al software in sé e al codice che ne è l’incarnazione. Non ritrae ricordi, ma descrive algoritmi. Miliardi di linee di programmi che formano il tessuto connettivo su cui poggia molto del nostro mondo. Coinvolto in quasi tutti gli aspetti della vita, dalle comunicazioni alla gestione delle informazioni, dalla ricerca scientifica all'industria, dall'arte alla cultura, è un elemento essenziale per il funzionamento della società contemporanea. Immateriale come le foto digitali, il codice rappresenta un patrimonio che rischia di scomparire, un bene comune che deve essere preservato.

Per questo è nata Software Heritage, iniziativa aperta, non profit e multi-stakeholder, lanciata nel 2016 dall’istituto di ricerca francese INRIA (Institut national de recherche en informatique et en automatique) in collaborazione con l’UNESCO, con l’obiettivo di archiviare, conservare e condividere tutto il codice sorgente pubblicamente disponibile. Una sorta di Arca di Noè per salvare i manufatti software dal diluvio del tempo, ma anche per offrire un punto di accesso unico a una vasta base di conoscenza tecnologica, necessaria per sostenere la trasformazione digitale e l'innovazione.

L’idea è venuta all’informatico italiano Roberto Di Cosmo, professore all’Université Paris Cité e direttore di Software Heritage che per anni ha lavorato al progetto insieme a Stefano Zacchiroli, professore al Politecnico di Parigi e CTO di Software Heritage. Nel corso del tempo, i due sono riusciti a coinvolgere un’ampia rete di partner, sia industriali con aziende leader nel settore tecnologico come Microsoft, Intel, Google e GitHub, sia accademici, in Italia, l’Università pisana, quella bolognese, L’ENEA e la Scuola Normale Superiore di Pisa.

Questo perché un archivio come quello di Software Heritage può avere un ruolo strategico per la ricerca scientifica, almeno per due ragioni. La prima è che il software adesso permea ogni area disciplinare, incorporandone ogni volta i metodi e non più in funzione di mero supporto ai processi. La seconda ragione è che la sua salvaguardia è essenziale per la riproducibilità della scienza e più in generale per la Scienza Aperta. Infatti, per poter riprodurre i risultati della ricerca non basta preservare gli articoli e i dati utilizzati o prodotti, ma occorre salvare anche il codice sorgente del software usato per elaborare questi dati. Da questo punto di vista Software Heritage rappresenta un’infrastruttura chiave, offrendo la possibilità a chi lo sviluppa di archiviare e descrivere il proprio software (qui le indicazioni per farlo) e prevedendo un modo semplice e stabile per poterlo citare. Al momento dell’archiviazione i progetti vengono infatti associati a speciali identificatori chiamati SWHID (SoftWare Hash persistent IDentifiers), attraverso i quali chiunque potrà accedervi. Questi riferimenti sono persistenti, mentre quelli che rimandano alle piattaforme collaborative o forge private usate dagli sviluppatori potrebbero non esserlo per sempre: per logiche di mercato potrebbero cessare la loro attività in ogni momento.

Il frutto di anni di impegno è un archivio universale che consente un accesso senza precedenti a una vasta varietà di codice sorgente, oggi con quasi 19 miliardi di file per oltre 290 milioni di progetti. Come dice Roberto Di Cosmo, è come avere un potente telescopio con cui osservare la galassia del software, consentendo a tutti di studiare come si sviluppa, come si scrive e come si può riutilizzare. Una vera manna per chi si occupa di big data e intelligenza artificiale (IA) generativa. Per quest’ultima, in particolare, Software Heritage può fornire un enorme dataset per l'addestramento di algoritmi di Machine Learning e per lo sviluppo di modelli linguistici LLM per la generazione di codice da prompt, i così detti AI-for-code models. Non per niente è stato da poco rilasciato il primo modello aperto allenato con il dataset di Software Heritage: StarCoder2, risultato del progetto BigCode, lanciato da Hugging Face, la piattaforma open source di IA che collabora con l’iniziativa dell’INRIA, in un’ottica di sviluppo etico e responsabile.

Per questo ogni riga di codice conta e va salvata dall’oblio digitale. Come per le foto, non possiamo dare per scontato che tutto ciò che nato solo in forma digitale rimanga sempre a nostra disposizione, almeno senza un nostro intervento: i supporti informatici, da questo punto di vista, sono più fragili della carta.

 


Scienza in rete è un giornale senza pubblicità e aperto a tutti per garantire l’indipendenza dell’informazione e il diritto universale alla cittadinanza scientifica. Contribuisci a dar voce alla ricerca sostenendo Scienza in rete. In questo modo, potrai entrare a far parte della nostra comunità e condividere il nostro percorso. Clicca sul pulsante e scegli liberamente quanto donare! Anche una piccola somma è importante. Se vuoi fare una donazione ricorrente, ci consenti di programmare meglio il nostro lavoro e resti comunque libero di interromperla quando credi.


prossimo articolo

Auto elettriche: occorre ripensare il modello di mobilità

Vehicle battery pack ballistic shield, Tesla Inc 2011

Da un punto di vista sia economico sia ambientale, la parte più costosa di un’auto elettrica è la batteria, pertanto è bene sfruttare tutta la sua vita utile. Tuttavia, il modello di mobilità attuale, basato su molte auto private poco utilizzate, non è né efficiente né sostenibile per un parco auto completamente elettrificato: occorre passare verso un modello di mobilità basato sul car sharing di veicoli a guida autonoma.

Immagine: Patent US8286743B2, Vehicle battery pack ballistic shield, Tesla Inc 2011.

Nel 2023, in Italia le immatricolazioni di auto elettriche sono state 66.276, con una quota di mercato del 4,22%, contro le 49.053 del 2022 e una quota di mercato del 3,71%. Il parco circolante BEV si attesta così a 220.188 unità.

Su base regionale, le immatricolazioni sono così ripartite: in testa il Trentino-Alto Adige con 12.807 veicoli immatricolati, seguito da Lombardia con 12.509 immatricolazioni, Lazio 7.533 veicoli, Toscana con 6.410, Veneto con 5.327, Emilia-Romagna 5.025 veicoli e Piemonte con 4.299 veicoli.