La condivisione dei dati rappresenta per molti un dilemma o perfino un enigma: il dilemma di disporre di una notevole quantità di dati acquisiti da strumentazioni sofisticate e la necessità di selezionarli, elaborarli e magari confrontarli con altri provenienti da fonti e/o settori disciplinari diversi al fine di acquisire nuove conoscenze; l’enigma che, a partire da un’incerta definizione di dato, deve essere sciolto analizzando scopi e processi di acquisizione, metodi scientifici e obiettivi da raggiungere ma anche modalità di elaborazione e conservazione proprie di specifici settori scientifici e sotto-gruppi disciplinari.
Da qui viene un rinnovato interesse su come viene condotta la ricerca scientifica, sotto la spinta di quello che viene definito il quarto paradigma epistemologico ma anche – e soprattutto – in un’ottica di accesso aperto alle pubblicazione e ai dati. Il punto cruciale è senz’altro in che misura e a quali condizioni i ricercatori siano propensi a condividere i dati delle proprie ricerche.
Su questo tema sono state svolte numerose indagini internazionali che hanno coinvolto studiosi di diversi settori o si sono concentrati su specifici campi disciplinari. L’ipotesi, in particolar modo nell’indagine sintetizzata in questo lavoro, è quella di ritenere che la propensione a condividere i dati non dipenda esclusivamente da una particolare predisposizione individuale ma sia influenzata dal contesto socio-culturale e istituzionale, dai comportamenti e dalle pratiche della comunità scientifica di riferimento e infine dalla presenza di archivi aperti che garantiscano la gestione e la conservazione a lungo termine dei dati della ricerca.
Ciò è stato confermato da diversi studi e si applica sia alle pubblicazioni ad accesso aperto, che – tanto più – alla condivisione dei dati. In questa sede vengono presentati i risultati (pdf) di un’indagine che ha voluto analizzare, nel contesto italiano, e in particolare tra i ricercatori del CNR afferenti agli Istituti del Dipartimento Terra e Ambiente (DTA), opinioni e atteggiamenti sulla condivisione dei dati della ricerca.
Per i motivi sopraindicati, accanto a tali aspetti l’indagine ha cercato di delineare il contesto organizzativo-gestionale in cui si svolge la ricerca in campo ambientale. Riteniamo, infatti, che una maggiore comprensione degli aspetti legati al complesso processo di condivisione dei dati in uno specifico settore disciplinare possa far emergere le esigenze dei ricercatori e contribuire alla formulazione di efficaci politiche di promozione nonché allo sviluppo di infrastrutture per la gestione e conservazione a lungo termine dei dati della ricerca.
Disegno dell’indagine
Lo strumento utilizzato per l’indagine è stato un questionario semi-strutturato composto da 40 domande e suddiviso in due macro-aree. Coerentemente con l’ipotesi di ricerca, la prima parte intende acquisire informazioni sulle pratiche di ricerca che potrebbero influenzare la condivisione dei dati. A tale scopo sono state formulate domande ad hoc incentrate sulle seguenti tematiche:
- il contesto scientifico generale di ricerca (linee di ricerca svolte, tipi di dati e ricerca, fondi e modalità di collaborazioni);
- acquisizione dei dati (modalità di acquisizione e strumentazione);
- gestione dei dati (uso di standard e di metadati descrittivi, procedure di conservazione e personale dedicato a tale scopo);
- riuso dei dati e disponibilità (propensione a utilizzare i dati prodotti da altri e criteri per valutarli; archivi disponibili per depositare i dati; pratiche di condivisione; citazioni).
La seconda parte si focalizza sull’individuazione degli ostacoli alla condivisione dei dati e sulle condizioni che potrebbero facilitare tale pratica. Questa parte del questionario contiene una selezione di domande presenti in altre indagini condotte a livello internazionale che possono essere lo spunto per individuare atteggiamenti comuni e differenze di opinioni. Completano il questionario le domande socio-demografiche (genere, età, anni di servizio e tipo di rapporto con il CNR). Per la somministrazione del questionario è stato utilizzato il sistema LimeSurvey, un software open source, che gestisce gli inviti e i solleciti e che rende le risposte anonime. L’indagine ha avuto luogo nel periodo giugno-settembre 2012.
Il profilo dei rispondenti
Il tasso di risposta al questionario è stato del 48% (523 risposte su 1087 invii). La maggioranza dei rispondenti è maschio (60,6%) e ha più di quaranta anni, il 32,9% è tra i 41 e 50, mentre il 34,2% – la classe di età più numerosa – supera i 50. Ciò rispecchia in gran parte la distribuzione per età del CNR, che risente ormai da anni dei tagli alla spesa pubblica per la ricerca e dei lunghi periodi di blocco delle nuove assunzioni. Per quanto riguarda il tipo di rapporto con il CNR, la maggior parte dei rispondenti ha un contratto a tempo indeterminato (62,5%), e lavora al CNR da più di 10 anni (29,2% da 11 a 20 anni, 27,8% da più di 20).
In genere i ricercatori partecipano a più linee di ricerca (49% da 2 a 3 linee di ricerca) e si distribuiscono nei settori disciplinari riportati nella figura 1.
Figura 1 - Distribuzione dei ricercatori per settore disciplinare
La maggioranza dei rispondenti porta avanti ricerche sperimentali (79% in modo prevalente), a fronte del 14,2% che svolge soprattutto ricerca teorica (figura 2). Tra questi due estremi, si colloca tuttavia una percentuale consistente di ricercatori che svolge ricerca teorica sia pure a tempo parziale (62,8%). Tale dato conferma che la demarcazione tra ricerca pura e applicata non è più così netta. Viceversa, ciò non si verifica nel caso contrario: chi svolge ricerca teorica in modo intenso dedica minor tempo alla sperimentazione (5,8% parziale e 15,2% medio).
Figura 2 - Metodo scientifico per classe di tempo dedicata
Le fonti di finanziamento delle attività di ricerca provengono per la maggior parte da progetti nazionali stanziati su fondi pubblici e da progetti europei, mentre solo il 15,9% della ricerca viene finanziata con fondi ordinari. Tale percentuale diminuisce ulteriormente se si considera la frequenza di erogazione dei fondi. Il 10% dei ricercatori è parzialmente finanziato dai fondi dell’istituto di appartenenza, mentre solo l’1,9% può contare su finanziamenti interni più frequenti. Per ciò che riguarda le modalità di lavoro, la maggior parte dei rispondenti svolge ricerca in gruppi medi e piccoli (rispettivamente 47,7% in gruppi composti da 3 a 7 persone e 40,5% in gruppi di massimo tre persone). La consuetudine a lavorare in gruppi di ricerca multidisciplinari è largamente diffusa, anche se varia la frequenza in funzione del contesto di collaborazione. Nell’ambito dei progetti internazionali ciò avviene più di frequente, mentre è occasionale quando si collabora con altre istituzioni di ricerca (65,2% qualche volta), con altri istituti CNR (64,9%) o nell’ambito di progetti bilaterali (51,6%). Il lavoro in gruppi multidisciplinari è inoltre molto diffuso anche all’interno dello stesso istituto di appartenenza (41,3% sempre) a conferma della componente pluridisciplinare che spesso caratterizza gli istituti CNR. Inoltre, il 53% dei ricercatori dichiara di eseguire direttamente le misurazioni di rilevazione dei dati e di raccoglierli sia in laboratorio che sul campo (53,7%). La maggioranza dei ricercatori (83%) utilizza inoltre strumentazione gestita direttamente dal CNR.
Gestione dei dati
La tendenza della maggior parte dei ricercatori è di utilizzare più tipi di dati per lo studio dei fenomeni ambientali (solo il 27% usa un solo tipo di dati). Tra chi utilizza dati di tipo diverso, prevale la percentuale di ricercatori che usa dati fisici (66%) e chimici (59,8%). I primi vengono prevalentemente utilizzati nello studio dell’atmosfera (42,4%), i secondi in quello delle acque interne, mentre i dati geologici sono rilevati per le analisi dei fenomeni della terra solida (45,1%), e quelli biologici, pur in percentuale minore, nello studio della biosfera e del mare (tabella 1).
Tab.1 - Studio delle componenti ambientali per tipo di dati
L’uso di standard non sembra molto diffuso, in quanto solo il 26% dei ricercatori afferma di essere a conoscenza di standard utilizzati nella propria comunità di riferimento. Nonostante ciò, la maggior parte dei ricercatori afferma di associare ai dati raccolti una serie di metadati quali informazioni tecniche (53,7%) (data di acquisizione, località, tipo di codice e setting della strumentazione) e gestionali (5%) (chi ha acquisito i dati, il formato del file, il software utilizzato, il numero/codice di acquisizione). Una percentuale non trascurabile (31.8%) associa metadati che si riferiscono a entrambe le categorie sopra menzionate (figura 3).
Figura 3 - Ricercatori che forniscono informazioni aggiuntive ai dati raccolti/analizzati
In una prospettiva di condivisione, ciò costituisce un risultato incoraggiante in quanto tali metadati rendono i dati più facilmente interpretabili e riusabili e nello stesso tempo ne semplificano le procedure di conservazione. Tale prassi sembra riflettere più una scelta scientifica e autonoma del ricercatore che essere dettata da procedure consolidate, stabilite all’interno dell’istituto. Infatti, alla domanda se nel proprio istituto fossero predisposte specifiche procedure per la conservazione dei dati, il 48,8% dei rispondenti dichiara che non ci sono mentre il 22,3% afferma che si prevede di farlo in futuro. Del resto, la presenza di figure professionali preposte alla conservazione dei dati viene riportata solo dal 15,4% dei ricercatori e ciò, come si vedrà nella parte relativa agli ostacoli alla condivisione, costituisce un ulteriore difficoltà nella gestione dei dati.
Uso e disponibilità dei dati
La maggioranza dei ricercatori (59%) dichiara di usare dati prodotti da altri. Come spesso accade all’interno di molte comunità scientifiche, l’elemento personale, ossia la conoscenza di chi ha prodotto i dati, risulta il criterio più utilizzato (49,7%) per valutare l’affidabilità delle informazioni. Tuttavia, anche l’utilizzo dei dati prodotti da altri presuppone ulteriori attività di verifica. Infatti alcuni ricercatori indicano, in alternativa ai criteri proposti nel questionario, la messa a punto di procedure di controllo di qualità, altri analizzano in modo particolare il metodo e/o la strumentazione adottati per la rilevazione, altri ancora fanno personalmente test sui dati.
Sul versante opposto, quando i ricercatori mettono a disposizione i propri dati, la maggioranza di loro dichiara (51,7%) che vorrebbe essere citato nei riferimenti bibliografici, così come avviene per le pubblicazioni. La propensione a condividere i dati dipende naturalmente anche dalla presenza di archivi in cui i ricercatori possono memorizzare i propri dati.
Tali archivi possono essere sviluppati all’interno dell’istituto e/o far parte di basi di dati nazionali e/o internazionali. Più del 40% dei rispondenti dichiara che può memorizzare i propri dati in basi di dati gestite all’interno del proprio istituto, il 35,1% può farlo in archivi/network internazionali, mentre il 20,9% afferma che non esistono archivi nei quali depositare i propri dati. Alla richiesta di indicare in quali contesti e in che misura sono disponibili i dati delle proprie ricerche, i ricercatori sembrano piuttosto prudenti (figura 4). La tendenza più diffusa è quella di selezionare alcuni dati da rendere disponibili senza restrizioni in network nazionali e internazionali (44,2%), oppure nelle pagine web del proprio istituto (36,1%). Nell’ambito del proprio gruppo di ricerca c’è invece la tendenza a condividere tutti o la maggior parte dei dati (rispettivamente il 62,8% e 24,5%). Infine, anche se possono essere considerate affermazioni di principio che andrebbero verificate con indagini ad hoc, in genere i ricercatori sembrano più aperti alla condivisione quando altri colleghi ne fanno direttamente richiesta.
Una limitata percentuale di ricercatori dichiara che tutti i dati o la maggioranza di loro è riservata (2,9% e 11,2%) mentre il 50,4% indica che lo sono solo alcuni.
Figura 4 - Distribuzione dei dati disponibili per ambito di diffusione
La figura 5 riporta le relazioni tra chi condivide i dati e allo stesso tempo usa dati prodotti dagli altri e chi condivide i propri dati e ha anche a disposizione nel proprio istituto archivi in cui depositarli. È evidente che esiste un effetto positivo tra la propensione alla condivisione e le modalità esaminate. Infatti, diminuisce la percentuale di ricercatori che non mette nessun dato a disposizione (49,5% e 34,3% rispetto a 53,7%) mentre aumenta la propensione a condividere alcuni dati quando si utilizzano quelli prodotti da altri (40,3% rispetto al 36,1%) e soprattutto quando in istituto sono presenti archivi in cui si possono depositare (52,5% rispetto al 36,1%). Tale effetto positivo si nota, anche se in misura minore, per i ricercatori che dichiarano di rendere disponibili la maggior parte dei propri dati e possono usufruire di archivi (11,1% rispetto a 8%) mentre la percentuale rimane sostanzialmente invariata per chi rende disponibili tutti i dati.
Figura 5 - Ricercatori che rendono disponibili i dati e usano dati prodotti da altri e hanno banche dati in istituto in cui depositarli
La propensione a condividere i dati (figura 6) è ancora più marcata quando si dispone di network nazionali (60,8% rispetto al 44,2%). Inoltre, aumenta anche la percentuale dei ricercatori che rendono disponibili la maggior parte dei dati potendo usufruire di network internazionali in cui depositarli (21,4% rispetto al 17,2%).
Figura 6 - Ricercatori che rendono disponibili i dati e usano dati prodotti da altri e hanno network nazionali e internazionali in cui depositarli
Gli atteggiamenti e le opinioni verso la condivisione
Il ruolo dei dati della ricerca
I sostenitori dell’accesso aperto hanno più volte evidenziato i numerosi vantaggi di cui beneficerebbe la ricerca scientifica qualora i dati fossero condivisi e conservati a lungo termine. Capire se anche queste sono le opinioni dei ricercatori vuol dire cogliere le motivazioni di principio sulla condivisione dei dati e nello stesso tempo comprendere il loro modello di ricerca scientifica e quindi di scienza. Questa domanda è stata mutuata in parte dall’indagine di PARSE.Insight (Permamanent Access to the Records of Science in Europe). Se si analizzano le risposte per grado di importanza (tabella 2), emerge che la maggior parte dei rispondenti considera la disponibilità e la conservazione dei dati come una componente che stimola il progresso della scienza (57,3% molto importante, 38,6% importante), fattore che migliora la trasparenza dei risultati della ricerca (54,4% molto importante, 41,1% importante) e permette la loro validazione (40,2% molto importante, 43.6% importante). Inoltre, quando la ricerca è finanziata da fondi pubblici, i risultati dovrebbero essere disponibili a tutti (50,7% molto importante, 38,6% importante). È una visione te, 35,2% poco importante) e non sempre considerino unici i dati della ricerca (10,1% per niente importanti, 27,8% poco importante).
In realtà l’indagine PARSE.Insight, pur evidenziando che le differenze di opinione dipendono dalla disciplina di appartenenza, hanno riscontrato che in tutte le discipline c’è un certo accordo nel considerare non così importanti l’unicità dei dati e il loro valore economico potenziale.
Tab. 2 - Opinioni sulla disponibilità e conservazione dei dati per grado di importanza
Ostacoli alla condivisione
Se le opinioni sul ruolo dei dati nella ricerca hanno registrato un’ampia convergenza su alcune modalità, le indicazioni degli ostacoli risultano maggiormente articolate (tabella 3).
C’è la tendenza a privilegiare la variabile impor tante (che in genere prevale rispetto a molto importante) e in alcuni casi tale percentuale viene controbilanciata da chi considera la medesima modalità poco importante. Gli ostacoli che raccolgono una percentuale maggiore di consensi sono la mancanza di supporto tecnico (44,9% importante, 36,6% molto importante) e di standard (49,2% importante, 27,4% molto importante). Inoltre una percentuale rilevante di ricercatori è d’accordo nel rilevare che i dati non vengono valutati come le pubblicazioni scientifiche (35,5% molto importante, 33.3% importante). Le procedure di condivisione dei dati non vengono considerate un particolare ostacolo (41% poco importante), anche se tale percentuale non si discosta di molto da chi le considera troppo complicate.
Tab. 3 - Percezione degli ostacoli alla condivisione per grado di importanza
Le richieste per la condivisione
Tra le condizioni che favoriscono la condivisione c’è un netto consenso su numerose modalità (tab. 4). Infatti, la maggioranza dei ricercatori considera molto importante poter aggiornare i propri dati una volta depositati (62,1% molto importante, 31,8% importante), sapere chi li usa, quando e per quale ragione (55,6% molto importante, 28,6% importante), essere contattato se i dati vengono usati (53,9%, 31,2%).
Tali indicazioni fanno emergere la chiara esigenza di mantenere il controllo sui dati, anche dopo averli depositati in un archivio aperto. Tali esigenze sono emerse anche in altre indagini internazionali. Tra gli altri fattori, che potrebbero incoraggiare i ricercatori a condividere i dati, va inoltre menzionata la predisposizione di facili procedure (54,9%). Coerentemente con quanto espresso in precedenza, c’è una chiara richiesta che questa attività venga valutata così come avviene per le pubblicazioni.
Tab. 4 - Condizioni che favoriscono la condivisione per grado di importanza
Conclusioni
L’indagine ha fornito il quadro di una comunità scientifica composita, ma in genere consapevole del valore e della funzione che i dati rappresentano per il progresso della ricerca. Ciò si evince non solo dal tasso di risposta al questionario, ma soprattutto nella convergenza su un modello di ricerca basata sul progressivo avanzamento delle conoscenze dove i dati rappresentano, tra l’altro, il fulcro per verificare i risultati ottenuti. In linea di principio i ricercatori sembrano a favore della diffusione dei dati, soprattutto quando la ricerca è finanziata con fondi pubblici. L’atteggiamento prevalente è tuttavia alquanto prudente, caratterizzato dalla tendenza a selezionare una parte dei dati da condividere.
La propensione alla condivisione aumenta però quando si utilizzano dati prodotti da altri e soprattutto quando si hanno a disposizione archivi in cui depositarli. I risultati non si discostano molto da quelli di altre indagini internazionali. Le esigenze che emergono (non solo tra i ricercatori CNR del dipartimento Terra e Ambiente) riguardano il riconoscimento formale delle attività connesse alla gestione e condivisione dei dati, che dovrebbero essere valutate al pari delle pubblicazioni scientifiche. Non stupisce inoltre che i ricercatori vogliano mantenere il controllo dei dati anche dopo averli depositati negli archivi sia per poterli aggiornare – ciò è in linea con il continuo processo di analisi – che per conoscere chi li usa e a quale scopo (una pratica che spesso si usa anche quando si viene citati nelle pubblicazioni scientifiche).
L’indagine conferma che la promozione anche in Italia di politiche di sostegno all’open access, assieme allo sviluppo di archivi e al supporto delle molte iniziative già in corso, sarebbero di incentivo per i ricercatori e di beneficio per il progresso della scienza.
Tratto da Scienza & società - Open Science Open Data