Una buona gestione dei dati è la base per una buona ricerca scientifica. Con “dati” si intende «ogni informazione che è stata raccolta, osservata, generata o creata per validare un risultato scientifico» (Leeds Univ., 2018). Tutte le discipline sono quindi interessate, non solo le scienze esatte.

I dati devono essere

  1. gestiti e conservati correttamente (anche solo per mero interesse personale, per una ricerca più efficiente)
  2. resi FAIR
  3. se possibile, aperti (facendo attenzione alla complessa normativa sui dati)

Guardate questo brevissimo video, che mostra in modo divertente tutti i peggiori incubi derivanti da una gestione scorretta dei propri dati.

1. Gestione dei dati

Conviene imparare a gestire correttamente i propri dati fin dall’inizio di una nuova ricerca.

Tecniche semplici quali nominare i file in modo corretto, gestire le diverse versioni, mantenere e aggiornare una documentazione (es. per gli acronimi utilizzati), conservarli in più copie, possono rendere la ricerca più fluida ed efficace. Il corso Essentials4data – libero e gratuito online – è ricchissimo di spunti e suggerimenti utili.

Lo strumento principale per una corretta gestione dei dati è il Data Management Plan (DMP). Il DMP è un documento strutturato, vivo – va aggiornato periodicamente nelle diverse fasi della ricerca – e obbliga a pensare in modo strategico ai propri dati, ponendosi domande sui formati, i metadati utili a descrivere il dataset, le licenze, la conservazione…

Una griglia di domande da porsi in relazione a ogni dataset è stata elaborata dal gruppo IOSSG – Italian Open Science Support Group.

Un modello online utilizzabile da tutti (DMPonline) è stato creato dal Digital Curation Center britannico. Potete prendere spunto da esempi reali di DMP per disciplina.

Chi fosse finanziato in Horizon2020 ricordi che il DMP è un deliverable del progetto e va consegnato entro i primi sei mesi.

2. Dati FAIR

Per poter essere riusabili, a maggior ragione quando la EOSC – European Open Science Cloud – sarà una realtà per la ricerca e l’innovazione in Europa, i dati devono essere strutturati secondo i principi FAIR: Findable, Accessible, Interoperable, Reusable.

Verificate i vostri dati con questa breve checklist: sono già FAIR?

F = Findable
I dati devono essere Reperibili, ossia identificati attraverso metadati appropriati [etichette che descrivono autore, titolo, data, provenienza…] e identificativi univoci e persistenti [URL stabili cui corrisponderà per sempre quella risorsa]:

  • esistono metadati per disciplina, per meglio descrivere specifici materiali.
  • l’identificativo univoco più diffuso è il DOI (Digital Object Identifier), assegnato per esempio da DataCite e utilizzato in archivi quali Zenodo.

Per essere reperibili, i dati vanno conservati per almeno 10 anni in un archivio che offra garanzie. Zenodo è l’archivio del CERN di Ginevra accessibile a tutti. Archivi disciplinari possono essere trovati su Re3data-Registry of data repositories, mentre FAIR sharing offre anche un elenco di standards e policies.

Per motivi di sicurezza, i dati vanno conservati in molteplici copie e in ambienti sicuri anche durante la ricerca, non solo al termine. Diverse soluzioni sono possibili (in questa tabella a cura di RDNL i pro e i contro), solitamente gli Atenei offrono alcune opzioni. Dataverse, Protocols.io e Figshare offrono soluzioni quali creare gruppi di ricerca che condividano dati e commenti durante lo svolgimento della ricerca stessa.

A = Accessible
I dati devono essere Accessibili, il che non significa “aperti”. È semplicemente necessario sapere come arrivare ai dati e come poterli eventualmente scaricare. Possono essere previsti sistemi di autenticazione.

I metadati descrittivi giocano di nuovo un ruolo fondamentale, anche per segnalare la necessità di particolari protocolli di trasmissione (diversi da http://) o la presenza di API – Application programming Interface.

I = Interoperable
Idealmente, per essere Interoperabili, i dati dovrebbero essere salvati in formati non proprietari, non compressi, non criptati, con standard documentati. Nella scelta di un formato, occore tenere conto di alcune caratteristiche.

Esempi di formati preferiti:

  • Containers: TAR, GZIP, ZIP
  • Databases: XML, CSV
  • Geospatial: SHP, DBF, GeoTIFF, NetCDF
  • Moving images: MOV, MPEG, AVI, MXF
  • Sounds: WAVE, AIFF, MP3, MXF
  • Statistics: ASCII, DTA, POR, SAS, SAV
  • Still images: TIFF, JPEG 2000, PDF, PNG, GIF, BMP
  • Tabular data: CSV
  • Text: XML, PDF/A, HTML, ASCII, UTF-8
  • Web archive: WARC

Alcuni archivi inoltre assicurano la conservazione solo per alcuni formati (es. DANS, l’archivio olandese): di questo va tenuto conto fin dall’inizio del progetto.

R = Reusable
Per poter essere Riusabili, i dati devono avere una licenza d’uso e una documentazione adeguata.

In mancanza di una licenza, i dati sono inutilizzabili. Sui dati, di per sé, non esiste diritto d’autore (per saperne di più, Dati e diritti) perché il diritto tutela solo la forma espressiva con cui l’informazione è presentata, non l’informazione in sé. Le banche dati sono protette dal cosiddetto “diritto sui generis” (Direttiva 96/9/CE e artt. 102 bis e 102 ter della Legge 633/1941 sul Diritto d’autore), che tutela l’investimento economico del costitutore della banca dati più che l’originalità.

Quindi:

  • sui semplici dati, la licenza che si consiglia di usare è CC0 (Creative Commons Zero), ovvero il “rilascio in pubblico dominio”. Significa che il creatore rinuncia formalmente alla paternità intellettuale – che nel caso dei dati, come abbiamo visto, non ha comunque per legge. Associare una licenza CC0 non significa rinunciare alle buone regole di una corretta etica scientifica, per cui va sempre attribuito il credito al lavoro che si sta riutilizzando. È possibile aggiungere una richiesta formale di attribuzione di credito.
  • utilizzare la Licenza CC-BY, che richiede esplicitamente l’attribuzione, potrebbe essere una forzatura giuridica.

Tutti i dettagli, oltre a chiarimenti ulteriori sul perché non utilizzare una Licenza NC-Not Commercial, si trovano nel Factsheet di Creative Commons su Open Science e sono ben riussunti nell’articolo di Simone Aliprandi, I dati non sono di nessuno: ebbene sì, 2014.

Chi avesse particolari esigenze può consultare Alex Ball, How to licence research data, 2014

La documentazione da associare ai dati comprende ogni elemento utile alla loro comprensione e riuso: la provenienza, gli strumenti o i software con cui sono stati generati, i protocolli… Sarebbe buon anorma depositare anche i software (es. in GitHub) e i protocolli (es. in Protocols.io).

Esistono strumenti che facilitano la documentazione dei dati via via che la ricerca viene condotta.

Gli OpenLabNotebooks sono strumenti innovativi e aperti per tracciare l’intero ciclo di vita di un esperimento: contengono testi, dati, software, protocolli. Per saperne di più

3. Dati aperti

I dati FAIR possono essere aperti: ricordiamo che “Accessibile” non è sinonimo di “Aperto”, possono esserci dati FAIR chiusi per ragioni di sicurezza o di privacy.

Il principio attualmente vigente in Europa nell’ambito dei progetti finanziati dalla Commissione è «as open as possible, as closed as necessary» (EU Competitiveness Council Conclusions 9029, 18 maggio 2018).

Il primo requisito per rendere aperti i dati è ovviamente aprirli anche dal punto di vista giuridico, rilasciandoli con una Licenza Open.

Tutti i progetti finanziati in Horizon2020 hanno l’obbligo di rendere aperti i dataset che supportano i risultati della ricerca.

Si possono rendere pubblici i dati:

  • depositandoli in un archivio aperto, es. Zenodo, Dryad, Figshare [con il vantaggio che viene loro assegnato un identificativo univoco e divengono citabili]
  • pubblicandoli come dataset in un Data Journal: sono riviste che pubblicano unicamente dataset con le relative schede di descrizione
  • come Supplementary material degli articoli pubblicati su riviste scientifiche

Poiché i dati stanno diventando sempre più un oggetto a sé stante, esistono precise regole di citazione.

I vantaggi dei dati aperti sono descritti bene in questo video: maggiore trasparenza, limitazione delle frodi, accresciuta riproducibilità, possibilità di creare nuovi servizi…

Vantaggi

Una corretta gestione dei dati e un buon Data Management Plan

  • rende la vostra ricerca più trasparente
  • rende i vostri dati accessibili
  • vi fa risparmiare tempo al momento della redazione di un articolo
  • riduce il rischio di perdere i dati
  • facilita la condivisione e il riuso (non dimentichiamo che si tratta di dati prodotti con fondi pubblici)
  • aumenta le citazioni [Drachen, T.M. et al., (2016). Sharing data increases citations. LIBER Quarterly. 26(2), pp.67–82]

Per imparare di più:

Essentials4data, corso libero e gratuito

Open Science training handbook, un manuale per ogni aspetto della Open Science

Open Data essentials, corso gratutito

Open data handbook, per i dati del settore pubblico (oltre che quelli della ricerca).