Il progetto europeo OpenMINTED ha sviluppato un set di servizi per il Text e Data Mining e una serie di strumenti legali. Si può utilizzare il portale OpenMINTED per aggiungere contenuto o utilizzare i servizi, anche in cloud.

Il precursore è stato ContentMine, un progetto di Peter Murray-Rust. Estrae testi, immagini, modelli di composti chimici in pochi minuti da migliaia di articoli (video).

Sono necessarie competenze informatiche; si può utilizzare liberamente secondo queste istruzioni.

Il codice e materiale informativo/formativo sono disponibili su GitHub.

Dal punto di vista legale, in Europa solo la Gran Bretagna ha approvato un’eccezione al copyright che permetta di accedere ai testi.Occorre riflettere sul vantaggio competitivo che derivia da questo per la ricerca britannica.

Cosa si può fare in Italia?

  • utilizzare materiale Open Access con Licenza Creative Commons
  • chiedere un permesso specifico all’editore, che di solito però lo concede solo per i testi e non per le immagini.

Più che mai sarebbe stata necessaria la riforma del copyright a livello europeo. Il voto del 12 settembre 2018 ha portato a un testo non soddisfacente per le esigenze di text e data mining. Una buona sintesi della questione prima del voto si trova sulla pagina di LIBER, l’Associazione Europea delle Biblioteche di ricerca, e in questo video di Julia Reda, parlamentare europea che si sta spendendo per una riforma che favorisca lo scambio di conoscenza.

Text e data mining, leggi di più.