Sorgenti di dati

Google ha fatto nascere, qualche giorno fa, uno specifico motore di ricerca di dataset disponibili in ogni parte del mondo. Cos’è un dataset? La risposta è fin troppo semplice: un insieme di dati, tipicamente (ma non necessariamente) strutturati.

I dataset sono il pane quotidiano dei data scientist cioè degli specialisti che analizzano insiemi di dati molto grandi e provenienti da fonti diversi (big data) con la finalità di comprendere fenomeni (atmosferici, epidemici, economici, ecc.) e di trovare soluzioni ad eventuali problemi.

Spesso gli scienziati dei dati hanno bisogno di acquisire i dati da fonti differenti per confermare congetture o per rendere più solido il terreno di ricerca. È per questo che Google ha messo a disposizione uno specifico motore che consentirà:

  • ai soggetti che mettono a disposizione i dataset, spesso coincidenti con enti governativi, di dare visibilità al loro lavoro di raccolta ed organizzazione informativa;

  • ai data scientist di trovare più facilmente fonti informative da utilizzare.

Occorre, tuttavia, che fornitori e data scientist lavorino nel rispetto del GDPR:

  • i primi dovranno stare attenti a non pubblicare dati riconducibili (anche indirettamente) a persone fisiche;

  • i secondi dovranno curarsi che i dataset di partenza pur non avendo, presi singolarmente, riferimenti a persone fisiche, non diventino, nelle elaborazioni successive, espliciti nell’associazione a specifici interessati; il rischio, infatti, è che dataset anonimi, incrociati fra loro, si arricchiscano e portino a svelare l’identità degli interessati.

Condividi

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.