Google ha fatto nascere, qualche giorno fa, uno specifico motore di ricerca di dataset disponibili in ogni parte del mondo. Cos’è un dataset? La risposta è fin troppo semplice: un insieme di dati, tipicamente (ma non necessariamente) strutturati.
I dataset sono il pane quotidiano dei data scientist cioè degli specialisti che analizzano insiemi di dati molto grandi e provenienti da fonti diversi (big data) con la finalità di comprendere fenomeni (atmosferici, epidemici, economici, ecc.) e di trovare soluzioni ad eventuali problemi.
Spesso gli scienziati dei dati hanno bisogno di acquisire i dati da fonti differenti per confermare congetture o per rendere più solido il terreno di ricerca. È per questo che Google ha messo a disposizione uno specifico motore che consentirà:
-
ai soggetti che mettono a disposizione i dataset, spesso coincidenti con enti governativi, di dare visibilità al loro lavoro di raccolta ed organizzazione informativa;
-
ai data scientist di trovare più facilmente fonti informative da utilizzare.
Occorre, tuttavia, che fornitori e data scientist lavorino nel rispetto del GDPR:
-
i primi dovranno stare attenti a non pubblicare dati riconducibili (anche indirettamente) a persone fisiche;
-
i secondi dovranno curarsi che i dataset di partenza pur non avendo, presi singolarmente, riferimenti a persone fisiche, non diventino, nelle elaborazioni successive, espliciti nell’associazione a specifici interessati; il rischio, infatti, è che dataset anonimi, incrociati fra loro, si arricchiscano e portino a svelare l’identità degli interessati.