La Task Force “Data Lake” (TFDL) ha il compito di raccogliere, discutere e armonizzare le necessità e le soluzioni architetturali adottate dalle comunità e dalle istituzioni rappresentate in ICDI, in ambito di infrastrutture dati a supporto delle ricerca scientifica.
L’obiettivo è di definire un disegno di alto livello relativo di un “data lake”, inteso come un ecosistema di infrastrutture dati esistenti e future che da un lato mantengano la loro specificità e funzionalità, e dall’altro permettano un insieme minimo di attività interdominio. Il datalake nella nostra accezione è un sistema (“thin layer di middleware”) che permette di instaurare una interoperabilità di base fra sistemi esistenti ed eterogenei, permettendo ad esempio attività di ricerca multidisciplinari su basi dati originariamente non correlate.
Il data lake che la Task Force intende proporre dovrà essere in grado di:
- permettere la creazione di un ecosistema dati connesso, promuovendo e garantendo l’interoperabilità tra le varie infrastrutture dati esistenti a livello nazionale;
- definire un’interfaccia dati e metadati minimale, modulare ed estensibile ed in grado di astrarsi dalle specificita’ di ogni dominio applicativo;
- preservare funzionalità esistenti e pertanto l’operatività dei sistemi legacy;
- garantire aspetti di federazione, tenendo conto dei principi Open Science e FAIR.
La partecipazione di un’infrastruttura dati al data lake sarà legata all’adozione di requisiti minimi che saranno suggeriti dalla Task Force.
La Task Force è impegnata a definire un disegno architetturale di infrastruttura federata, analizzando attraverso un survey online, i requisiti delle comunità coinvolte, le soluzioni adottate dalle infrastrutture esistenti così come le soluzioni disponibili nel mercato open source, per proporre un disegno di alto livello che possa essere promosso da ICDI, e eventualmente implementato nell’ambito di call nazionali ed europee.
survey online