From POLICLOUD to DATACLOUD: Cloud, Data Science, Big Data

Attività

Il progetto del Laboratorio Interdipartimentale DataCloud si concentra sull’uso di tecniche di data analysis e machine learning per trovare, proporre e applicare nuove e precise soluzioni a problemi complessi in diversi ambiti scientifici e applicativi.

Nel Politecnico di Milano, istituzione di ricerca metodologica, tecnologica e applicativa coesistono ampie varietà di competenze in grado di contribuire significativamente sia ad applicazioni di data science in ingegneria e architettura, sia allo sviluppo di algoritmi, organizzazione di dati e tecnologie per la data science stessa. Esistono iniziative in coordinamento tra vari Dipartimenti e in cooperazione con altre istituzioni accademiche, industriali e medico/ospedaliere.

Proprio dal lavoro multidisciplinare generato da questa convergenza di esperti, il Lab DataCloud può produrre importanti benefici per la comunità dei ricercatori Polimi e esterni, che può realizzarsi in aumentata visibilità, progetti di collaborazione con altre istituzioni, riconoscimento di contributi scientifici, pubblicazioni.

DataCloud ha l’obiettivo di costituire una infrastruttura di calcolo condivisa, ad alte prestazioni, aperta alle applicazioni. Da una parte DataCloud risponde alla necessità di migliorare ed estendere gli approcci e le tecnologie a supporto dell’analisi dei dati. Dall’altra, il Lab fornisce opportunità per esplorare un ampio numero di campi applicativi specifici che traggono beneficio dall’utilizzo di data science.

Tra gli obiettivi individuati nella strutturazione della proposta vi sono la modellazione e ottimizzazione dell’ambiente costruito, l’elaborazione di scenari di trasformazione urbana e di gestione dei rischi, la stima di fabbisogni e servizi, l’analisi di dati medici e biologici. DataCloud è aperto a collaborazioni estese ai diversi temi di ricerca, multidisciplinari e alla collaborazione con Enti esterni.

Sede

Il Laboratorio è articolato in più sedi:

  • Sale server DEIB (piano -1 e piano 1), Dipartimento di Elettronica, Informazione e Bioingegneria, Ed. 20, Via Ponzio 34/5, Milano
  • sala server ASICT Z3, Bovisa

Attrezzature

  • L’apparecchiatura che si è ipotizzato di acquistare è un Server Rack Dell PowerEdge R940xa Small. Si tratta di un server ad alta densità con 28 unità di elaborazione, 2 GP-GPU, 1.5 TByte di memoria e 8 TByte di spazio disco. L’alta densità dell’apparecchiatura le permette di occupare uno spazio relativamente limitato consentendone l’installazione nelle sale macchine attualmente dedicate a PoliCloud e ora destinate a Data Cloud.Il nuovo Server integra e completa la dotazione del Laboratorio Policloud e le risorse di calcolo messe a disposizione nel tempo dal Dipartimento DEIB e dall’Ateneo.
  • DataCloud utilizzerà ed estenderà le risorse acquisite nel tempo e dedicate al Lab interdipartimentale Clothing/PoliCloud. Allo stato attuale, la dotazione acquistata con il finanziamento per il Laboratorio Interdipartimentale Policloud nel 2014 e poi arricchita con nuove macchine acquisite nel 2019, è stata riorganizzata in una nuova struttura con caratteristiche di stabilità, versatilità, sicurezza e aumentata semplicità di gestione.
  • Le macchine utilizzate sono n.4 (di 10) Dell R630, n.4 Dell R640, n.4 T640 e 2 (di 6) SuperMicro dedicati allo storage dei dati.
  • Tra le attrezzature preesistenti vi sono: cluster IBM; testbed 5G (in fase di costruzione come parte del progetto MSCA Spotlight e di collaborazione con Vodafone nel trial 5G).

Servizi forniti

Il Lab DataCloud ha l’obiettivo specifico di aggregare le anime tecnologiche ed algoritmiche espresse da DMAT e da una parte del DEIB con quelle di dominio espresse dai dipartimenti DABC, DASTU e DEIB.

L’obiettivo di alto livello è costruire metodi e tecniche efficaci per la gestione e manipolazione dei dati e valutare tali approcci per la soluzione di problemi scientifici e pratici concreti, con la massima considerazione per aspetti etici e di privacy.

Da un punto di vista tecnologico, le apparecchiature finanziate direttamente da DataCloud renderanno più potente e affidabile il funzionamento di PoliCloud. Vi è la possibilità di un uso integrato con le risorse del cluster di analisi dei dati offerto da IBM e dal testbed 5G in fase di sviluppo (i.e.progetto MSCA SpotLight).

Dal punto di vista metodologico, DataCloud farà affidamento sulle seguenti competenze offerte dai dipartimenti DEIB e DMAT:

  • Storage and Computation capacity planning
  • Event processing
  • Software Engineering
  • Machine Learning
  • Data Mining
  • Privacy, Safety, Security
  • Ethics
  • Networking
  • Statistics and mathematics

Il Lab offrirà soluzioni computazionali, di data storage e di algoritmi per il trattamento e l’analisi di grandi moli di dati. Una parte delle attività riguarda lo sviluppo teorico e metodologico di soluzioni computazionali avanzate. Ad esso è associata una attività di servizio per lo storage di dati. Queste competenze saranno messe a disposizione e sfruttate in un ampio numero di contesti applicativi e scientifici, come:

  • Patient risk stratification in cardiovascular, respiratory and nervous systems diseases. Tailored therapy. Remote monitoring in fragile patients (DEIB - Bioengineering area)
  • Genomic computing, Personalized medicine (DEIB - Informatics area and Bioengineeering area)
  • Analysis of hydrogeological risks, mobility, accessibility analysis and mapping, urban analytics (DASTU)
  • Smart Cities, Buildings and infrastructures (DABC) 

L’idea del Lab DataCloud è di essere aperto ad ogni altro problema applicativo proposto dalle ricerche dei Dipartimenti che vorranno unirsi alla proposta successivamente.

Modalità e costi di accesso alle attrezzature

Le modalità di accesso e i costi dei relativi servizi sono in fase di definizione a partire dall’esperienza di PoliCloud.

Gli utenti del Lab DATACLOUD sono certamente personale strutturato, assegnisti, dottorandi e tesisti che intendono utilizzare le infrastrutture messe a disposizione. In fase di realizzazione non sono previsti costi per l’uso delle risorse. Conclusa la fase iniziale, si stabiliranno costi per i diversi servizi che saranno utilizzabili anche da utenti esterni all’interno di collaborazioni su progetti.

Comitato di gestione

La gestione del DataCloud Lab è svolta in modo collegiale dal Comitato di Gestione così composto:

  • Elisabetta Di Nitto (Dipartimento DEIB)
  • Maria Gabriella Signorini (Dipartimento DEIB)
  • Ilenia Epifani (Dipartimento DMAT)
  • Paola Pucci (Dipartimento DASTU)
  • Massimo Tadi (Dipartimento DABC)

Il Comitato di Gestione su indicazione dei Dipartimenti coinvolti, nomina un Comitato Operativo.