Facciamo i conti con i Big Data

Entriamo nello stabilimento Tenaris di Dalmine per capire come una grande azienda manifatturiera globale abbia creato al suo interno un dipartimento di Data Science efficiente e integrato con la struttura aziendale.

di Ezio Zibetti ed Edoardo Oldrati

Tra le sfide che la quarta rivoluzione industriale sta lanciando alle imprese manifatturiere quella dei Big Data è una delle più importanti per le opportunità che ne potrebbero derivare. Proprio per questo motivo abbiamo voluto raccontarvi in che modo una grande azienda come Tenaris, il principale produttore mondiale di tubi in acciaio senza saldatura, abbia deciso di affrontare questa partita, riuscendo a usare i Big Data come una fonte da cui estrarre valore per il proprio processo produttivo. Prima però di entrare nel dettaglio, è importante fare una premessa e chiarire cosa si intende con il termine Big Data, una parola di cui forse si abusa in questo momento, ma i cui contorni sono in realtà ben chiari. Con questo termine vogliamo descrivere una raccolta di dati così estesa in termini di volume, velocità e varietà (i dati possono infatti provenire da fonti eterogenee) da richiedere tecnologie e metodi analitici specifici per l’estrazione di valore.

Il primo passo verso il Data Analytics

«In passato – spiega l’ing. Vincenzo Manzoni, Head of Data Science for Industrial Processes in Tenaris – i nostri decisori, indipendentemente che fossero figure manageriali o tecniche, si trovavano nella condizione di prendere decisioni analizzando dati provenienti da sistemi operazionali diversi. Erano quindi direttamente queste figure che si occupavano di scaricare i dati dalle varie fonti, di fonderli a mano sulla propria macchina e, sulla base della sintesi che realizzavano, prendere delle decisioni».

È evidente come questa modalità di lavoro avesse diverse criticità, a partire dalla grande quantità di tempo (“la letteratura e l’esperienza indicano che corrisponda a circa l’80% del tempo complessivo”) persa nel reperimento e fusione dei dati. «Il data blending – spiega Manzoni riferendosi a questa attività – è una competenza estremamente specifica di cui il decisore tipicamente non è esperto. Lasciare ai decisori tale onere comportava una bassa efficienza e la possibilità di introdurre errori». Un’altra criticità era il fatto che questo processo non era in real time e automatico, costringendo il decisore a ripetere l’intera operazione al sorgere di una nuova esigenza. «Il nostro primo obiettivo – prosegue Manzoni – è stato quindi quello di riuscire a supportare questo processo decisionale, sgravando il decisore dal compito di aggregazione dei dati e sintesi degli indicatori in modo da permettergli di dedicarsi con più tempo ed energia all’attività decisionale. Il team mette a disposizione le proprie competenze e gli strumenti per manipolare i dati e produrre analisi, anche complesse, in tempi brevi, assicurandone la ripetibilità e la qualità».

Nonostante queste esigenze fossero già manifeste la creazione del dipartimento di Data Analytics è legata, come spesso succede nella storia delle aziende, a una specifica commessa che lo ha reso non rimandabile. In questo caso a dare origine al processo è stata la commessa vinta da Tenaris Dalmine per la fornitura di 230 km di tubi destinati al giacimento di gas naturale di Zohr, scoperto da Eni al largo dell’Egitto. «In passato in Tenaris l’attività si esauriva in analisi specifiche e realizzate con strumenti tradizionali, ma l’importanza di questa commessa (ricordiamo che Zohr è probabilmente il più grande giacimento di gas mai rinvenuto nel Mediterraneo) ha portato l’azienda a richiedere un ulteriore supporto ai decisori per valutare la convenienza di alcune specifiche di produzione dei prodotti».

Per rispondere a questa richiesta di analisi si è scelto di unire tecnologie tradizionali e alcune soluzioni specifiche del mondo Big Data. «Abbiamo preferito una soluzione mista che fosse rapida da implementare e con un basso costo iniziale. Questa scelta si è rivelata efficace: pur avendo dei limiti tecnologici, il supporto che abbiamo fornito si è rivelato ottimale e ha permesso un saving importante all’azienda». Proprio i risultati ottenuti hanno permesso di iniziare il percorso di migrazione verso le nuove tecnologie di Data Analytics. «Con questo primo intervento siamo riusciti a mostrare quali vantaggi si potevano ottenere con un investimento in queste tecnologie, ma per ottenere risultati più significativi avevamo bisogno di più risorse e per questo si è passati a una fase di sviluppo più organica e strutturale».

Vicini alle necessità, vicini ai dati

In Tenaris esiste una divisione di Ricerca e Sviluppo che si occupa di processo, suddivisa nei vari processi che si realizzano negli stabilimenti. «Il dipartimento di Data Science – spiega Manzoni – oggi supporta i vari decisori a fare le scelte e agisce guidato dal processo. Per questo crediamo che, a livello aziendale, sia opportuno posizionarlo il più possibile vicino agli esperti di dominio». In questo modo si realizzano sinergie importanti e il Data Science diventa parte integrante del flusso di lavoro, offrendo soluzioni pratiche ai clienti interni. Tale impostazione pragmatica si riflette nella scelta di costruire il Data Lake per gradi (NdR: il Data Lake è l’insieme di dati su cui il Big Data lavora). «Il database è un grande contenitore vuoto: diversamente da altri approcci, che prevedono una importazione massiva di tutti i dati aziendali, noi vi mettiamo solo i dati che ci consentono di rispondere alle problematiche man mano che si presentano. Questa scelta ci permette di mantenere il Data Lake di dimensioni gestibili dalla nostra struttura».

Le nuove figure che entrano in azienda

Un classico team di Data Science è composto da diverse figure professionali, tra cui:
– Data Team Manager, la figura che ha il compito di essere l’interfaccia tra il team e le esigenze dell’azienda;
–  Data Engineer, colui che grazie a competenze informatiche sa lavorare con i sistemi distribuiti scegliendo le tecnologie con cui estrarre, trasferire, rappresentare e, infine, manipolare i dati nel modo più efficiente;
– Data Scientist, una figura di carattere scientifico che ha il compito di andare a estrarre valore dai dati raccolti attraverso strumenti matematici e statistici;
– Data Visualization Expert, colui che si occupa dell’interfaccia verso il cliente finale, che è decisiva per rendere fruibile il lavoro di Data Science.
«In Tenaris – spiega Manzoni – abbiamo scelto di iniziare con un team piccolo, in modo da crescere governando la complessità. Stiamo quindi creando una struttura snella e flessibile, dove le figure sono parzialmente sovrapponibili. Questa scelta deriva dal fatto che dobbiamo affrontare problematiche complesse usando tecnologie diverse: quindi abbiamo necessità di figure specialistiche, ma al contempo la complessità di questi temi richiede che siano affrontati collaborando su base di competenze condivise. Inoltre, abbiamo voluto creare un’organizzazione che, grazie a queste parziali sovrapposizioni, sia sempre operativa anche in caso di assenza di una figura».
Da segnalare come la gestione delle attività considerate di supporto, per esempio la gestione del cluster di calcolo (NdR: insieme dei server uniti fra di loro), sia stata affidata a una terza parte esterna. «Non è una semplice esternalizzazione – precisa l’ing. Andrea Rota, Data Engineer in Tenaris – visto che questa realtà rappresenta anche un portatore di spunti e di occasioni di crescita».

 

Vincenzo Manzoni e Andrea Rota
Vincenzo Manzoni e Andrea Rota

Puntare sulle tecnologie open source

Per l’implementazione di queste soluzioni, il team guidato da Manzoni si è trovato di fronte a un bivio: da un lato acquistare una soluzione proprietaria e monolitica, dall’altro procedere per integrazione di tecnologie di diversa provenienza. La scelta è caduta su quest’ultima modalità.

«Gli alti costi iniziali di una soluzione proprietaria monolitica e il rischio di lock-in tecnologico (ci si riferisce al rapporto di dipendenza che si instaura tra un cliente e un fornitore, NdR) ci hanno portato a scegliere di integrare in autonomia prodotti e tecnologie diversi, scegliendo la migliore soluzione disponibile per ogni area funzionale. Dove possibile, si è ricorsi all’open source, cioè software il cui codice sorgente è pubblico e modificabile liberamente. Ciò ci ha permesso di adattare in autonomia strumenti nati in altri settori (su tutti la finanza) al mondo industriale e alle sue criticità. Tenaris contribuisce attivamente allo sviluppo di queste tecnologie – continua Rota – Per esempio abbiamo modificato uno dei principali software open source per l’acquisizione dei dati. Il nostro contributo è stato approvato dalla comunità ed è oggi parte del software stesso. Essendo disponibili gratuitamente a tutti, questi strumenti open source hanno un bacino maggiore di utilizzatori da cui attingere per trovare figure professionali esperte».

A fronte di tale progetto di integrazione, è stato fondamentale disegnare a priori un’architettura in cui fare convivere le tecnologie, tenendo conto anche della possibilità di sostituirle con altre migliori qualora dovessero essere disponibili. «Il valore della nostra architettura è quello di avere fatto convivere tecnologie provenienti da ambiti molto diversi, molto lontani dal core business di Tenaris. Grazie all’open source, per esempio, parte delle tecnologie che usiamo sono state create e rese disponibili da un noto sito web di annunci immobiliari d’oltreoceano». Importante sottolineare come Tenaris abbia scelto di realizzare e operare il proprio sistema Big Data all’interno del proprio data center senza ricorrere a soluzioni cloud. «Se usi il cloud devi fidarti del tuo fornitore per la sicurezza dei dati. Abbiamo quindi scelto di tenerli internamente, privilegiando la sicurezza rispetto alla flessibilità di un parco macchine virtuale. Oggi usiamo il cloud solo come laboratorio per sperimentare tecnologie nuove, ma per farlo utilizziamo dei dati offuscati, resi cioè non correlabili con il processo che li ha generati».

Tra gli sviluppi futuri su cui Manzoni e il suo team sono al lavoro spicca il crescente uso di modelli automatizzati sulla base di quello che viene definito machine learning. «Un esempio di queste applicazioni – conclude Manzoni – è nato per rispondere alla richiesta di prevedere su base oraria i consumi elettrici dello stabilimento di Dalmine, in modo da gestire l’eventuale sovrapproduzione di energia della centrale interna. Unendo l’esperienza dei nostri esperti di gestione energetica, le nostre competenze d’intelligenza artificiale e del software open source rilasciato da Google, abbiamo sviluppato un sistema che ha appreso autonomamente come prevedere il consumo orario delle ore successive».

Tenaris e Industria 4.0

L’area Big Data è solo una delle direzioni di Industria 4.0 in cui Tenaris sta investendo per la digitalizzazione dell’impresa. Alcuni dei processi industriali più evoluti dal punto di vista dell’automazione hanno già implementato con successo soluzioni di sensoristica IoT, sistemi di monitoraggio e assistenza remota e una gamma di sistemi di controllo di processo autoadattativi. L’obiettivo per il futuro è di estendere questo modello a tutti i processi industriali.

Big data, la formazione si fa online

Per realizzare il proprio dipartimento Big Data, Tenaris ha dovuto dotarsi di figure specializzate e dotate di competenze specifiche. «La nostra scelta – spiega Manzoni, Head of Data Science for Industrial Processes – è stata quella di investire in persone già dotate di competenze informatiche avanzate, e di occuparci direttamente della loro formazione specifica sul tema Big Data. In Italia sono pochi i corsi di laurea dedicati a queste tematiche, e abbiamo quindi deciso di formarci usando i migliori corsi universitari internazionali presenti sui siti dei principali MOOCs (Massive Open Online Courses)». Tra le piattaforme online utilizzate da Tenaris e consigliate ai nostri lettori segnaliamo: edX con il corso Data Science and Engineering with Apache Spark, e i percorsi Big Data e Machine Learning di Coursera e Udacity. A livello commerciale, diversi distributori offrono certificazioni sulle proprie soluzioni open source. Uno dei leader delle soluzioni Big Data open source, Cloudera, permette di certificare le competenze dei professionisti attraverso il programma CCA Spark and Hadoop Developer Certification. «Siamo di fronte a tecnologie nuove – conclude Manzoni – La formazione continua è quindi fondamentale. Per questo in Tenaris siamo convinti che sia importante trovare persone che abbiano l’apertura mentale per continuare a imparare». A conferma di questo approccio, lo stesso team collabora con alcune università italiane per offrire formazione in ambito Big Data agli studenti, e la stessa Tenaris contribuisce direttamente alle piattaforme MOOC con corsi online gratuiti e aperti a tutti.