Mondomatica

Esperienze e pratiche del mondo dell'informatica

Grandi quantità di dati (disegno C. Batini)
Big data… Cloud


I Big Data rappresentano la grande crescita di disponibilità di dati nell’attuale epoca informatica di internet in cui si verificano ulteriori esigenze di raccolta dati, analisi e nuove modalità di interpretazione; il Cloud non potrà che essere il contenitore (la metafora astratta della nuvola) che li potrà preservare.

L’enorme quantità di dati, che siano di qualità o che siano incoerenti, incompleti, imprecisi, ecc., richiederanno sofisticate analisi per il loro trattamento. In caso di bassa qualità dei dati gli statistici possono “soccorrere” gli informatici con l’attivazione di particolari tecniche di recupero. Le analisi campionarie, descrittive, deterministiche, si arrendono in genere di fronte ai Big Data che lasciano il passo a ipotesi probabilistiche e che potranno consentire miglioramenti della qualità delle banche dati. Da un punto di vista dimensionale un buon sinonimo di Big Data potrebbe essere “Big Data File” o "Grandi sorgenti di informazione".

Il termine Big data in altre parole sintetizza la capacità di analisi statistica applicata a dati strutturati o de-strutturati, numerici o testuali, quantitativi o qualitativi, appartenenti a grandi insiemi di dati provenienti da diverse fonti digitali.

Tra le finalità d’uso delle ricadute dei Big data si possono annoverare quelle legate al “business”, anche in tempo reale, per maggiori conoscenze del mercato e delle utenze e quelle connesse ai “servizi” per il loro miglioramento ed il perseguimento della “Customer satisfaction”. Ad esempio la grande disponibilità in rete di fotografie geolocalizzate possono fornire informazioni sui flussi turistici, così come l'analisi dei flussi di traffico potrebbero fornire informazioni preventive sugli incidenti stradali.

Le tecniche dei Big data non devono comunque sopraffare l’indirizzo verso la qualità dei dati (specie di quelli denominati come convenzionali-burocratici), anche se è ovvio che con i Big data si può compensare l’inefficienza, i processi obsoleti, ecc.

La qualità dei dati implica un processo pro-attivo destinato al miglioramento organizzativo e dei servizi, i Big data sono finalizzati a catturare informazioni nel breve periodo, anche prescindendo da finalità migliorative.

Per inciso si può anche affermare che esiste una certa relazione tra le cinque V del concetto dei Big Data (si veda ISO/IEC 20546:2019 Information Technology - Big Data - Overview and vocabulary)
e le quindici caratteristiche di qualità dei dati dello standard ISO/IEC 25012, relazione in approfondimento nello Study Group SC7 WG6:
- Variabilità: accuratezza…
- Varietà: coerenza…
- Velocità: tempestività, efficienza…
- Veridicità: accuratezza, credibilità…
- Volatilità: efficienza…

Tenendo conto di differenze dei Big data con i dati tradizionali si evidenziano le seguenti parole chiave discusse nel sotto comitato ISO/IEC JTC1 SC42 sull'Intelligenza Artificiale:
- volume: archivi troppo grandi
- velocità: i dati arrivano molto veloci
- variabilità: cambiano troppo in fretta
- veracità: contengono rumore
- varietà: le fonti e i formati sono troppo diverse/i

Se si adotteranno parallelamente anche nuovi standard come l’ISO/IEC 25012 “Data quality model”, si disporrà di dati soddisfacenti le caratteristiche di qualità condivise a livello internazionale valide per ogni dominio applicativo. Anche se è stato pensato per i dati strutturati alcuni principi sono validi anche per le immagini, i suoni, ecc..

La Data Quality rappresenta un approccio per il raggiungimento della qualità partendo da un framework di riferimento ed intervenendo attivamente nei processi di costruzione del dato fin dall’inizio (quasi simile ad un approccio “forward” o di “re-engineering”); I Big Data rappresentano un approccio per l’interpretazione e comprensione dei dati esistenti, strutturati e non strutturati, a prescindere dalla loro qualità (quasi vicino ad un approccio di “reverse engineering”). Le analisi sono riferibili a diversi possibili contesti: semantici, visivi, di geo-localizzazione. Un altro sinonimo di Big Data potrebbe quindi essere “Big context of Data”.

All’aumentare della quantità dei dati è sperabile che si svilupperanno nuove occupazioni e nuovi lavori a sostegno di una nuova esigenza di qualità: utilizzare i dati prodotti per nuove conoscenze e nuove disponibilità a supporto di decisioni più tempestive, basate su informazioni attendibili. Una nuova professione è quella del “Data scientist”, che in chiave moderna traducono in gran parte le competenze di uno Statistico.

Riprendendo la metafora della “nuvola”, viene facilmente da pensare che essa potrà contribuire a generare una “pioggia di dati” socialmente utili. Un’immensità di dati che si raccolgono in una nuvola e che potrà distribuire una abbondante quantità di informazioni supplementari.

In tale ottica il termine “Cloud Computing” si completa con il termine “Data Cloud Computing” comprendente quindi la componente “Data as a service”.

I Big data, il Cloud, l’Open data, la Data quality, la Data Governance… potranno essere elementi convergenti di progresso e di sviluppo, purché possano soddisfare i fondamentali criteri di sicurezza e riservatezza, in particolare per i Cloud pubblici e ibridi.

Notizie

Internet of things, Big bang dei dati
Entro il 2020 nell'universo digitale sarà toccata quota 44 trilioni di GB. L'Internet of things porterà l'universo digitale a moltiplicare le sue dimensioni… tra il 2013 e il 2020… passando dai 4,4 trilioni di ai 44 trilioni di gigabyte… I dati provenienti dagli oggetti connessi rappresentano il 2% di tutti i dati del mondo e IDC prevede che, entro il 2020, il numero dei dispositivi connessi crescerà fino a 32 miliardi, rappresentando il 10% di tutti i dati mondiali… nel 2013, meno del 20% dei dati nell'universo digitale è stato toccato dal cloud, ma entro il 2020 la percentuale raddoppierà, passando al 40%. (dal Corriere delle Comunicazioni, 21 aprile 2014, pag. 26)

L'universo digitale: entro il 2020 i dati cresceranno
di 45 volte
Nel 2009 le informazioni digitali hanno registrato un incremento del 62% con riferimento al 2008, raggiungendo gli 800 mila petabyte (pari a 800 miliardi di gigabyte). Nel 2010, il volume complessivo delle informazioni digitali arriverà a toccare 1,2 zettabyte (un'unità di misura pari a 1 milione di petabyte). Entro il 2020 i dati cresceranno di 45 volte: è quanto emerge dallo studio ISC "The Digital Universe Decade - Are You Ready?, sponsorizzato da Ecm Corporation. (www.zerouno.it - Newsletter del 4 giugno 2010)

Informativa sulla Privacy e sui Cookies.

Utenti online