Introduzione ai Data Warehouse
Di seguito è riportato un articolo approfondito che spiega cos'è il data warehousing, nonché i suoi tipi, caratteristiche, vantaggi e svantaggi.
Alcuni degli argomenti che tratteremo nell'articolo sono:
1. Che cos'è un data warehouse?
2. Perché il data warehousing è fondamentale?
3. Applicazioni e caratteristiche di un data warehouse
4. Vantaggi e svantaggi di un data warehouse
Cos'è il Data Warehouse?
Un Data Warehouse (DW) è un repository di grandi quantità di dati organizzati. I dati possono essere consolidati da più fonti. I DW sono database relazionali progettati per il reporting analitico e il processo decisionale puntuale nelle organizzazioni. I dati utilizzati per questo scopo sono isolati e ottimizzati dai dati delle transazioni di origine, quindi non influiranno sull'attività principale.
Quando un'organizzazione introduce qualsiasi cambiamento aziendale, DW viene utilizzato per analizzare gli effetti di tale cambiamento, quindi DW può essere utilizzato anche per monitorare i processi non decisionali.
I data warehouse sono principalmente sistemi di sola lettura poiché i dati operativi sono tenuti separati dai data warehouse. Ciò fornisce un buon ambiente di scrittura di query per il recupero del volume di dati più elevato. Pertanto, DW fungerà da motore di back-end per gli strumenti di Business Intelligence che mostrano report e dashboard agli utenti aziendali. È ampiamente utilizzato nei settori bancario, finanziario, al dettaglio, ecc.
Figura 1: i data mart sono sottoinsiemi dei dati del data warehouse.
Perché il data warehousing è fondamentale?
I motivi principali per cui il data warehousing è fondamentale sono i seguenti:
I data warehouse combinano tutti i dati operativi provenienti da diverse fonti eterogenee di "diversi formati" e attraverso il processo di estrazione, trasformazione e caricamento (ETL), caricano i dati in DW in un "formato dimensionale standardizzato" all'interno di un'organizzazione.
Un data warehouse conserva i dati attuali e storici per il reporting analitico e il processo decisionale basato sui fatti.
Migliora le tue decisioni aziendali. I leader aziendali di successo sviluppano strategie basate sui dati e raramente prendono decisioni senza considerare i fatti. Il data warehousing consente ai responsabili delle decisioni aziendali di accedere più facilmente a diversi set di dati in modo più rapido ed efficiente e di ricavare informazioni che guideranno le loro strategie aziendali e di marketing.
Le piattaforme di data warehouse consentono ai leader aziendali di accedere alle attività storiche della propria organizzazione e di valutare le iniziative che hanno avuto successo o meno in passato. Consente ai dirigenti di vedere dove possono ridurre i costi, massimizzare l'efficienza e aumentare le vendite per aumentare i profitti.
Caratteristiche di un Data Warehouse
La progettazione del data warehouse si basa sui seguenti criteri: orientato al soggetto, integrato, non volatile e variabile nel tempo. 1) Orientato al soggetto: possiamo chiamare un data warehouse orientato al soggetto se possiamo analizzare i dati in un'area particolare piuttosto che applicare dati saggi. Di conseguenza, il processo decisionale diventa più semplice. All'interno di un sistema educativo, le aree tematiche potrebbero essere studenti, materie, voti, insegnanti, ecc.
2) Integrato: i dati nel data warehouse sono integrati da diverse fonti, come altri database relazionali, file flat, ecc. Viene recuperata un'enorme quantità di dati per un'analisi dei dati efficace. Tuttavia, diverse fonti di dati possono essere in formati diversi, il che potrebbe causare conflitti di dati. Tutti questi dati vengono riuniti in un formato coerente nell'intero sistema nel data warehouse.
3) Non volatile: una volta che i dati sono stati caricati nel data warehouse, non possono essere modificati. In senso logico, questo è accettabile, poiché un frequente cambio di dati impedisce l'analisi. È possibile caricare il database operativo su base pianificata in un data warehouse. Durante questo processo, vengono aggiunti nuovi dati, ma i dati precedenti non vengono eliminati e rimangono come dati storici.
4) Variante temporale: tutti i dati storici insieme ai dati recenti nel data warehouse sono fondamentali per recuperare dati di qualsiasi durata. Per confrontarlo con gli anni precedenti e analizzare le tendenze, tutti i vecchi dati che hanno 6 mesi, 1 anno o anche più vecchi saranno necessari per rapporti, grafici, ecc.
Figura 2: Caratteristiche del data warehouse
Esempi e Applicazioni di Data Warehouse
Nel data warehousing, la Business Intelligence (BI) viene utilizzata per il processo decisionale. La BI gioca un ruolo importante una volta che i dati nella DW sono stati caricati, analizzandoli e presentandoli agli utenti aziendali. Il termine "applicazioni di data warehouse" implica in modo efficace come i dati possono essere manipolati e utilizzati. Le applicazioni di data warehouse rientrano in tre categorie:
elaborazione delle informazioni, elaborazione analitica e data mining.
Elaborazione delle informazioni: un data warehouse consente di elaborare le informazioni che memorizza. I dati possono essere elaborati tramite query, analisi statistiche di base e reportistica.
Elaborazione analitica: le informazioni archiviate in un data warehouse possono essere elaborate analiticamente. Con l'aiuto delle operazioni di base OLAP (Online Analytic Processing Server), come operazioni slice-and-dice, drill-down e drill-up e pivot, i dati possono essere analizzati.
Data mining: attraverso il data mining, la conoscenza può essere scoperta trovando schemi e associazioni nascosti, costruendo modelli analitici ed eseguendo classificazione e previsione. I risultati del data mining possono essere presentati visivamente.
1. Elaborazione delle informazioni: questo è un tipo di applicazione in cui il data warehouse consente un contatto diretto e individuale con i dati che archivia. Utilizzo di query dirette sui dati con analisi statistica di base dei dati.
Gli strumenti che DW supporta per l'elaborazione delle informazioni sono:
1.1) Strumenti di query: utilizzando gli strumenti di query, l'utente può esplorare i dati e generare report o grafici in base ai requisiti aziendali.
1.2) Strumenti di reporting: gli strumenti di reporting vengono utilizzati quando l'azienda desidera visualizzare i risultati in un determinato formato su base regolare, ad esempio giornaliera, settimanale o mensile. Questo tipo di report può essere salvato e recuperato in qualsiasi momento.
1.3) Strumenti statistici: per generare questi risultati, verranno utilizzati strumenti statistici se l'azienda desidera esaminare i dati da una prospettiva più ampia. Comprendendo questi risultati strategici, le aziende possono fare previsioni e conclusioni.
2 . Elaborazione analitica: questa è un'applicazione che consente l'analisi dei dati archiviati in un data warehouse. Slice and Dice, Drill Down, Roll Up e Pivoting sono alcune delle operazioni che possono essere utilizzate per valutare i dati.
2.1) Slice-and-Dice: un data warehouse consente operazioni slice-and-dice per valutare i dati da diversi livelli e da una varietà di prospettive. Internamente, il meccanismo di drill-down viene utilizzato per l'azione slice-and-dice. Lo Slicing è una tecnica per manipolare i dati dimensionali.
Se ci concentriamo su una singola area come parte del requisito aziendale, lo slicing valuta le dimensioni di quella specifica regione in base ai criteri e restituisce i risultati. Dicing è un programma che esegue processi analitici. Dicing fornisce una varietà di punti di vista ingrandendo un insieme selezionato di proprietà in tutte le dimensioni. Una o più fette successive vengono utilizzate per calcolare le dimensioni. 2.2) Drill down: Drill down è un'operazione per scorrere un numero di riepilogo a livelli di dettaglio minori se l'azienda desidera arrivare a un livello più dettagliato di qualsiasi numero di riepilogo. Questo dà una buona indicazione di cosa sta succedendo e dove l'azienda dovrebbe concentrare i suoi sforzi.
2.3) Roll up: Roll up è l'esatto opposto del drill-down. Il roll up entra in gioco se l'azienda ha bisogno di dati di riepilogo. Avanzando la struttura dimensionale, aggrega i dati a livello di dettaglio. I roll-up vengono utilizzati per esaminare lo sviluppo e le prestazioni di un sistema.
3. Data mining: questo è un tipo di applicazione in cui il data warehouse facilita la scoperta della conoscenza dei dati e i risultati vengono visualizzati utilizzando strumenti di visualizzazione.
È difficile eseguire query e approfondire il data warehouse per acquisire tutte le potenziali informazioni dettagliate sui dati poiché la quantità di dati aumenta in vari settori. Quindi il data mining entra in scena per aiutare con la scoperta della conoscenza.
In questo modo vengono inseriti i dati con tutte le associazioni precedenti, i risultati e così via e si prevede il futuro. Modelli nascosti, correlazioni, classificazioni e previsioni possono essere trovati nei dati.
Figura 3: Applicazioni dei data warehouse
Vantaggi e svantaggi dei data warehouse
Vantaggi dei data warehouse : Quando un sistema di data warehouse è operativo, un'azienda ottiene i seguenti vantaggi:
Miglioramento della business intelligence
Miglioramento delle prestazioni del sistema e delle query.
Molteplici fonti di business intelligence
Accesso ai dati in tempo reale
Intelligenza del passato
Eccezionale ritorno sull'investimento
Svantaggi dei data warehouse : Nonostante sia un sistema di grande successo, è utile essere consapevoli di alcuni dei suoi difetti:
La creazione di un Data Warehouse è un'operazione estremamente dispendiosa in termini di tempo e difficile.
Il costo della manutenzione è elevato perché il sistema richiede continui miglioramenti.
Sviluppatori, tester e utenti dovrebbero avere una formazione adeguata per comprendere il sistema DW.
È possibile che i dati sensibili non possano essere inseriti in DW per il processo decisionale.
Qualsiasi ristrutturazione del sistema di origine dei processi aziendali ha un impatto significativo su DW.
Conclusione e riflessioni sui Data WareHouse
Il modo in cui archiviamo, organizziamo e analizziamo i dati è cambiato radicalmente negli ultimi anni. I data warehouse basati su cloud offrono metodi migliorati per estrarre e analizzare le informazioni dai dati. Rendono il data warehousing accessibile ed efficace per le organizzazioni di piccole e medie dimensioni, nonché per le aziende grandi e ben finanziate. Invece di investire mesi e milioni di dollari in un Enterprise Data Warehouse monolitico, ora è possibile configurare un data warehouse basato su cloud in pochi giorni, con servizi gestiti e storage basato su cloud a partire da poche centinaia di dollari al mese.
Speriamo di essere stati in grado di fornire un breve background del data warehousing, nell'articolo abbiamo trattato la definizione, i tipi, le caratteristiche, i vantaggi e gli svantaggi del data warehousing.
Altre letture consigliate sui Data WareHouse:
SQL vs. NoSQL : le principali differenze tra i database SQL e NoSQL
Dove trovare i migliori Dataset per esercitarsi con il Machine learning e Deep Learning
Strumenti e Tool Di Visualizzazione Dati usati nella Data Science
Cosa è la business intelligence (BI) , come applicarla alla tua impresa
I Migliori Libri Sull’ Intelligenza Artificiale in Italiano da Leggere 2022
Big Data, Data Science e Machine Learning i Migliori Libri per Principianti e non
Commenti