Che cosa è l'analisi esplorativa dei dati ?
L'analisi esplorativa dei dati si riferisce al processo critico di eseguire indagini iniziali sui dati in modo da scoprire modelli, individuare anomalie, testare ipotesi e verificare ipotesi con l'aiuto di statistiche riassuntive e rappresentazioni grafiche.
È una buona pratica comprendere prima i dati e cercare di raccogliere il maggior numero di informazioni da essi. L'EDA consiste nel dare un senso ai dati in mano, prima di partire con l'implementare mille modelli predittivi e milioni di layer .
Analisi esplorativa dei dati EDA - Un esempio pratico step by step
Per condividere la mia conoscenza del concetto e delle tecniche che conosco, prenderò un esempio di variante del set di dati sulla qualità del vino disponibile su UCI Machine Learning Repository e cercherò di acquisire il maggior numero di informazioni dal set di dati utilizzando EDA.
Siccome ci teniamo a condividere con voi tutto il materiale che usiamo per scrivere gli articoli vi lasciamo qui tutti i file che potrebbero servirvi per seguirci mentre programmate.
Per cominciare, ho importato le librerie necessarie (per questo esempio pandas, numpy, matplotlib e seaborn) e caricato il set di dati.
Nota: qualsiasi deduzione che ho potuto estrarre, l'ho menzionata con punti elenco.
I dati originali sono separati dal delimitatore “ ; “ in un dato set di dati.
Per dare un'occhiata più da vicino ai dati ci si è avvalso della funzione “ .head()” della libreria pandas che restituisce le prime cinque osservazioni del set di dati. Analogamente “.tail()” restituisce le ultime cinque osservazioni del set di dati.
Ho scoperto il numero totale di righe e colonne nel set di dati utilizzando ".shape".
Il set di dati comprende 4898 osservazioni(righe) e 12 caratteristiche(colonne).
Di cui una è variabile dipendente e il resto 11 sono variabili indipendenti - caratteristiche fisico-chimiche.
È anche una buona pratica conoscere le colonne e i loro tipi di dati corrispondenti, oltre a scoprire se contengono valori null o meno.
I dati hanno solo valori float e interi.
Nessuna colonna variabile ha valori nulli/mancanti.
La funzione description() in pandas è molto utile per ottenere varie statistiche di riepilogo. Questa funzione restituisce il conteggio, la media, la deviazione standard, i valori minimo e massimo e i quantili dei dati.
Qui, come puoi notare, il valore medio è inferiore al valore mediano di ciascuna colonna che è rappresentato dal 50% (50° percentile) nella colonna dell'indice.
C'è in particolare una grande differenza tra il 75% e i valori massimi dei predittori "zucchero residuo", "anidride solforosa libera", "anidride solforosa totale".
Quindi le osservazioni 1 e 2 suggeriscono che ci sono valori estremi-Outlier nel nostro set di dati.
Alcune informazioni chiave semplicemente guardando alla variabile dipendente sono le seguenti:
La variabile target/Variabile dipendente è di natura discreta e categorica.
La scala del punteggio di "qualità" varia da 1 a 10; dove 1 è scarso e 10 è il migliore.
1,2 e 10 Le valutazioni di qualità non sono fornite da alcuna osservazione. Solo i punteggi ottenuti sono compresi tra 3 e 9.
Questo ci dice il conteggio dei voti di ogni punteggio di qualità in ordine decrescente.
la “qualità” ha la maggior parte dei valori concentrati nelle categorie 5, 6 e 7.
Solo poche osservazioni fatte per le categorie 3 e 9.
Ho avuto una buona visione dei dati. Ma questa è la cosa con Data Science più ti coinvolgi più è difficile per te smettere di esplorare. Ora esploriamo i dati con bellissimi grafici. Python ha una libreria di visualizzazione, Seaborn , che si basa su matplotlib. Fornisce grafici statistici molto interessanti per eseguire analisi sia univariate che multivariate .
Per utilizzare la regressione lineare per la modellazione, è necessario rimuovere le variabili correlate per migliorare il modello. È possibile trovare le correlazioni utilizzando la funzione ".corr()" e visualizzare la matrice di correlazione utilizzando una mappa di calore in seaborn.
Analisi esplorativa dati con la Mappa di calore e Correlazione
Le tonalità scure rappresentano una correlazione positiva mentre le tonalità più chiare rappresentano una correlazione negativa.
Se imposti annot=True, otterrai i valori in base ai quali le caratteristiche sono correlate tra loro nelle celle della griglia.
È buona norma rimuovere le variabili correlate durante la selezione delle funzioni.
Qui possiamo dedurre che "densità" ha una forte correlazione positiva con "zucchero residuo" mentre ha una forte correlazione negativa con "alcol".
"anidride solforosa libera" e "acido citrico" non hanno quasi alcuna correlazione con la "qualità".
Poiché la correlazione è zero, possiamo dedurre che non esiste una relazione lineare tra questi due predittori. Tuttavia, è sicuro eliminare queste funzionalità nel caso in cui si applichi il modello di regressione lineare al set di dati.
Un diagramma a scatola (o diagramma a scatola e baffi) mostra la distribuzione dei dati quantitativi in un modo che facilita i confronti tra le variabili. Il riquadro mostra i quartili del set di dati mentre i baffi si estendono per mostrare il resto della distribuzione. Il diagramma a scatola (noto anche come diagramma a scatola e baffi) è un modo standardizzato di visualizzare la distribuzione dei dati in base al riepilogo di cinque numeri:
Minimo
Primo quartile
Mediano
Terzo quartile
Massimo.
Nel box plot più semplice il rettangolo centrale si estende dal primo quartile al terzo quartile (l'intervallo interquartile o IQR).
Un segmento all'interno del rettangolo mostra la mediana e i "baffi" sopra e sotto la casella mostrano le posizioni del minimo e del massimo.
Gli outlier sono 3×IQR o più al di sopra del terzo quartile o 3×IQR o più al di sotto del primo quartile.
Nel nostro set di dati, ad eccezione di "alcol", tutte le altre colonne delle caratteristiche mostrano valori anomali.
Ora per verificare la linearità delle variabili è una buona pratica tracciare il grafico della distribuzione e cercare l'asimmetria delle caratteristiche. La stima della densità del kernel (kde) è uno strumento molto utile per tracciare la forma di una distribuzione.
La colonna "pH" sembra essere distribuita normalmente
rimanenti tutte le variabili indipendenti sono asimmetriche a destra/asimmetriche positivamente.
Infine, per riassumere tutta l'analisi esplorativa dei dati è un approccio filosofico e artistico per valutare ogni sfumatura dai dati al primo incontro.
Puoi dare un'occhiata all'intero progetto qui e provare con approcci diversi, ad es. prova un grafico a coppie e condividi tutte le inferenze che potresti trarre da esso o se non sono riuscito a catturare alcuna informazione utile nel mio approccio, condividi anche questo nei commenti.
Comments