La parola regressione deriva dal vocabolo latino "regressus" che significa tornare indietro o tornare. Quando applicata alla statistica, l'analisi di regressione è una tecnica statistica utilizzata per descrivere come una variabile è correlata a un'altra. Il termine modello di regressione viene utilizzato anche per riferirsi a una funzione matematica che mette in relazione i valori di due variabili. I modelli di regressione possono essere applicati a vari campi come l'economia, la genetica, l'astronomia e la psicologia. In questo articolo esploreremo diversi tipi di modelli di regressione e le basi dell'analisi di regressione.
Introduzione sui diversi tipi di modelli di regressione nel Machine Learning
I problemi di regressione sono prevalenti nell'apprendimento automatico e l'analisi di regressione è la tecnica più utilizzata per risolverli. Si basa sulla modellazione dei dati e comporta la determinazione della linea di adattamento migliore che passa attraverso tutti i punti dati con la distanza più breve possibile tra la linea e ciascun punto dati. Sebbene esistano altre tecniche per l'analisi di regressione, la regressione lineare e logistica sono le più utilizzate. In definitiva, il tipo di modello di analisi di regressione che adottiamo sarà determinato dalla natura dei dati.
Impariamo di più sull'analisi di regressione e sulle varie forme di modelli di regressione.
Sommario sui diversi tipi di modelli di regressione nel Machine Learning
In questo articolo vedremo :
Che cos'è l'analisi di regressione?
Qual è lo scopo di un modello di regressione?
Tipi di modelli di regressione :
Regressione lineare
Regressione logistica
Regressione polinomiale
Regressione ridge
Regressione lazo
Regressione quantilica
Regressione lineare bayesiana
Regressione delle componenti principali
Regressione dei minimi quadrati parziali
Regressione della rete elastica
Che cos'è l'analisi di regressione?
Le tecniche di modellazione predittiva come l'analisi di regressione possono essere utilizzate per determinare la relazione tra le variabili dipendenti (obiettivo) e indipendenti di un set di dati. È ampiamente utilizzato quando le variabili dipendenti e indipendenti sono collegate in modo lineare o non lineare e la variabile target ha un insieme di valori continui. Pertanto, gli approcci dell'analisi di regressione aiutano a stabilire relazioni causali tra variabili, modellazione di serie temporali e previsioni. L'analisi di regressione, ad esempio, è il modo migliore per esaminare la relazione tra le vendite e le spese pubblicitarie per un'azienda.
Qual è lo scopo di un modello di regressione?
L'analisi di regressione viene utilizzata per uno dei due scopi: prevedere il valore della variabile dipendente quando le informazioni sulle variabili indipendenti sono note o prevedere l'effetto di una variabile indipendente sulla variabile dipendente.
Applicazioni principali di un un modello di regressione
I modelli di regressione sono un modo per approssimare la relazione tra due insiemi di variabili, come x e y, utilizzando modelli lineari. I modelli di regressione sono molto utili in molte aree, dalla determinazione del costo di un farmaco da prescrizione alla ricerca della soluzione migliore per il modello di reddito di un'azienda.
Ad esempio, puoi utilizzare i modelli di regressione per determinare in che modo i diversi tipi di campagne di marketing influiscono sulle entrate della tua azienda. I modelli di regressione vengono utilizzati anche a scopo di previsione. Un modello di regressione può essere utilizzato per determinare la linea di adattamento migliore per un determinato insieme di dati. Esistono molti tipi diversi di modelli di regressione, ma i più comuni includono la regressione lineare e la regressione logistica.
Tipi di modelli di regressione
Sono disponibili numerosi approcci di analisi di regressione per fare previsioni. Inoltre, la scelta della tecnica è determinata da vari parametri, tra cui il numero di variabili indipendenti, la forma della retta di regressione e il tipo di variabile dipendente.
Esaminiamo alcune delle tecniche di analisi di regressione più utilizzate:
1. Regressione lineare
La tecnica di modellazione più ampiamente utilizzata è la regressione lineare, che presuppone una connessione lineare tra una variabile dipendente (Y) e una variabile indipendente (X). Impiega una linea di regressione, nota anche come linea di adattamento. La connessione lineare è definita come Y = c+m*X + e, dove 'c' denota l'intercetta, 'm' denota la pendenza della linea e 'e' è il termine di errore.
Il modello di regressione lineare può essere semplice (con una sola variabile dipendente e una indipendente) o complesso (con numerose variabili dipendenti e indipendenti) (con una variabile dipendente e più di una variabile indipendente).
2. Regressione logistica
Quando la variabile dipendente è discreta, è applicabile la tecnica di regressione logistica. In altre parole, questa tecnica viene utilizzata per calcolare la probabilità di occorrenze mutuamente esclusive come pass/fail, true/false, 0/1 e così via. Pertanto, la variabile target può assumere solo uno dei due valori e una curva sigmoidea rappresenta la sua connessione alla variabile indipendente e la probabilità ha un valore compreso tra 0 e 1.
3. Regressione polinomiale
La tecnica dell'analisi di regressione polinomiale viene utilizzata per rappresentare una relazione non lineare tra variabili dipendenti e indipendenti. È una variante del modello di regressione lineare multipla, tranne per il fatto che la linea di adattamento migliore è curva anziché diritta.
4. Regressione Ridge
Quando i dati mostrano multicollinearità, cioè la tecnica di regressione della cresta viene applicata quando le variabili indipendenti sono altamente correlate. Sebbene le stime dei minimi quadrati siano imparziali nella multicollinearità, le loro varianze sono sufficientemente significative da far divergere il valore osservato dal valore effettivo. La regressione di cresta riduce gli errori standard distorcendo le stime di regressione.
La variabile lambda (λ) nell'equazione di regressione della cresta risolve il problema della multicollinearità.
5. Regressione Lazo
Come per la regressione ridge, la tecnica del lazo (Least Absolute Shrinkage and Selection Operator) penalizza l'entità assoluta del coefficiente di regressione. Inoltre, la tecnica di regressione con lazo impiega la selezione variabile, che porta alla contrazione dei valori dei coefficienti allo zero assoluto.
6. Regressione quantilica
L'approccio della regressione quantile è un sottoinsieme della tecnica della regressione lineare. Viene utilizzato quando i requisiti di regressione lineare non sono soddisfatti o quando i dati contengono valori anomali. In statistica viene utilizzata la regressione quantile.
7. Regressione lineare bayesiana
La regressione lineare bayesiana è una forma di tecnica di analisi di regressione utilizzata nell'apprendimento automatico che utilizza il teorema di Bayes per calcolare i valori dei coefficienti di regressione. Piuttosto che determinare i minimi quadrati, questa tecnica determina la distribuzione a posteriori delle caratteristiche. Di conseguenza, l'approccio supera la normale regressione lineare in termini di stabilità.
8. Regressione delle componenti principali
I dati di regressione multicollineare vengono spesso valutati utilizzando l'approccio di regressione delle componenti principali. L'approccio della regressione delle componenti significative, come la regressione della cresta, riduce gli errori standard distorcendo le stime di regressione. L'analisi delle componenti principali (PCA) viene utilizzata prima per modificare i dati di addestramento, quindi i campioni trasformati risultanti vengono utilizzati per addestrare i regressori.
9. Regressione dei minimi quadrati parziali
La tecnica di regressione dei minimi quadrati parziali è una tecnica di analisi di regressione basata sulla covarianza veloce ed efficiente. È vantaggioso per problemi di regressione con molte variabili indipendenti con un'elevata probabilità di multicollinearità tra le variabili. Il metodo riduce il numero di variabili a un numero gestibile di predittori, quindi viene utilizzato in una regressione.
10. Regressione della rete elastica
La regressione della rete elastica combina tecniche di regressione con cresta e lazo che sono particolarmente utili quando si tratta di dati fortemente correlati. Regolarizza i modelli di regressione utilizzando le penalità associate ai metodi di regressione con ridge e lazo.
I limiti dei modelli di regressione
I modelli di regressione vengono utilizzati nell'apprendimento automatico per trovare la linea di adattamento migliore che passa attraverso tutti i punti dati con la distanza più breve possibile tra la linea e ciascun punto dati. Tuttavia, i modelli di regressione hanno dei limiti. Esistono molti tipi diversi di modelli di regressione, ma i più comuni sono la regressione lineare e la regressione logistica. Ognuno di questi modelli ha i propri vantaggi e svantaggi. Il principale vantaggio della regressione lineare è che non è limitato a due sole dimensioni. La regressione logistica è limitata a due dimensioni, ma viene spesso utilizzata nei casi in cui i dati sono linearmente correlati.
Riepilogo sui tipi di modelli di regressione nel Machine Learning
L'apprendimento automatico utilizza una varietà di altri modelli di regressione, come la la regressione graduale, la regressione multipla e la regressione robusta, oltre a quelli discussi sopra. Per ciascuna di queste varie tecniche di regressione, sapere quanta precisione si può ottenere dai dati forniti. In generale, l'analisi di regressione offre due vantaggi significativi, che sono i seguenti:
Denota la relazione tra due variabili, una dipendente e una indipendente.
Dimostra l'entità dell'effetto di una variabile indipendente su una variabile dipendente.
Spero che ti sia piaciuto leggere questo articolo sui modelli di regressione.
Comentarios