top of page
Team I.A. Italia

La vera differenza tra statistica e machine learning

No, statistica e machine learning non sono la stessa cosa. Se il Machine Learning è solo una statistica potenziata, l'architettura è solo una costruzione di castelli di sabbia potenziata.

Introduzione alla differenza tra statistica e machine learning

Non sei stanco di sentire questo dibattito reiterato sui social media e all'interno della tua Università o Ufficio quasi quotidianamente. Speriamo che entro la fine di questo articolo avrete una posizione più informata su questi termini alquanto vaghi.


La vera differenza tra statistica e machine learning
La vera differenza tra statistica e machine learning


Differenza tra statistica e machine learning, la sfida eterna

Contrariamente alla credenza popolare, l'apprendimento automatico è in circolazione da diversi decenni. Inizialmente è stato evitato a causa dei suoi grandi requisiti di calcolo e dei limiti della potenza di calcolo presenti all'epoca. Tuttavia, l'apprendimento automatico ha visto una rinascita negli ultimi anni a causa della preponderanza dei dati derivanti dall'esplosione di informazioni.


Quindi, se apprendimento automatico e statistica sono sinonimi l'uno dell'altro, perché non vediamo tutti i dipartimenti di statistica in ogni università chiudere o passare a un dipartimento di "apprendimento automatico"? Perché non sono la stessa cosa!

Ci sono diverse vaghe affermazioni che sento spesso su questo argomento, la più comune è qualcosa del genere:

“La principale differenza tra apprendimento automatico e statistica è il loro scopo. I modelli di apprendimento automatico sono progettati per effettuare le previsioni più accurate possibili. I modelli statistici sono progettati per l'inferenza sulle relazioni tra variabili.

Sebbene ciò sia tecnicamente vero, non fornisce una risposta particolarmente esplicita o soddisfacente. Una delle principali differenze tra apprendimento automatico e statistica è proprio il loro scopo. Tuttavia, dire che l'apprendimento automatico riguarda previsioni accurate mentre i modelli statistici sono progettati per l'inferenza è quasi un'affermazione priva di significato a meno che tu non sia esperto di questi concetti.


In primo luogo, dobbiamo capire che statistica e modelli statistici non sono la stessa cosa.

La statistica è lo studio matematico dei dati. Non puoi fare statistiche se non hai dati. Un modello statistico è un modello per i dati che viene utilizzato per dedurre qualcosa sulle relazioni all'interno dei dati o per creare un modello in grado di prevedere valori futuri. Spesso questi due vanno di pari passo.


Quindi ci sono in realtà due cose di cui dobbiamo discutere: in primo luogo, in che modo le statistiche sono diverse dal machine learning e, in secondo luogo, in che modo i modelli statistici sono diversi dal machine learning.


Per rendere questo leggermente più esplicito, ci sono molti modelli statistici che possono fare previsioni, ma l'accuratezza predittiva non è il loro punto di forza.

Allo stesso modo, i modelli di machine learning forniscono vari gradi di interpretabilità, dalla regressione con lazo altamente interpretabile alle reti neurali impenetrabili , ma generalmente sacrificano l'interpretabilità per il potere predittivo.


Da una prospettiva di alto livello, questa è una buona risposta. Abbastanza buona per la maggior parte delle persone. Tuttavia, ci sono casi in cui questa spiegazione ci lascia con un malinteso sulle differenze tra apprendimento automatico e modellazione statistica.


 

Consideriamo l'esempio della regressione lineare.

Modelli statistici vs machine learning


La vera differenza tra statistica e machine learning
La vera differenza tra statistica e machine learning

Mi sembra che la somiglianza dei metodi utilizzati nella modellazione statistica e nell'apprendimento automatico abbia indotto le persone a presumere che siano la stessa cosa. Questo è comprensibile, ma semplicemente non è vero.


L'esempio più ovvio è il caso della regressione lineare, che è probabilmente la causa principale di questo malinteso. La regressione lineare è un metodo statistico, possiamo addestrare un regressore lineare e ottenere lo stesso risultato di un modello di regressione statistica con l'obiettivo di ridurre al minimo l'errore al quadrato tra i punti dati.


Vediamo che in un caso facciamo qualcosa chiamato "addestrare" il modello, che implica l'utilizzo di un sottoinsieme dei nostri dati ( e anche di software e linguaggi di programmazione ), e non sappiamo quanto bene funzionerà il modello finché non "testiamo" questi dati su dati aggiuntivi che non erano presenti durante l'allenamento, chiamato test set. Lo scopo del machine learning, in questo caso, è quello di ottenere le migliori prestazioni sul set di test.


Per il modello statistico, troviamo una linea che riduce al minimo l'errore quadratico medio su tutti i dati, assumendo che i dati siano un regressore lineare con l'aggiunta di rumore casuale, che è tipicamente di natura gaussiana. Non sono necessari training e test set. Per molti casi, specialmente nella ricerca (come l'esempio del sensore di seguito), lo scopo del nostro modello è caratterizzare la relazione tra i dati e la nostra variabile di risultato, non fare previsioni sui dati futuri. Chiamiamo questa procedura inferenza statistica, in contrapposizione a previsione. Tuttavia, possiamo ancora utilizzare questo modello per fare previsioni e questo potrebbe essere il tuo scopo principale, ma il modo in cui il modello viene valutato non comporterà un set di test e comporterà invece la valutazione della significatività e della robustezza dei parametri del modello.


Lo scopo dell'apprendimento automatico (supervisionato) è ottenere un modello in grado di fare previsioni ripetibili. In genere non ci interessa se il modello è interpretabile, anche se personalmente consiglierei di testare sempre per garantire che le previsioni del modello abbiano senso. L'apprendimento automatico è incentrato sui risultati, è probabile che funzioni in un'azienda in cui il tuo valore è caratterizzato esclusivamente dalle tue prestazioni. Considerando che, la modellazione statistica riguarda più la ricerca di relazioni tra le variabili e il significato di tali relazioni, ma anche la previsione.


Statistica vs Machine Learning : esempio di regressione lineare

Penso che questo malinteso sia abbastanza ben incapsulato in questa sfida di 10 anni apparentemente spiritosa che confronta le statistiche e l'apprendimento automatico.


Statistica vs Machine Learning : esempio di regressione lineare
Statistica vs Machine Learning : esempio di regressione lineare

Tuttavia, confondere questi due termini basandosi esclusivamente sul fatto che entrambi sfruttano le stesse nozioni fondamentali di probabilità è ingiustificato.


Ad esempio, se affermiamo che l'apprendimento automatico è semplicemente una statistica potenziata basata su questo fatto, potremmo anche fare le seguenti affermazioni.


La fisica è solo matematica potenziata.
La zoologia è solo una raccolta di francobolli potenziata.
L'architettura è solo una costruzione potenziata di castelli di sabbia.

Queste affermazioni (soprattutto l'ultima) sono piuttosto ridicole e tutte basate su questa idea di confondere i termini che sono costruiti su idee simili (gioco di parole inteso per l'esempio di architettura).


In realtà, la fisica è costruita sulla matematica, è l'applicazione della matematica per comprendere i fenomeni fisici presenti nella realtà. La fisica include anche aspetti della statistica e la forma moderna della statistica è tipicamente costruita da un framework costituito dalla teoria degli insiemi di Zermelo-Frankel combinata con la teoria della misura per produrre spazi di probabilità. Entrambi hanno molto in comune perché provengono da un'origine simile e applicano idee simili per raggiungere una conclusione logica. Allo stesso modo, l'architettura e la costruzione di castelli di sabbia probabilmente hanno molto in comune - anche se non sono un architetto quindi non posso dare una spiegazione informata - ma chiaramente non sono la stessa cosa.


Prima di andare avanti, chiarirò rapidamente altri due malintesi comuni relativi all'apprendimento automatico e alle statistiche. Questi sono che l'IA è diversa dall'apprendimento automatico e che la scienza dei dati è diversa dalle statistiche. Questi sono problemi abbastanza incontrastati, quindi sarà veloce.

La scienza dei dati è essenzialmente metodi computazionali e statistici applicati ai dati, che possono essere insiemi di dati piccoli o grandi. Ciò può includere anche cose come l'analisi esplorativa dei dati, in cui i dati vengono esaminati e visualizzati per aiutare lo scienziato a comprendere meglio i dati e trarne inferenze. La scienza dei dati include anche cose come la disputa e la preelaborazione dei dati, e quindi coinvolge un certo livello di informatica poiché implica la codifica, l'impostazione di connessioni e pipeline tra database, server Web, ecc. Non è necessario utilizzare un computer per fare statistiche, ma non puoi davvero fare scienza dei dati senza uno. Puoi vedere ancora una volta che, sebbene la scienza dei dati utilizzi le statistiche, chiaramente non sono la stessa cosa.

Allo stesso modo, l'apprendimento automatico non è la stessa cosa dell'intelligenza artificiale. In effetti, l'apprendimento automatico è un sottoinsieme dell'IA. Questo è abbastanza ovvio poiché stiamo insegnando ("addestrando") una macchina per fare inferenze generalizzabili su alcuni tipi di dati basati su dati precedenti.


L'apprendimento automatico si basa sulle statistiche Prima di discutere le differenze tra statistica e apprendimento automatico, discutiamo innanzitutto le somiglianze. Ne abbiamo già parlato in qualche modo nelle sezioni precedenti.

L'apprendimento automatico si basa su un framework statistico. Questo dovrebbe essere palesemente ovvio poiché l'apprendimento automatico coinvolge i dati e i dati devono essere descritti utilizzando un quadro statistico. Tuttavia, anche la meccanica statistica, che viene espansa nella termodinamica per un gran numero di particelle, si basa su un quadro statistico. Il concetto di pressione è in realtà una statistica e anche la temperatura è una statistica. Se pensi che questo suoni ridicolo, abbastanza giusto, ma in realtà è vero.


Questo è il motivo per cui non puoi descrivere la temperatura o la pressione di una molecola, non ha senso. La temperatura è la manifestazione dell'energia media prodotta dalle collisioni molecolari. Per una quantità sufficientemente grande di molecole, ha senso poter descrivere la temperatura di qualcosa come una casa o l'esterno.

Ammetteresti che termodinamica e statistica sono la stessa cosa? No, la termodinamica usa le statistiche per aiutarci a capire l'interazione tra lavoro e calore sotto forma di fenomeni di trasporto.

In effetti, la termodinamica si basa su molti più elementi oltre alla semplice statistica. Allo stesso modo, l'apprendimento automatico attinge a un gran numero di altri campi della matematica e dell'informatica, ad esempio:

  • Teoria del ML da campi come matematica e statistica

  • Algoritmi ML da campi come ottimizzazione, algebra matriciale, calcolo

  • Implementazioni ML da concetti di informatica e ingegneria (ad es. trucchi del kernel, hashing delle funzionalità)

Quando si inizia a programmare su Python, si tira fuori la libreria sklearn e si inizia a usare questi algoritmi, molti di questi concetti vengono astratti in modo che sia difficile vedere queste differenze. In questo caso, questa astrazione ha portato a una forma di ignoranza rispetto a ciò che effettivamente implica l'apprendimento automatico.

Teoria dell'apprendimento statistico: le basi statistiche del Machine Learning

La principale differenza tra statistica e apprendimento automatico è che la statistica si basa esclusivamente su spazi di probabilità. Puoi derivare la totalità delle statistiche dalla teoria degli insiemi, che discute come possiamo raggruppare i numeri in categorie, chiamati insiemi, e quindi imporre una misura a questo insieme per garantire che il valore sommato di tutti questi sia 1. Lo chiamiamo probabilità spazio.

La statistica non fa altre ipotesi sull'universo tranne questi concetti di insiemi e misure. Questo è il motivo per cui quando specifichiamo uno spazio di probabilità in termini matematici molto rigorosi, specifichiamo 3 cose. Uno spazio di probabilità, che indichiamo in questo modo, (Ω, F, P) , è costituito da tre parti:

  1. Uno spazio campionario , Ω , che è l'insieme di tutti i possibili risultati.

  2. Un insieme di eventi , F , in cui ogni evento è un insieme contenente zero o più risultati .

  3. L'assegnazione di probabilità agli eventi, P ; cioè, una funzione dagli eventi alle probabilità.



L'apprendimento automatico si basa sulla teoria dell'apprendimento statistico, che è ancora basata su questa nozione assiomatica di spazi di probabilità. Questa teoria è stata sviluppata negli anni '60 e amplia le statistiche tradizionali.

Esistono diverse categorie di apprendimento automatico e, in quanto tale, mi concentrerò solo sull'apprendimento supervisionato qui poiché è il più facile da spiegare (sebbene sia ancora un po' esoterico poiché è sepolto nella matematica).

La teoria dell'apprendimento statistico per l'apprendimento supervisionato ci dice che abbiamo un insieme di dati, che indichiamo come S = {(xᵢ,yᵢ)} . Questo fondamentalmente dice che abbiamo un set di dati di n punti dati, ognuno dei quali è descritto da alcuni altri valori che chiamiamo feature, che sono forniti da x, e queste caratteristiche sono mappate da una certa funzione per darci il valore y. Dice che sappiamo di avere questi dati e il nostro obiettivo è trovare la funzione che mappa i valori x ai valori y . Chiamiamo spazio delle ipotesi l'insieme di tutte le possibili funzioni che possono descrivere questa mappatura.

Per trovare questa funzione dobbiamo dare all'algoritmo un modo per 'imparare' qual è il modo migliore per affrontare il problema. Questo è fornito da qualcosa chiamato funzione di perdita. Quindi, per ogni ipotesi (funzione proposta) che abbiamo, dobbiamo valutare come si comporta quella funzione osservando il valore del suo rischio atteso su tutti i dati. Il rischio atteso è essenzialmente una somma della funzione di perdita moltiplicata per la distribuzione di probabilità dei dati. Se conoscessimo la distribuzione di probabilità congiunta della mappatura, sarebbe facile trovare la funzione migliore. Tuttavia, questo in generale non è noto, e quindi la nostra scommessa migliore è indovinare la funzione migliore e quindi decidere empiricamente se la funzione di perdita è migliore o meno. Lo chiamiamo rischio empirico .

Possiamo quindi confrontare diverse funzioni e cercare l'ipotesi che ci dà il rischio minimo atteso , cioè l'ipotesi che dà il valore minimo (chiamato minimo) di tutte le ipotesi sui dati. Tuttavia, l'algoritmo ha la tendenza a imbrogliare per ridurre al minimo la sua funzione di perdita sovraadattandosi ai dati. Questo è il motivo per cui dopo aver appreso una funzione basata sui dati del set di allenamento, tale funzione viene convalidata su un set di dati di prova, dati che non sono stati visualizzati nel set di allenamento.

La natura di come abbiamo appena definito l'apprendimento automatico ha introdotto il problema dell'overfitting e giustificato la necessità di avere un set di formazione e test durante l'esecuzione dell'apprendimento automatico. Questa non è una caratteristica intrinseca delle statistiche perché non stiamo cercando di ridurre al minimo il nostro rischio empirico.

Un algoritmo di apprendimento che sceglie la funzione che riduce al minimo il rischio empirico è chiamato minimizzazione del rischio empirico .


Esempi di differenze tra statistica e Machien Learning

Prendi il caso semplice della regressione lineare. In senso tradizionale, cerchiamo di ridurre al minimo l'errore tra alcuni dati per trovare una funzione che possa essere utilizzata per descrivere i dati. In questo caso, in genere utilizziamo l'errore quadratico medio. Facciamo il quadrato in modo che gli errori positivi e negativi non si annullino a vicenda. Possiamo quindi risolvere i coefficienti di regressione in una forma chiusa.

Succede solo che se prendiamo la nostra funzione di perdita come l'errore quadratico medio ed eseguiamo la minimizzazione empirica del rischio come sposato dalla teoria dell'apprendimento statistico, finiamo con lo stesso risultato dell'analisi di regressione lineare tradizionale.

Questo è solo perché questi due casi sono equivalenti, allo stesso modo in cui eseguire la massima verosimiglianza su questi stessi dati ti darà anche lo stesso risultato. La massima verosimiglianza ha un modo diverso di raggiungere questo stesso obiettivo, ma nessuno discuterà e dirà che la massima verosimiglianza è la stessa della regressione lineare. Il caso più semplice chiaramente non aiuta a differenziare questi metodi. Un altro punto importante da sottolineare è che negli approcci statistici tradizionali non esiste il concetto di set di training e test, ma utilizziamo le metriche per aiutarci a esaminare le prestazioni del nostro modello. Quindi la procedura di valutazione è diversa ma entrambi i metodi sono in grado di darci risultati statisticamente robusti.

Un ulteriore punto è che l'approccio statistico tradizionale qui ci ha fornito la soluzione ottimale perché la soluzione aveva una forma chiusa. Non ha testato altre ipotesi e convergeva verso una soluzione. Considerando che il metodo di apprendimento automatico ha provato una serie di modelli diversi ed è convergente all'ipotesi finale, che si è allineata con il risultato dell'algoritmo di regressione.

Se avessimo usato una funzione di perdita diversa, i risultati non sarebbero convergenti. Ad esempio, se avessimo utilizzato la perdita di cerniera (che non è differenziabile utilizzando la discesa del gradiente standard, quindi sarebbero necessarie altre tecniche come la discesa del gradiente prossimale), i risultati non sarebbero gli stessi.

Un ultimo confronto può essere effettuato considerando la distorsione del modello. Si potrebbe chiedere all'algoritmo di apprendimento automatico di testare modelli lineari, nonché modelli polinomiali, modelli esponenziali e così via, per vedere se queste ipotesi si adattano meglio ai dati data la nostra funzione di perdita a priori . Questo è come aumentare lo spazio delle ipotesi rilevanti. Nel senso statistico tradizionale, selezioniamo un modello e possiamo valutarne l'accuratezza, ma non possiamo farlo selezionare automaticamente il modello migliore tra 100 modelli diversi. Ovviamente, c'è sempre qualche distorsione nel modello che deriva dalla scelta iniziale dell'algoritmo. Ciò è necessario poiché trovare una funzione arbitraria ottimale per il set di dati è un problema NP-difficile.


E' Meglio la statistica o il Machine Learning?

Questa è in realtà una domanda stupida. In termini di statistiche e apprendimento automatico, l'apprendimento automatico non esisterebbe senza le statistiche, ma l'apprendimento automatico è piuttosto utile nell'era moderna a causa dell'abbondanza di dati a cui l'umanità ha accesso dall'esplosione delle informazioni. Confrontare l'apprendimento automatico e i modelli statistici è un po' più difficile. Quello che usi dipende in gran parte dal tuo scopo.



Conclusione differenza tra statistica e Machine Learning

Se desideri semplicemente creare un algoritmo in grado di prevedere i prezzi delle case con un'elevata precisione o utilizzare i dati per determinare se è probabile che qualcuno contragga determinati tipi di malattie, l'apprendimento automatico è probabilmente l'approccio migliore.


Se stai cercando di dimostrare una relazione tra variabili o di fare inferenze dai dati, un modello statistico è probabilmente l'approccio migliore.

Se non hai un solido background in statistica, puoi comunque studiare l'apprendimento automatico e farne uso, l'astrazione offerta dalle librerie di apprendimento automatico rende abbastanza facile usarle come non esperto, ma hai comunque bisogno di una certa comprensione di le idee statistiche sottostanti al fine di evitare che i modelli si adattino eccessivamente e forniscano inferenze.


2 Comments

Rated 0 out of 5 stars.
No ratings yet

Add a rating
Guest
Jul 11, 2022

A parte qualche piccolo refuso, lo trovo interessante e approfondito.

Like

Guest
Jul 11, 2022

Articolo veramente esaustivo, site bravissimi continuate così

Like
PCR (5).gif
PCR (4).gif
PCR.gif
PCR.gif
PCR.gif
PCR.gif
PCR (5).gif
3.gif
Vediamo se riesci a cliccarmi ! Nascondo una Sorpresa... (2).png

Ciao 

🤗 Articoli consigliati dalla nostra
Intelligenza Artificiale in base ai tuoi interessi

Correlazione Alta

Correlazione Media

Correlazione Bassa

Iscriviti

VUOI DIVENTARE UN MEMBRO DI INTELLIGENZA ARTIFICIALE ITALIA GRATUITAMENTE E TRARNE I SEGUENTI BENEFICI?

Corsi Gratis

più di 150 lezioni online

Dataset Gratis

più di 150o dataset

Ebook Gratis

più di 10 libri da leggere

Editor Gratis

un editor python online

Progetti Gratis

più di 25 progetti python

App Gratis

4 servizi web con I.A.

Unisciti Ora a oltre
1.000.000
di lettori e appassionanti d'I.A.

Tutto ciò che riguarda l'intelligenza Artificiale, in unico posto, in italiano e gratis.

MEGLIO DI COSI' NON SI PUO' FARE

Dopo l'iscrizione riceverai diversi Regali

VUOI SCRIVERE ARTICOLI INSIEME A NOI.

Grazie

bottom of page