Le statistica è una raccolta di strumenti (Formule e teoremi) che puoi utilizzare per ottenere risposte a domande importanti basandoti sui dati.
Puoi utilizzare metodi statistici descrittivi per trasformare le osservazioni grezze in informazioni che puoi comprendere e condividere.
È possibile utilizzare metodi statistici inferenziali per ragionare da piccoli campioni di dati a interi domini.
In questo post scoprirai chiaramente perché le statistiche sono importanti in generale e per l'apprendimento automatico e in generale i tipi di metodi disponibili.
Dopo aver letto questo post, saprai:
La statistica è generalmente considerata un prerequisito nel campo dell'apprendimento automatico applicato.
Abbiamo bisogno di statistiche per trasformare le osservazioni in informazioni e per rispondere a domande su campioni di osservazioni.
La statistica è una raccolta di strumenti sviluppati nel corso di centinaia di anni per riassumere i dati e quantificare le proprietà di un dominio in base a un campione di osservazioni.
La statistica è un prerequisito obbligatorio per il Machine Learning!
L'apprendimento automatico e la statistica sono due campi di studio strettamente correlati. Tanto che gli statistici si riferiscono all'apprendimento automatico come " statistica applicata " o " apprendimento statistico " piuttosto che come nome incentrato sull'informatica.
L'apprendimento automatico è quasi universalmente presentato ai principianti presupponendo che il lettore abbia una certa esperienza in statistica. Possiamo renderlo concreto con alcuni esempi raccolti a ciliegia.
Dai un'occhiata a questa citazione dall'inizio di un popolare libro di apprendimento automatico applicato intitolato " Modellazione predittiva applicata ":
... il lettore dovrebbe avere una certa conoscenza delle statistiche di base, tra cui varianza, correlazione, regressione lineare semplice e verifica di ipotesi di base (ad es. valori p e statistiche di test).
Ecco un altro esempio tratto dal popolare libro " Introduzione all'apprendimento statistico ":
Ci aspettiamo che il lettore abbia seguito almeno un corso elementare di statistica.
Anche quando la statistica non è un prerequisito, è richiesta una conoscenza preliminare primitiva come si può vedere in questa citazione dal ampiamente letto " Programmazione dell'Intelligenza Collettiva ":
… questo libro non presuppone che tu abbia alcuna conoscenza preliminare di […] o statistica. […] ma avere una certa conoscenza della trigonometria e della statistica di base ti aiuterà a capire gli algoritmi.
Per essere in grado di comprendere l'apprendimento automatico, è necessaria una conoscenza di base delle statistiche.
Per capire perché questo è il caso, dobbiamo prima capire perché abbiamo bisogno in primo luogo del campo della statistica.
Perché imparare la Statistica?
Le sole osservazioni grezze sono dati, ma non sono informazioni o conoscenza.
I dati sollevano domande, come ad esempio:
Qual è l'osservazione più comune o prevista?
Quali sono i limiti alle osservazioni?
Che aspetto hanno i dati?
Sebbene appaiano semplici, è necessario rispondere a queste domande per trasformare le osservazioni grezze in informazioni che possiamo utilizzare e condividere.
Oltre ai dati grezzi, possiamo progettare esperimenti per raccogliere osservazioni. Da questi risultati sperimentali potremmo avere domande più sofisticate, come ad esempio:
Quali variabili sono più rilevanti?
Qual è la differenza in un risultato tra due esperimenti?
Le differenze sono reali o il risultato di rumore nei dati?
Domande di questo tipo sono importanti. I risultati sono importanti per il progetto, per le parti interessate e per un processo decisionale efficace.
I metodi statistici sono necessari per trovare risposte alle domande che abbiamo sui dati.
Possiamo vedere che per comprendere i dati utilizzati per addestrare un modello di apprendimento automatico e per interpretare i risultati del test di diversi modelli di apprendimento automatico, sono necessari metodi statistici.
Questa è solo la punta dell'iceberg poiché ogni fase di un progetto di modellazione predittiva richiederà l'uso di un metodo statistico.
Che cos'è la statistica?
La statistica è un sottocampo della matematica.
Si riferisce a una raccolta di metodi per lavorare con i dati e utilizzare i dati per rispondere alle domande.
La statistica è l'arte di fare congetture numeriche su domande sconcertanti. […] I metodi sono stati sviluppati nel corso di diverse centinaia di anni da persone che cercavano risposte alle loro domande.
È perché il campo è composto da un sacco di metodi per lavorare con i dati che può sembrare grande e amorfo ai principianti. Può essere difficile vedere il confine tra metodi che appartengono alla statistica e metodi che appartengono ad altri campi di studio. Spesso una tecnica può essere sia un metodo classico di statistica sia un moderno algoritmo utilizzato per la selezione delle caratteristiche o la modellazione.
Sebbene una conoscenza pratica della statistica non richieda una profonda conoscenza teorica, alcuni teoremi importanti e facili da digerire dal rapporto tra statistica e probabilità possono fornire una base preziosa.
Due esempi includono la legge dei grandi numeri e il teorema del limite centrale; il primo aiuta a capire perché i campioni più grandi sono spesso migliori e il secondo fornisce una base su come confrontare i valori attesi tra i campioni (es. valori medi).
Quando si tratta degli strumenti statistici che utilizziamo nella pratica, può essere utile dividere il campo della statistica in due grandi gruppi di metodi: statistica descrittiva per riassumere i dati e statistica inferenziale per trarre conclusioni da campioni di dati.
Le statistiche consentono ai ricercatori di raccogliere informazioni, o dati, da un gran numero di persone e quindi riassumere la loro esperienza tipica. […] Le statistiche vengono utilizzate anche per trarre conclusioni sulle differenze generali tra i gruppi. […] Le statistiche possono essere utilizzate anche per vedere se i punteggi di due variabili sono correlati e per fare previsioni.
Cosa è la Statistica descrittiva?
Le statistiche descrittive si riferiscono a metodi per riassumere le osservazioni grezze in informazioni che possiamo comprendere e condividere.
Comunemente si pensa alla statistica descrittiva come al calcolo di valori statistici su campioni di dati al fine di riassumere le proprietà del campione di dati, come il valore atteso comune (es. media o mediana) e la diffusione dei dati (es. varianza o deviazione standard).
Le statistiche descrittive possono anche riguardare metodi grafici che possono essere utilizzati per visualizzare campioni di dati. Grafici e grafici possono fornire un'utile comprensione qualitativa sia della forma o della distribuzione delle osservazioni, sia di come le variabili possono essere correlate tra loro.
Cosa è la Statistica inferenziale?
La statistica inferenziale è un nome di fantasia per i metodi che aiutano a quantificare le proprietà del dominio o della popolazione da un insieme più piccolo di osservazioni ottenute chiamato campione.
Comunemente, pensiamo alla statistica inferenziale come alla stima di quantità dalla distribuzione della popolazione, come il valore atteso o la quantità di spread.
Strumenti di inferenza statistica più sofisticati possono essere utilizzati per quantificare la probabilità di osservare campioni di dati data un'ipotesi. Questi sono spesso indicati come strumenti per la verifica di ipotesi statistiche, in cui l'ipotesi di base di un test è chiamata ipotesi nulla.
Esistono molti esempi di metodi statistici inferenziali data la gamma di ipotesi che possiamo assumere e i vincoli che possiamo imporre ai dati al fine di aumentare la potenza o la probabilità che il risultato del test sia corretto.
Conclusione
In questo post hai scoperto chiaramente perché le statistiche sono importanti in generale e per l'apprendimento automatico e in generale i tipi di metodi disponibili.
Nello specifico hai imparato:
La statistica è generalmente considerata un prerequisito nel campo dell'apprendimento automatico applicato.
Abbiamo bisogno di statistiche per trasformare le osservazioni in informazioni e per rispondere a domande su campioni di osservazioni.
La statistica è una raccolta di strumenti sviluppati nel corso di centinaia di anni per riassumere i dati e quantificare le proprietà di un dominio in base a un campione di osservazioni.
Hai domande? Poni le tue domande nei commenti qui sotto e faremo del nostro meglio per rispondere.
Comments