Gli algoritmi di apprendimento automatico imparano dai dati. È fondamentale fornire loro i dati giusti per il problema che si desidera risolvere.
Anche se disponi di dati validi, devi assicurarti che siano in una scala, un formato utile e persino che siano incluse funzionalità significative.
In questo post imparerai come preparare i dati per un algoritmo di apprendimento automatico. Questo è un argomento importante e tratterai l'essenziale.
Processo di preparazione dei dati nel Machine Learning
Più disciplinato sei nella gestione dei dati, più risultati coerenti e migliori probabilmente otterrai. Il processo per preparare i dati per un algoritmo di apprendimento automatico può essere riassunto in tre passaggi:
Passaggio 1 : seleziona Dati
Passaggio 2 : preelabora i dati
Passaggio 3 : preelabora i dati
Puoi seguire questo processo in modo lineare, ma è molto probabile che sia iterativo con molti loop.
Passaggio 1: seleziona Dati
Questo passaggio riguarda la selezione del sottoinsieme di tutti i dati disponibili con cui lavorerai. C'è sempre un forte desiderio di includere tutti i dati disponibili, che la massima "più è meglio" reggerà. Questo può o non può essere vero.
Devi considerare di quali dati hai effettivamente bisogno per affrontare la domanda o il problema su cui stai lavorando. Fai alcune ipotesi sui dati di cui hai bisogno e fai attenzione a registrare tali ipotesi in modo da poterle testare in seguito, se necessario.
Di seguito sono riportate alcune domande per aiutarti a riflettere su questo processo:
Qual è l'entità dei dati che hai a disposizione? Ad esempio attraverso il tempo, le tabelle di database, i sistemi connessi. Assicurati di avere un quadro chiaro di tutto ciò che puoi utilizzare.
Quali dati non sono disponibili che vorresti avere a disposizione? Ad esempio dati che non sono registrati o non possono essere registrati. Potresti essere in grado di derivare o simulare questi dati.
Di quali dati non hai bisogno per risolvere il problema? L'esclusione dei dati è quasi sempre più semplice dell'inclusione dei dati. Annota quali dati hai escluso e perché.
È solo in piccoli problemi, come la concorrenza o i set di dati di giocattoli in cui i dati sono già stati selezionati per te.
Passaggio 2: preelabora i dati
Dopo aver selezionato i dati, devi considerare come utilizzerai i dati. Questo passaggio di pre-elaborazione riguarda l'inserimento dei dati selezionati in un modulo su cui puoi lavorare.
Tre fasi comuni di preelaborazione dei dati sono la formattazione, la pulizia e il campionamento:
Formattazione : i dati che hai selezionato potrebbero non essere in un formato adatto a te con cui lavorare. I dati possono trovarsi in un database relazionale e lo vorresti in un file flat, oppure i dati potrebbero essere in un formato di file proprietario e lo vorresti in un database relazionale o in un file di testo.
Pulizia : i dati di pulizia sono la rimozione o la correzione dei dati mancanti. Potrebbero esserci istanze di dati che sono incomplete e non contengono i dati che ritieni necessari per risolvere il problema. Potrebbe essere necessario rimuovere queste istanze. Inoltre, potrebbero esserci informazioni riservate in alcuni attributi e questi attributi potrebbero dover essere resi anonimi o rimossi completamente dai dati.
Campionamento : potrebbero essere disponibili molti più dati selezionati di quelli con cui è necessario lavorare. Più dati possono comportare tempi di esecuzione molto più lunghi per gli algoritmi e requisiti di calcolo e di memoria maggiori. Puoi prendere un campione rappresentativo più piccolo dei dati selezionati che potrebbe essere molto più veloce per l'esplorazione e la prototipazione di soluzioni prima di considerare l'intero set di dati.
Passaggio 3: trasformare i dati
Il passaggio finale consiste nel trasformare i dati di processo. L'algoritmo specifico con cui stai lavorando e la conoscenza del dominio del problema influenzeranno questo passaggio e molto probabilmente dovrai rivedere diverse trasformazioni dei tuoi dati preelaborati mentre lavori sul problema.
Tre trasformazioni di dati comuni sono il ridimensionamento, la scomposizione degli attributi e le aggregazioni degli attributi. Questo passaggio viene anche definito ingegneria delle funzionalità.
Ridimensionamento : i dati preelaborati possono contenere attributi con miscele di bilance per varie quantità come dollari, chilogrammi e volume delle vendite. Molti metodi di apprendimento automatico come gli attributi dei dati devono avere la stessa scala, ad esempio tra 0 e 1 per il valore più piccolo e più grande per una determinata funzionalità. Considera qualsiasi ridimensionamento delle funzionalità che potresti dover eseguire.
Decomposizione : potrebbero esserci funzionalità che rappresentano un concetto complesso che potrebbe essere più utile per un metodo di apprendimento automatico quando suddiviso nelle parti costituenti. Un esempio è una data che può avere componenti di giorno e ora che a loro volta potrebbero essere ulteriormente suddivise. Forse solo l'ora del giorno è rilevante per la risoluzione del problema. considera quali scomposizioni di funzionalità puoi eseguire.
Aggregazione : potrebbero esserci funzionalità che possono essere aggregate in un'unica funzionalità che sarebbero più significative per il problema che stai cercando di risolvere. Ad esempio, potrebbero esserci istanze di dati per ogni volta che un cliente accede a un sistema che potrebbe essere aggregato in un conteggio per il numero di accessi consentendo l'eliminazione delle istanze aggiuntive. Considera quale tipo di aggregazioni di funzionalità potrebbero essere eseguite.
Puoi dedicare molto tempo alla progettazione di funzionalità dai tuoi dati e può essere molto vantaggioso per le prestazioni di un algoritmo. Inizia in piccolo e sviluppa le abilità che impari.
Riepilogo
In questo post hai appreso l'essenza della preparazione dei dati per l'apprendimento automatico. Hai scoperto un framework in tre fasi per la preparazione dei dati e le tattiche in ogni passaggio:
Passaggio 1: selezione dei dati Considera quali dati sono disponibili, quali dati mancano e quali dati possono essere rimossi.
Passaggio 2: preelaborazione dei dati Organizza i dati selezionati mediante formattazione, pulizia e campionamento da essi.
Passaggio 3: trasformazione dei dati Trasforma i dati preelaborati pronti per l'apprendimento automatico progettando funzionalità utilizzando il ridimensionamento, la scomposizione degli attributi e l'aggregazione degli attributi.
La preparazione dei dati è un argomento di grandi dimensioni che può comportare molte iterazioni, esplorazioni e analisi. Diventare bravi nella preparazione dei dati ti renderà un maestro nell'apprendimento automatico. Per ora, considera solo le domande sollevate in questo post durante la preparazione dei dati e cerca sempre modi più chiari per rappresentare il problema che stai cercando di risolvere.
Grazie mille per la lettura
Kommentare