Cosa sono i set di dati?
Un set di dati è una raccolta di elementi strutturata. Un set di dati è organizzato in un tipo di struttura di dati. In un database, ad esempio, un set di dati potrebbe contenere una raccolta di dati aziendali (nomi, stipendi, informazioni di contatto, dati sulle vendite e così via). Il database stesso può essere considerato un insieme di dati, così come i corpi di dati al suo interno relativi a un particolare tipo di informazioni, come i dati di vendita per un particolare reparto aziendale.
CURIOSITA' - Chi ha inventato il termine Dataset ? Il termine set di dati ha avuto origine con IBM, dove il suo significato era simile a quello di file.
I set di dati sono parte integrante del campo dell'apprendimento automatico. I principali progressi in questo campo possono derivare dai progressi negli algoritmi di apprendimento come l'apprendimento profondo, l'hardware del computer e, in modo meno intuitivo, la disponibilità di set di dati di addestramento di alta qualità.
Se hai mai lavorato a un progetto di scienza dei dati , probabilmente hai passato molto tempo a navigare in Internet alla ricerca di set di dati interessanti da analizzare. Può essere divertente setacciare dozzine di set di dati per trovare quello perfetto. Ma può anche essere frustrante scaricare e importare diversi file CSV, solo per rendersi conto che i dati non sono poi così interessanti. Fortunatamente, ci sono repository online che curano i set di dati e (soprattutto) rimuovono quelli non interessanti. In questo post, diamo un'occhiata ai siti per trovare set di dati per progetti di visualizzazione dei dati
Sta cercando un corso sulla DataScience? Però costano tutti un sacco di soldi e non sei sicuro questo mestiere faccia per te? Oppure più semplicemente già lavori in questo settore e vuoi approfondire argomenti come machine learning e reti neurali ?
Scopri il nostro Corso Gratuito da più di 100 Lezioni, a difficoltà crescente. L'unico corso in italiano gratuito che ti permetterà davvero di capire e approfondire temi fondamentali per questo mestiere.
Clicca qui non aspettare, intanto iscriviti è GRATIS.
Set di dati per progetti di visualizzazione dei dati o Data Science
Un tipico progetto di visualizzazione dei dati potrebbe essere qualcosa sulla falsariga di "Voglio fare un'infografica su come varia il reddito nelle diverse regioni di Italia". Ci sono alcune considerazioni da tenere a mente quando si cercano dati validi per un progetto di visualizzazione dei dati:
Il dataset non dovrebbe essere disordinato, perché non vuoi passare molto tempo a pulire i dati.
Dovrebbe essere abbastanza equilibrato e interessante da poterci fare grafici.
Idealmente, ogni colonna dovrebbe essere ben spiegata, quindi la visualizzazione è accurata.
Se il set di dati non deve contenere troppe righe o colonne, è più facile lavorarci. ( Capiamoci meglio per troppe intendiamo sopra le 40.000 righe o sopra le 30-70 colonne sopratutto per chi è alle prime armi )
I siti di notizie che pubblicano i propri dati pubblicamente possono essere ottimi posti per trovare set di dati per la visualizzazione dei dati. In genere puliscono i dati per te e spesso hanno già grafici che hanno creato da cui puoi imparare, replicare o migliorare. 1. FiveThirtyEight Se sei interessato ai dati, avrai sicuramente sentito parlare di FiveThirtyEight; è uno dei punti vendita di giornalismo di dati più affermati al mondo. Scrivono articoli interessanti basati sui dati. Quello che potresti non sapere è che FiveThirtyEight rende disponibili online su Github e sul proprio portale di dati anche i set di dati utilizzati nei suoi articoli.
Ecco alcuni esempi:
Sicurezza della compagnia aerea : contiene informazioni sugli incidenti di ciascuna compagnia aerea.
Cronologia meteorologica degli Stati Uniti: dati meteorologici storici per gli Stati Uniti.
Study Drugs : dati su chi sta assumendo Adderall negli Stati Uniti.
2. BuzzFeed
BuzzFeed potrebbe aver iniziato come fornitore di clickbait di bassa qualità, ma in questi giorni fa anche giornalismo di dati di alta qualità. E, proprio come FiveThirtyEight, pubblica pubblicamente alcuni dei suoi set di dati sulla sua pagina Github .
Ecco alcuni esempi:
Federal Surveillance Planes : contiene dati sugli aerei utilizzati per la sorveglianza interna.
Zika Virus : dati sulla geografia dell'epidemia del virus Zika.
Controlli sui precedenti delle armi da fuoco: dati sui controlli sui precedenti delle persone che tentano di acquistare armi da fuoco.
3. ProPublica
ProPublica è una testata giornalistica investigativa senza scopo di lucro che pubblica giornalismo di dati incentrato su questioni di interesse pubblico, principalmente negli Stati Uniti. Mantengono un archivio dati che ospita alcuni set di dati gratuiti oltre ad alcuni a pagamento (scorri verso il basso su quella pagina per superare quelli a pagamento). Molti di questi sono attivamente mantenuti e aggiornati di frequente. ProPublica offre anche cinque API relative ai dati, quattro delle quali sono accessibili gratuitamente.
Ecco alcuni esempi:
Annunci politici su Facebook : una raccolta gratuita di dati sugli annunci di Facebook che viene aggiornata quotidianamente.
Notizie sui crimini d'odio: dati regolarmente aggiornati sui crimini d'odio riportati in Google News.
Età della macchina per il voto : dati sull'età delle macchine per il voto che sono state utilizzate nelle elezioni del 2016.
4. Socrata OpenData
Socrata OpenData è un portale che contiene più set di dati che possono essere esplorati nel browser o scaricati per visualizzare. Le offerte qui sono meno curate, quindi dovrai ordinare ciò che è disponibile per trovare dati puliti e aggiornati, ma la possibilità di guardare i dati in forma di tabella direttamente nel browser è molto utile e ha anche alcuni strumenti di visualizzazione incorporati.
Ecco alcuni esempi:
Stipendi del personale della Casa Bianca : dati su ciò che ogni membro dello staff della Casa Bianca ha guadagnato nel 2010.
Morti sul lavoro per stato degli Stati Uniti : il numero di decessi sul lavoro negli Stati Uniti.
Speriamo tu possa trovare il dataset più adatto al tuo progetto o esercizio. Grazie mille per la lettura. Condividi l'articolo per sostenerci 💕
Comments