Indice Tipologie di Dataset:
In questo articolo abbiamo raccolto 60 set di dati per l'apprendimento automatico, che vanno da dati altamente specifici a set di dati di prodotti Amazon. Prima di iniziare ad aggregare questi dati, è importante verificare alcune cose. Innanzitutto, assicurati che i set di dati non siano "pompati", poiché probabilmente non vorrai perdere tempo a setacciare e ripulire i dati da solo. In secondo luogo, tieni presente che i set di dati con meno righe e colonne richiedono meno tempo in generale e sono anche più facili da utilizzare .
I cinque principali strumenti di ricerca dataset gratis
Quando si padroneggia l'apprendimento automatico, fare pratica con diversi set di dati è un ottimo punto di partenza. Fortunatamente, trovarli è facile.
Kaggle : questo sito di data science contiene un insieme diversificato di set di dati interessanti e forniti in modo indipendente per l'apprendimento automatico. Se stai cercando set di dati di nicchia, il motore di ricerca di Kaggle ti consente di specificare le categorie per assicurarti che i set di dati che trovi si adattino alla tua fattura.
UCI Machine Learning Repository : questo pilastro dei set di dati aperti è stato un punto di riferimento per decenni. Poiché molti dei set di dati sono forniti dall'utente, è imperativo controllarne la qualità poiché i livelli di pulizia possono variare. Vale la pena notare, tuttavia, che la maggior parte dei set di dati sono puliti, il che rende questo repository un punto di riferimento. Gli utenti possono anche scaricare i dati senza bisogno di registrarsi.
Ricerca di set di dati di Google : la ricerca di set di dati contiene oltre 25 milioni di set di dati provenienti da tutto il Web. Che siano ospitati sul sito di un editore, su un dominio governativo o sul blog di un ricercatore, Dataset Search può trovarlo.
AWS Open Data Registry : ovviamente anche Amazon ha le mani nel barattolo dei cookie del set di dati aperto. Il colosso dello shopping porta la sua intraprendenza caratteristica nel gioco di ricerca di set di dati. Un vantaggio chiave che differenzia AWS Open Data Registry è la sua funzione di feedback degli utenti, che consente agli utenti di aggiungere e modificare i set di dati. L'esperienza con AWS è anche altamente preferita nel mercato del lavoro.
Set di dati ML di Wikipedia : questa pagina di Wikipedia presenta diversi set di dati per l'apprendimento automatico, inclusi segnali, immagini, suoni e testo, solo per citarne alcuni.
Set di dati governativi per l'apprendimento automatico
Se stai cercando dati demografici per i tuoi algoritmi di machine learning, non cercare oltre questi portali di dati governativi. I modelli ML formati tramite i dati del governo pubblico possono consentire ai responsabili delle politiche di riconoscere e anticipare le tendenze che informano le decisioni politiche preventive.
Data USA : Data USA offre una fantastica gamma di dati pubblici statunitensi visualizzati in modo potente. Le informazioni sono digeribili e facilmente accessibili, rendendo facile vagliare e selezionare se è giusto per te.
Portale Open Data dell'UE : questo portale di dati aperti offre oltre un milione di set di dati in 36 paesi europei pubblicati da rinomate istituzioni dell'UE. Il sito ha un'interfaccia facile da usare che ti consente di cercare set di dati specifici in una varietà di categorie tra cui energia, sport, scienza ed economia.
Data.gov : questo sito è fantastico per chiunque cerchi di scaricare una moltitudine di fonti di dati disponibili pubblicamente dalle agenzie governative degli Stati Uniti. I dati sono diversi e vanno dai dati di bilancio ai punteggi delle prestazioni scolastiche. Le informazioni spesso richiedono ulteriori ricerche, che è qualcosa da tenere a mente.
Dati sanitari statunitensi : un ricco repository che presenta naturalmente tonnellate di set di dati sui dati sanitari statunitensi.
Il servizio dati del Regno Unito : questo archivio di dati presenta la più grande raccolta di dati sociali, economici e demografici del Regno Unito.
Finanze del sistema scolastico : un archivio favoloso per chiunque sia interessato ai dati finanziari dell'istruzione come entrate, spese, debito e risorse dei sistemi scolastici pubblici elementari e secondari. Le statistiche su questo sito coprono anche i sistemi scolastici negli Stati Uniti, incluso il Distretto di Columbia.
Il National Center for Education Statistics degli Stati Uniti: questo archivio contiene informazioni sulle istituzioni educative e sui dati demografici non solo dagli Stati Uniti, ma anche da tutto il mondo.
Set di dati finanziari ed economici per l'apprendimento automatico
Naturalmente il settore finanziario sta abbracciando il Machine Learning a braccia aperte. Poiché i record quantitativi finanziari ed economici sono in genere tenuti meticolosamente, la finanza e l'economia sono un ottimo argomento per implementare un modello AI o ML. Sta già accadendo, poiché molte società di investimento utilizzano algoritmi per guidare le loro scelte di azioni, previsioni e operazioni. L'apprendimento automatico viene utilizzato anche nel campo dell'economia per cose come testare modelli economici o analizzare e prevedere il comportamento delle popolazioni.
American Economic Association (AEA) : L'AEA è una fonte fantastica per i dati macroeconomici statunitensi.
Quandl : Un'altra grande fonte di dati economici e finanziari, in particolare per costruire modelli predittivi su azioni e indicatori economici.
Dati del FMI : il Fondo monetario internazionale tiene traccia e conserva meticolosamente i registri relativi alle riserve valutarie, ai risultati degli investimenti, ai prezzi delle materie prime, ai tassi di debito e alle finanze internazionali.
Dati aperti della Banca mondiale : i set di dati della Banca mondiale coprono la demografia della popolazione insieme a un numero elevato di indicatori economici e di sviluppo in tutto il mondo.
Dati di mercato del Financial Times : ottimo per informazioni aggiornate su materie prime, cambi e altri mercati finanziari mondiali.
Google Trends : Google Trends ti dà la libertà di esaminare e analizzare tutte le attività di ricerca su Internet e offre anche scorci su quali storie sono di tendenza in tutto il mondo.
Set di dati di immagini per la visione artificiale
Chiunque desideri addestrare applicazioni di visione artificiale come veicoli autonomi, riconoscimento facciale e tecnologia di imaging medico avrà bisogno di un database di immagini. Questo elenco contiene una serie diversificata di applicazioni che si riveleranno utili.
VisualQA : se hai una comprensione della visione e del linguaggio, questo set di dati è utile in quanto contiene domande complesse relative a oltre 265.000 immagini.
Labelme : questo set di dati per l'apprendimento automatico è già annotato, il che lo rende pronto e pronto per qualsiasi applicazione di visione artificiale.
ImageNet : il set di dati di apprendimento automatico per i nuovi algoritmi, questo set di dati è organizzato secondo la gerarchia di WordNet, il che significa che ogni nodo è in realtà solo tonnellate di immagini.
Riconoscimento scena interna : questo set di dati altamente specificato contiene immagini utili per i modelli di riconoscimento scena.
Genoma visivo : oltre 100.000 immagini altamente dettagliate e didascalie.
Stanford Dogs Dataset : ottimo per gli amanti dei cani tra noi, questo set di dati contiene oltre 20.000 immagini di oltre 120 diverse razze di cani.
Immagini aperte di Google : oltre 9 milioni di URL di immagini annotate in 6.000 categorie.
Facce etichettate nella casa selvaggia : set di dati particolarmente utile per le applicazioni che coinvolgono il riconoscimento facciale.
COIL-100 : contiene 100 oggetti che vengono ripresi su più angolazioni per una vista completa a 360 gradi.
CIFAR-10 : il set di dati CIFAR-10 è composto da 60000 immagini a colori 32×32 in 10 classi, con 6000 immagini per classe. Ci sono immagini di allenamento da 50K e immagini di prova da 10K.
Cityscapes : Cityscapes contiene annotazioni a livello di pixel di alta qualità di 5.000 fotogrammi oltre a un set più ampio di 20.000 fotogrammi con annotazioni scadenti.
IMDB-Wiki : in questo set di dati sono presenti oltre 500K+ immagini di volti che sono state raccolte sia su IMDB che su Wikipedia.
Fashion MNIST : Questo è un set di dati delle immagini degli articoli di Zalando. Contiene un training set di 60.000 esempi e un test set di 10.000 esempi.
MS COCO : questo set di dati contiene foto di vari oggetti e contiene oltre 2 milioni di istanze etichettate su oltre 300K immagini.
MPII Human Pose Dataset : questo set di dati include 25K immagini contenenti oltre 40K persone con articolazioni del corpo annotate. È perfetto per la valutazione della stima articolata della posa umana.
Set di dati per la sentiment analysis
Esistono innumerevoli modi per migliorare qualsiasi algoritmo di analisi del sentiment. Questi grandi set di dati altamente specializzati possono essere d'aiuto.
Set di dati di analisi del sentiment multidominio : un tesoro di recensioni di prodotti Amazon positive e negative (da 1 a 5 stelle) per i prodotti più vecchi.
Dati sui prodotti Amazon : con 142,8 milioni di set di dati di recensioni Amazon, questo set di dati SA include recensioni aggregate su Amazon tra il 1996 e il 2014.
Twitter US Airline Sentiment : dati Twitter sulle compagnie aeree statunitensi risalenti a febbraio 2015 che sono già stati classificati in base alla classe di sentiment (positivo, neutro, negativo).
IMDB Sentiment : questo set di dati più piccolo (e più vecchio) è perfetto per la classificazione binaria del sentimento e presenta oltre 25.000 recensioni di film.
Sentiment140 : uno dei set di dati più popolari che contiene oltre 160.000 tweet che sono stati controllati per le emoticon (che sono stati successivamente rimossi).
Stanford Sentiment Treebank : set di dati contenente oltre 10.000 file HTML Rotten Tomatoes con annotazioni sui sentimenti basate su una scala 1 (negativa) e 25 (positiva).
Recensioni cartacee : questo set di dati è composto da recensioni in lingua inglese e spagnola su informatica e informatica. Il set di dati viene valutato utilizzando una scala a cinque punti, dove -2 è il più negativo e 2 il più positivo.
Lexicoder Sentiment Dictionary : questo dizionario è progettato per essere utilizzato in conformità con Lexicoder, che aiuta nella codifica automatica del sentimento della copertura delle notizie, del discorso legislativo e di altri testi.
Lessici dei sentimenti per 81 lingue : questo set di dati contiene oltre 81 lingue esotiche con lessici dei sentimenti positivi e negativi, con i sentimenti analizzati e basati sui lessici dei sentimenti inglesi.
Opin-Rank Review Dataset : questo dataset di auto contiene una serie di recensioni sui modelli prodotti tra il 2007 e il 2009. Contiene anche i dati sulle recensioni degli hotel.
Set di dati per l'elaborazione del linguaggio naturale
L'elenco seguente contiene diversi set di dati per varie attività di elaborazione della PNL, inclusi il riconoscimento vocale e i chatbot.
Enron Dataset : dati e-mail di gestione senior organizzati in cartelle da Enron.
UCI's Spambase : un succoso set di dati sullo spam perfetto per il filtraggio dello spam.
Recensioni su Amazon : ancora un altro tesoro contenente 35 milioni di recensioni su Amazon in 18 anni con recensioni di prodotti, informazioni sugli utenti e persino la visualizzazione del testo in chiaro.
Recensioni di Yelp : 5 milioni di recensioni di Yelp in un set di dati aperto.
Google Books Ngrams : questa libreria di parole è abbondante per qualsiasi algoritmo di PNL.
SMS Spam Collection in inglese : oltre 5500 messaggi SMS di spam (in inglese).
Rischio : oltre 200.000 domande dal classico quiz show.
Elenco eBook Gutenberg : un elenco annotato degli ebook del Progetto Gutenberg.
Blogger Corpus : uno stuolo di blog (600K+) con un minimo di 200 occorrenze in ciascuna delle parole inglesi più comunemente usate.
Wikipedia Links Data : oltre 1,9 miliardi di parole su 4 milioni di articoli, questo set di dati contiene l'intero testo di Wikipedia.
Set di dati per veicoli autonomi
I veicoli autonomi richiedono grandi quantità di set di dati di alta qualità per interpretare l'ambiente circostante e reagire di conseguenza.
Berkeley DeepDrive BDD100K : questo set di dati AI a guida autonoma è considerato il più grande del suo genere. Presenta oltre 100.000 video di 1.100 ore di guida in diversi orari, condizioni meteorologiche e di guida.
Comma.ai : set di dati con 7 ore di guida in autostrada che dettaglia anche le coordinate GPS dell'auto, la velocità, l'accelerazione e gli angoli di sterzata.
L'auto robotica di Oxford: set di dati di Oxford, Regno Unito con 100 ripetizioni di un singolo percorso in diverse ore del giorno, condizioni meteorologiche e di guida (traffico, condizioni meteorologiche, pedoni).
LISA: Laboratory for Intelligent & Safe Automobiles, UC San Diego Datasets : set di dati con informazioni su segnali stradali, rilevamento di veicoli, semafori e modelli di traiettoria.
Cityscapes Dataset : un insieme diversificato di dati di scene di strada in 50 città diverse.
Baidu Apolloscapes : questo set di dati include 26 diversi elementi semantici tra cui lampioni, pedoni, edifici, biciclette, automobili e altro ancora.
Landmarks : set di dati di Google open source progettato per distinguere tra formazioni naturali e punti di riferimento creati dall'uomo. Questo set di dati include oltre due milioni di immagini in 30 mila punti di riferimento in tutto il mondo.
Landmarks-v2 : con il miglioramento della tecnologia di classificazione delle immagini, Google ha deciso di rilasciare un altro set di dati per aiutare con i punti di riferimento. Questo set di dati ancora più grande include cinque milioni di immagini con più di 200 mila punti di riferimento in tutto il mondo.
PandaSet : PandaSet sta lavorando per promuovere e far progredire la guida autonoma e la ricerca e sviluppo ML. Questo set di dati include oltre 48.000 immagini della fotocamera, oltre 16.000 scansioni LiDar, oltre 100 scene di 8 secondi ciascuna, 28 classi di annotazioni, 37 etichette di segmentazione semantica e si estende all'intera suite di sensori.
nuScenes : questo set di dati su larga scala per veicoli autonomi utilizza l'intera suite di sensori di una vera auto a guida autonoma su strada. Questo vasto set di dati include immagini della fotocamera da 1,4 milioni, scansioni LiDar da 390K, informazioni cartografiche intime e altro ancora.
OpenImageV5 : questo set di dati è costituito da oltre 9 milioni di immagini annotate ed etichettate in migliaia di categorie di oggetti.
Waymo Open Dataset : questo set di dati di sensori multimodali open source e di alta qualità viene estratto dai veicoli a guida autonoma Waymo in una serie diversificata di ambienti.
Commenta qui sotto con altri link a dataset interessanti
Sfruttiamo il potere della condivisione
Comments