Ad oggi sappiamo, e non è un segreto, che l'intero mondo dell'intelligenza artificiale è interamente basato sulla presenza di una grande quantità di dati.
Grazie a tutti questi dati possiamo costruire modelli predittivi😲 ma vediamo meglio quale è il punto di partenza per poter arrivare a tali modelli.
Prima di iniziare la spiegazione sul dataset ci tengo a farti notare una differenza molto sottile ma molto importante : la differenza tra Informazione e dato
Per farti vedere graficamente questa differenza ti invito a pensare alla foto di un cane, ora immagina che questa foto sia la nostra informazione, dalla quale siamo in grado processandola di estrapolare dati utili ad esempio: il colore del pelo, la sua altezza, la sua razza e molte altre caratteristiche. Quindi, facendo un passo indietro, i dati (intesi come bit che viaggiano come schegge dentro il nostro computer) sono la nostra informazione elaborata in modo da poterci permettere di trarre dati importanti che la singola informazione nascondeva.
Il dataset è un insieme di dati strutturati ( ad esempio una tabella ) creato per essere letto ed elaborato da un algoritmo. Solitamente questo insieme di dati è molto vasto, alcuni set di dati è stato stimato che non sarebbero leggibili nemmeno in un intera vita umana, come ad esempio ( tutti i post su Instagram/Facebook )
E' possibile creare il proprio dataset ? Quali sono gli strumenti ? Ne esistono di già pronti per esercitarsi ?
Certo che è possibile creare il proprio dataset, lo puoi fare sfruttando più tecniche :
Creazione Manuale : utilizzando software come Excel è possibile giorno dopo giorno creare delle tabelle contenenti dati strutturati.
Creazione Semi-Automatica : utilizzando un motore di database puoi creare la tua base di dati, dove anche qui potrai inserire giorno per giorno nuovi dati
Creazione Automatica : sempre con l'utilizzo dei database e un applicazione web è possibile creare moduli di raccolta dati per utenti che quando interagiranno verranno automaticamente salvati.
Esistono molti strumenti per la creazione e gestione di dataset e la scelta può variare per migliorarne l'efficienza, te ne cito qui qualcuno sia per utilizzo locale sia in cloud:
Excel
LibreOffice (foglio di calcolo)
Sas
Azure
Google Cloud Platform
e motli altri
E' anche possibile trovare molti dataset già pronti e confezionati pronti all'uso. Questi dataset sono di ogni genere e categoria, potrai trovare sicuramente qualcosa che si adatta al tuo progetto. Tra i migliori siti la mia top 3 è :
Dopo aver visto cosa è un Dataset e a cosa serve vediamo ora una raccolta di Dati Pubblici Italiani pronti per essere scaricati
Dataset Agricoltura, pesca, silvicoltura e prodotti alimentari
In questo tema rientra tutto ciò che riguarda il settore agricoltura, pesca, politiche forestali e alimentari.
Dataset Istruzione cultura e sport
In questo tema rientra tutto ciò che riguarda la cultura, il turismo, l’istruzione e le attività sportive, eventi culturali e locali.
Beni culturali: Il MiBACT ha avviato vari progetti di pubblicazione di dataset in formato linked open data e open data:
Thesaurus Reperti Archeologici
Luoghi della cultura
Eventi culturali
Anagrafe delle biblioteche italiane
Archivi di Stato
MIUR - Portale unico dei dati della scuola
Ambito Scuola
Anagrafiche scuole
Studenti
Personale scuola
Edilizia scolastica
Sistema nazionale di valutazione
Dataset Ambiente
In questo tema rientra tutto ciò che riguarda l’ambiente (rifiuti, consumo del suolo, oceani, ecc.) e il clima/meteo.
ISPRA: I Linked Open Data dell’Istituto Superiore per la Protezione e la Ricerca Ambientale.
CdS - Il consumo di suolo in Italia
MAIS - Mosaicature Nazionali ISPRA pericolosità frane alluvioni
ReNDiS - Il Repertorio Nazionale degli interventi per la Difesa del Suolo
RMN - La Rete Mareografica Nazionale
RON - Rete Ondametrica Nazionale
Dataset Salute
In questo tema rientra tutto ciò che concerne le attività sulla salute e tutto ciò che riguarda gli animali.
INAIL - Infortuni: Sono pubblicati dati "elementari", per singolo infortunio.
INAIL - Malattie Professionali: Sono pubblicati dati "elementari", per singolo caso di malattia professionale.
FARMACIE: Elenco delle farmacie italiane
Dispositivi Medici: Elenco aggiornato con cadenza settimanale dei dispositivi medici registrati presso la banca dati e il Repertorio del Ministero della Salute.
Agenzia Italiana del Farmaco (AIFA): diversi dataset con info sui farmaci
Vaccini anti COVID-19: il repository contiene i dati in formato aperto relativi ai vaccini anti COVID-19
Dataset Giustizia, sistema giuridico e sicurezza pubblica
In questo tema rientra tutto ciò che riguarda le frodi, i crimini, la giustizia, le norme. Rientra anche tutto ciò che riguarda la difesa e gli aspetti legati alle attività del ministero dell’interno.
Elezioni: Ministero dell'Interno - Dip. Affari interni e territoriali/Dati Elettoriali.
Dataset Regioni e città
In questo tema rientra tutto ciò che riguarda le strade urbane e i numeri civici. Il tema ha una forte sovrapposizione con ambiente perché potrebbe anche contenere tutto ciò che concerne la geografia del territorio (e.g., montagne, laghi, fiumi, ecc.).
Estratti OpenStreetMap: In questo sito web sono a disposizione per il download libero e gratuito estratti del database OpenStreetMap ritagliati per Regione e Comune italiani. I dati sono aggiornati quotidianamente per tutti i formati disponibili.
Dataset Trasporti
ACI - Automobile Club d'Italia: pubblicazioni statistiche relative al fenomeno della motorizzazione nel suo complesso: parco veicoli e tendenze di mercato, incidentalità; archivio annuari sulla circolazione e le tendenze del mercato.
Carburanti - Prezzi praticati e anagrafica degli impianti: I dataset, scaricabili in questa sezione in forma attualmente sperimentale, contengono le informazioni relative agli impianti e ai prezzi praticati dei carburanti.
Patenti di Guida: Il dataset contiene l'elenco delle patenti di guida attive, ossia delle autorizzazioni amministrative alla guida di autoveicoli e motoveicoli, provenienti dall'archivio nazionale abilitati alla guida su strada gestito dalla Motorizzazione.
Parco Circolante dei veicoli: Parco circolante dei veicoli su strada ( categorie Autoveicoli e Motoveicoli ) diviso per regione estratto dall'archivio nazionale dei veicoli gestito dalla Motorizzazione.
Dataset Governo e settore pubblico
In questo tema rientra tutto ciò che riguarda le politiche di governo, gli affari istituzionali, la trasparenza del settore pubblico (dati relativi ad amministrazione trasparente).
Agenzia Demanio: Banca dati degli immobili di proprietà statale.
Cantieri Scuole: Fonti dei principali dataset impiegati per la costruzione ed il funzionamento dell'applicazione CantieriScuole.it di #italiasicura.scuole.
Banca dati Servizio Contratti Pubblici - SCP - Ministero trasporti: Il Dataset contiene gli avvisi, i bandi e gli esiti di gara in formato aperto raccolti dalla Banca dati SCP - Servizio Contratti Pubblici gestita dalla Direzione Generale per la regolazione e i contratti pubblici del Ministero delle Infrastrutture e Trasporti.
Catasto rifiuti: Il Centro Nazionale per il ciclo dei rifiuti di ISPRA effettua annualmente il monitoraggio dei costi sostenuti dai comuni per la gestione dei rifiuti urbani e assimilati. Tali dati sono pubblicati nel Rapporto annuale sui Rifiuti Urbani.
OPENBDAP: Il portale della RGS che mette a disposizione i dati della Finanza Pubblica.
OPENCOESIONE: Dati collegati alle politiche di coesione. Progetto menzionato nella sezione dedicata.
SIOPE: dati sulle rilevazione telematica degli incassi e dei pagamenti effettuati dai tesorieri di tutte le amministrazioni pubbliche, che nasce dalla collaborazione tra la Ragioneria Generale dello Stato, la Banca d'Italia e l'ISTAT.
Per ulteriori informazioni sulla strategia nazionale di open data consulta il portale nazionale dati.gov.it.
Dataset Casi d'uso della Pubblica Amministrazione
#ItaliaSicura: Presidenza del Consiglio dei Ministri Struttura di missione per il coordinamento e l'impulso nell'attuazione degli interventi di riqualificazione dell'edilizia scolastica.
OPENCANTIERI: A che punto di realizzazione è un’opera pubblica. Per quale importo è stata finanziata, quanto sta effettivamente costando, se e perché ritarda, quanti giorni di lavoro vi sono stati effettivamente dedicati.
OPENCIVITAS: Il Portale di accesso alle informazioni degli Enti Locali, un’iniziativa di trasparenza promossa dal Dipartimento delle Finanze e dalla SOSE. Conosci, confronta, valuta gli Enti Locali.
OPENCUP: Open CUP mette a disposizione di tutti - cittadini, istituzioni ed altri enti - i dati, in formato aperto, sulle decisioni di investimento pubblico finanziate con fondi pubblici nazionali, comunitari o regionali o con risorse private registrate con il Codice Unico di Progetto.
Open RE.G.I.O: Agenzia Nazionale per l'amministrazione e la destinazione dei beni sequestrati e confiscati alla criminalità organizzata.
OPENTRASPORTI: Una piattaforma per la raccolta dati e l’offerta di servizi digitali a supporto del trasporto, abilitando la filiera co-modale integrata dalla pianificazione del viaggio fino alle destinazioni finali, con una ricaduta positiva non solo nel settore dei trasporti, ma anche sul sistema Italia nel suo complesso (turismo, cultura, servizi diversi). L’obiettivo è quello di creare un hub nazionale dei dati dell’infomobilità per lo sviluppo di servizi avanzati al viaggiatore.
OPENDEMANIO: Iniziativa di open government sulle informazioni gestite dall’Agenzia del Demanio.
Urban Index - Indicatori per le Politiche Urbane: Strumenti utili alla definizione e valutazione delle politiche pubbliche nelle aree urbane e nella convinzione che tali strumenti possano anche rivelarsi utili nella definizione dei contenuti di un’Agenda Urbana Nazionale. Presidenza del Consiglio dei Ministri - Dipartimento per la Programmazione e il Coordinamento della Politica Economica.
Letture consigliate per "Cosa è un Dataset e a cosa serve"
Grazie per aver letto Cosa è un Dataset e a cosa serve
Comments