Insegnamento BASI DI DATI SU LARGA SCALA E DATA MINING

Corso
Informatica
Codice insegnamento
GP004153
Curriculum
Comune a tutti i curricula
Docente
Valentina Poggioni
Docenti
  • Valentina Poggioni
Ore
  • 63 ore - Valentina Poggioni
CFU
9
Regolamento
Coorte 2019
Erogato
2019/20
Attività
Caratterizzante
Ambito
Discipline informatiche
Settore
INF/01
Tipo insegnamento
Obbligatorio (Required)
Tipo attività
Attività formativa monodisciplinare
Lingua insegnamento
ITALIANO
Contenuti
Basi di dati avanzate, distribuite e non relazionali. Data Warehousing. Gestione grandi quantità di dati. Il processo KDD. Data mining e machine learning. Classificazione, clustering, regole associative. Tecniche e misure di valutazione dei modelli. Costruzione e analisi degli insiemi di training e di test.
Testi di riferimento
Dispense fornite dal docente.
Ian H. Witten, Eibe Frank - Data Mining: Practical Machine Learning Tools and Techniques (2nd ed.) - 2005
Pang-Ning Tan, M. Steinbach, V. Kumar - Introduction to data mining - Addison-Wesley - 2006
Obiettivi formativi
Lo studente dovrà conoscere le tecniche e i modelli più attuali per lo sviluppo di basi di dati distribuite e non relazionali, in particolare quando applicate a grandi quantità di dati.
Lo studente dovrà conoscere le principali tecniche di modellizzazione e realizzazione per il data warehousing e dovrà essere in grado di progettare, realizzare e interrogare un sistema di datawarehouse.
Lo studente dovrà conoscere le principali tecniche e e gli algoritmi fondamentali per il data mining. Dovrà essere in grado di progettare un sistema di KDD
Prerequisiti
Conoscenze di base su database e linguaggio SQL
Metodi didattici
Lezioni in aula e in laboratorio
Altre informazioni
E-learning platform unistudium.unipg.it
Modalità di verifica dell'apprendimento
Progetto + prova orale.
Gli studenti frequentanti possono sostituire la prova orale con prove in itinere svolte durante il periodo di lezione. Dettagli su tali prove saranno fornite dal docente all'inizio del corso

Per informazioni sui servizi di supporto agli studenti con disabilità e/o DSA visita la pagina http://www.unipg.it/disabilita-e-dsa
Programma esteso
Basi di dati avanzate. Basi di dati distribuite. Basi di dati non relazionali. Data Warehousing: Business Intelligence per analisi dei dati; metodi, strumenti e strategie progettuali; strutture e linguaggi. Software per la gestione di grando quantità di dati.
Il processo Knowledge Discovery in Databases (KDD). Introduzione al data mining; data mining e machine learning.
Classificazione: alberi di decisione (tipi e gestione degli attributi, algoritmi di costruzione); NN classifiers; classificatori bayesiani; classificatori basati su reti neurali; classificatori basati su SVM
Clustering: tipi di cluster e tecniche di clustering, hierarchical and density based clustering (K-means, DBSCAN).
Regole associative: frequent itemset generation, algoritmo a priori e ottimizzazione attraverso hash tree.
Tecniche e misure di valutazione dei modelli. Costruzione e analisi degli insiemi di training e di test.
Condividi su