Insegnamento BASI DI DATI SU LARGA SCALA E DATA MINING
- Corso
- Informatica
- Codice insegnamento
- GP004153
- Sede
- PERUGIA
- Curriculum
- Comune a tutti i curricula
- Docente
- Valentina Poggioni
- Docenti
-
- Valentina Poggioni
- Ore
- 63 ore - Valentina Poggioni
- CFU
- 9
- Regolamento
- Coorte 2017
- Erogato
- 2017/18
- Attività
- Caratterizzante
- Ambito
- Discipline informatiche
- Settore
- INF/01
- Tipo insegnamento
- Obbligatorio (Required)
- Tipo attività
- Attività formativa monodisciplinare
- Lingua insegnamento
- ITALIANO
- Contenuti
- Basi di dati avanzate, distribuite e non relazionali. Data Warehousing. Gestione grandi quantità di dati. Il processo KDD. Data mining e machine learning. Classificazione, clustering, regole associative. Tecniche e misure di valutazione dei modelli. Costruzione e analisi degli insiemi di training e di test
- Testi di riferimento
- Dispense fornite dal docente.
Ian H. Witten, Eibe Frank - Data Mining: Practical Machine Learning Tools and Techniques (2nd ed.) - 2005
Pang-Ning Tan, M. Steinbach, V. Kumar - Introduction to data mining - Addison-Wesley - 2006 - Obiettivi formativi
- Lo studente dovrà conoscere le tecniche e i modelli più attuali per lo sviluppo di basi di dati distribuite e non relazionali, in particolare quando applicate a grando quantità di dati.
Lo studente dovrà conoscere le principali tecniche di modellizzazione e realizzazione per il data warehousing e dovrà essere in grado di progettare, realizzare e interrogare un sistema di datawarehouse.
Lo studente dovrà conoscere le principali tecniche e e gli algoritmi fondamentali per il data mining. Dovrà essere in grado di progettare un sistema di KDD - Prerequisiti
- Conoscenze di base su database e linguaggio SQL
- Metodi didattici
- Lezioni in aula e in laboratorio
- Altre informazioni
- E-learning platform unistudium.unipg.it
- Modalità di verifica dell'apprendimento
- Progetto + prova orale.
Gli studenti frequentanti possono sostituire la prova orale con prove in itinere svolte durante il periodo di lezione.
Per informazioni sui servizi di supporto agli studenti con disabilità e/o DSA visita la pagina http://www.unipg.it/disabilita-e-dsa - Programma esteso
- Basi di dati avanzate. Basi di dati distribuite. Basi di dati non relazionali. Data Warehousing: Business Intelligence per analisi dei dati; metodi, strumenti e strategie progettuali; strutture e linguaggi. Software per la gestione di grando quantità di dati.
Il processo Knowledge Discovery in Databases (KDD). Introduzione al data mining; data mining e machine learning.
Classificazione: alberi di decisione (tipi e gestione degli attributi, algoritmi di costruzione); NN classifiers; classificatori bayesiani; classificatori basati su reti neurali; classificatori basati su SVM
Clustering: tipi di cluster e tecniche di clustering, hierarchical and density based clustering (K-means, DBSCAN).
Regole associative: frequent itemset generation, algoritmo a priori e ottimizzazione attraverso hash tree.
Tecniche e misure di valutazione dei modelli. Costruzione e analisi degli insiemi di training e di test.