Insegnamento BASI DI DATI SU LARGA SCALA E DATA MINING

Corso
Informatica
Codice insegnamento
GP004153
Sede
PERUGIA
Curriculum
Comune a tutti i curricula
Docente
Valentina Poggioni
Docenti
  • Valentina Poggioni
Ore
  • 63 ore - Valentina Poggioni
CFU
9
Regolamento
Coorte 2017
Erogato
2017/18
Attività
Caratterizzante
Ambito
Discipline informatiche
Settore
INF/01
Tipo insegnamento
Obbligatorio (Required)
Tipo attività
Attività formativa monodisciplinare
Lingua insegnamento
ITALIANO
Contenuti
Basi di dati avanzate, distribuite e non relazionali. Data Warehousing. Gestione grandi quantità di dati. Il processo KDD. Data mining e machine learning. Classificazione, clustering, regole associative. Tecniche e misure di valutazione dei modelli. Costruzione e analisi degli insiemi di training e di test
Testi di riferimento
Dispense fornite dal docente.
Ian H. Witten, Eibe Frank - Data Mining: Practical Machine Learning Tools and Techniques (2nd ed.) - 2005
Pang-Ning Tan, M. Steinbach, V. Kumar - Introduction to data mining - Addison-Wesley - 2006
Obiettivi formativi
Lo studente dovrà conoscere le tecniche e i modelli più attuali per lo sviluppo di basi di dati distribuite e non relazionali, in particolare quando applicate a grando quantità di dati.
Lo studente dovrà conoscere le principali tecniche di modellizzazione e realizzazione per il data warehousing e dovrà essere in grado di progettare, realizzare e interrogare un sistema di datawarehouse.
Lo studente dovrà conoscere le principali tecniche e e gli algoritmi fondamentali per il data mining. Dovrà essere in grado di progettare un sistema di KDD
Prerequisiti
Conoscenze di base su database e linguaggio SQL
Metodi didattici
Lezioni in aula e in laboratorio
Altre informazioni
E-learning platform unistudium.unipg.it
Modalità di verifica dell'apprendimento
Progetto + prova orale.
Gli studenti frequentanti possono sostituire la prova orale con prove in itinere svolte durante il periodo di lezione.

Per informazioni sui servizi di supporto agli studenti con disabilità e/o DSA visita la pagina http://www.unipg.it/disabilita-e-dsa
Programma esteso
Basi di dati avanzate. Basi di dati distribuite. Basi di dati non relazionali. Data Warehousing: Business Intelligence per analisi dei dati; metodi, strumenti e strategie progettuali; strutture e linguaggi. Software per la gestione di grando quantità di dati.
Il processo Knowledge Discovery in Databases (KDD). Introduzione al data mining; data mining e machine learning.
Classificazione: alberi di decisione (tipi e gestione degli attributi, algoritmi di costruzione); NN classifiers; classificatori bayesiani; classificatori basati su reti neurali; classificatori basati su SVM
Clustering: tipi di cluster e tecniche di clustering, hierarchical and density based clustering (K-means, DBSCAN).
Regole associative: frequent itemset generation, algoritmo a priori e ottimizzazione attraverso hash tree.
Tecniche e misure di valutazione dei modelli. Costruzione e analisi degli insiemi di training e di test.
Condividi su