====== Data Mining A.A. 2006/07 ====== Docenti: * Fosca Giannotti, [[fosca.giannotti@isti.cnr.it]] * Mirco Nanni, [[mirco.nanni@isti.cnr.it]] * KDD LAB - Knowledge Discovery Laboratory, ISTI-CNR e Dipartimento di Informatica dell'Università di Pisa http://www-kdd.isti.cnr.it ====== Obiettivi del corso ====== La grande disponibilità di dati provenienti da database relazionali, dal web o da altre sorgenti motiva lo studio di tecniche di analisi dei dati che permettano una migliore comprensione ed un più facile utilizzo dei risultati nei processi decisionali. L'obiettivo del corso è quello di fornire un'introduzione ai concetti di base del processo di estrazione di conoscenza, alle principali tecniche di data mining ed ai relativi algoritmi. Particolare enfasi è dedicata agli aspetti metodologici presentati mediante alcune classi di applicazioni paradigmatiche quali il Basket Market Analysis, la segmentazione di mercato, il rilevamento di frodi. Infine il corso introduce gli aspetti di privacy ed etici inerenti all’utilizzo di tecniche inferenza sui dati e dei quali l’analista deve essere a conoscenza. Il corso consiste delle seguenti parti: - i concetti di base del processo di estrazione della conoscenza: studio e preparazione dei dati, forme dei dati, misure e similarità dei dati; - le principali tecniche di datamining (regole associative, classificazione e clustering). Di queste tecniche si studieranno gli aspetti formali e implementativi; - alcuni casi di studio nell’ambito del marketing e del supporto alla gestione clienti, del rilevamento di frodi e di studi epidemiologici. - l’ultima parte del corso ha l’obiettivo di introdurre gli aspetti di privacy ed etici inerenti all’utilizzo di tecniche inferenza sui dati e dei quali l’analista deve essere a conoscenza ====== Orario ====== **Lunedì 14-16, Aula D1, Giovedì 11-13 Aula C** ====== Libro di Testo ====== • Pang-Ning Tan, Michael Steinbach, Vipin Kumar, Introduction to DATA MINING, Addison Wesley, ISBN 0-321-32136-7, 2006 * [[http://www-users.cs.umn.edu/~kumar/dmbook/index.php]] ====== Riferimenti bibliografici ====== * Pang-Ning Tan, Michael Steinbach, Vipin Kumar, Introduction to DATA MINING, Addison Wesley, ISBN 0-321-32136-7, 2006 * Jiawei Han, Micheline Kamber, Data Mining: Concepts and Techniques, Morgan Kaufmann Publishers, 2000 http://www.mkp.com/books_catalog/catalog.asp?ISBN=1-55860-489-8 * U. Fayyad, G. Piatetsky-Shapiro, P. Smyth, R. Uthurusamy (editors). Advances in Knowledge discovery and data mining, MIT Press, 1996. * Barry Linoff Data Mining Techniques for Marketing Sales and Customer Support, John Wiles & Sons, 2002 ====== Calendario delle lezioni ====== ^ ^ Giorno/ora ^ Aula ^ Argomento ^ Materiale didattico ^ Docente ^ |1.| Lunedì, Febbraio 19, 14-15 | Aula D1 | //Presentazione del corso// | | Giannotti | |2.| Giovedì, Febbraio 22, 11-13 | Aula C | //Cosa è il Data Mining, Motivazioni, Classi di applicazioni, I principali metodi di datamining (Cap. 1)// |{{dm:tdm_data_preparation_2-3.ppt|Slides}}| Giannotti | |3.| Giovedì, Marzo 1, 11-13 | Aula C | //I Dati: i tipi di dato, la qualità dei dati, la preparazione dei dati, misure di similarità e dissimilarità (Cap. 2) // | {{dm:dm_data_preparation_2-3.pdf|Slides}}| Giannotti | |4.| Lunedì, Marzo 5, 14-16 | Aula D1 | //Esplorazione dei dati: dalla statistica descrittava alla visualizzazione Cap. 3 // | | Giannotti | |5.| Giovedì, Marzo 8, 11-13 | Aula C | //Esplorazione dei dati: OLAP ed analisi multidimensionale - Esercitazione (Cap. 3) // | | Giannotti | |6.| Lunedì, Marzo 12, 14-16 | Aula D1 | //Regole Associative: concetti basici ed algoritmo A-Priori (Cap. 6: 6.1, 6.2, 6.3, 6.7) // | | Giannotti | |7.| Giovedì, Marzo 15, 11-13 | Aula C | //Regole Associative : tassonomie, regole quantitative, regole predittive - Pattern Sequenziali (Cap. 7: 7.1, 7.2, 7.3, 7.4) // | | Giannotti | |8.| Lunedì, Marzo 19, 14-16 | Aula D1 | //Regole Associative : Esercitazione// | | Giannotti | |9.| Giovedì, Marzo 22, 11-13 | Aula C | //Regole Associative : Esercitazione// | | Giannotti | |10.| Lunedì, Marzo 26, 14-16 | Aula D1 | //Clustering - Algoritmo k-means// | | Nanni | |11.| Giovedì, Aprile 12, 11-13 | Aula C | //Clustering - Algoritmi gerarchici e density-based // | | Nanni | |12.| Lunedì, Aprile 16, 14-16 | Aula A1 | //Lezione pratica su classificazione con strumenti commerciali e open-source// | {{dm:tdm_dm_16_aprile_07.pdf|Slides}} | Bonchi | |13.| Giovedì, Aprile 19, 11-13 | Aula C | //Classificazione con alberi di decisione, Algoritmo C4.5// | {{dm:2tdm_classificazione.pdf|Slides}} | Giannotti | |14.| Lunedì, Aprile 23, 14-16 | Aula D1 | **VERIFICA** | | Giannotti | |15.| Giovedì, Aprile 26, 11-13 | Aula C | //Classificazione: esercitazione - Assegnazione Progetti// | | Giannotti - Nanni | |16.| Lunedì, Aprile 30, 14-16 | Aula D1 | // - Lezione cancellata per vacanza accademica - // | | | |17.| Giovedì, Maggio 3, 11-13 | Aula C | // Pattern sequenziali - Strumenti di Data Mining: Clementine // | | Nanni | |18.| Lunedì, Maggio 7, 14-16 | Aula D1 | // Strumenti di Data Mining: Weka // | | Nanni | |19.| Giovedì, Maggio 10, 11-13 | Aula C | // Caso di studio 1: Customer Segmentation - Presentazione progetti su inquinamento // | {{dm:case_studies.pdf|Dispensa_case_studies}} {{dm:casestudy1.amrp.adec2007.pdf|Case_study_1}} | Nanni | |20.| Lunedì, Maggio 14, 14-16 | Aula D1 | // Caso di studio 2: Redemption - Modello Crisp-DM - Caso di studio 3 // | {{dm:casestudy2.redemption.adec2007.pdf|Case_study_2}} {{dm:crisp-dm.pdf|CRISP-DM}} {{dm:casestudy3.coop-colla.adec2007.pdf|Case_study_3}}| Nanni | |21.| Giovedì, Maggio 17, 11-12 | Aula C | // Correzione compiti - Assegnazione progetti // | | Giannotti | ====== Verifiche 2007 e anni precedenti ====== === Verifiche anni precedenti (sottoinsieme) === * {{tdm:verifica2006.pdf|Verifica 2006}} * {{tdm:verifica2005.pdf|Verifica 2005}} (con soluzioni) * {{tdm:verifica2004.pdf|Verifica 2004}} === Verifiche 2007 (appelli giugno-luglio) === * {{dm:verifica.05.06.2007.pdf|Verifica 5 giugno 2007}} * {{dm:verifica.26.06.2007.pdf|Verifica 26 giugno 2007}} * {{dm:verifica.24.07.2007_corretto.pdf|Verifica 24 luglio 2007}} / {{dm:verifica.24.07.2007_soluzioni.pdf|Soluzioni}} (NOTA: il testo qui riportato potrebbe differire in alcuni dettagli da quello usato nella verifica, in seguito alla correzione di alcuni errori di editing) ====== Progetti ====== I progetti proposti sono 7, pensati per gruppi di 3 persone l'uno. Una breve descrizione dei progetti è contenuta nel seguente documento: {{dm:progetti_adec_2007_revised.pdf|Progetti}} (Versione aggiornata). Gli studenti interessati sono invitati a mandare una e-mail a Mirco Nanni, ([[mirco.nanni@isti.cnr.it]]) indicando il gruppo di cui si fa parte e quali progetti, in ordine di preferenza, si vorrebbero scegliere. Gli assegnamenti definitivi verranno comunicati successivamente dai docenti del corso. I progetti possono essere svolti utilizzando software a scelta degli studenti. (Almeno) per la fase di mining si suggerisce di utilizzare uno degli strumenti visti a lezione: * Weka http://www.cs.waikato.ac.nz/ml/weka/ (Open Source) * Clementine http://www.spss.com/clementine/ (Licenza acquisita con alcune chiavi hardware da condividere) ====== Appelli di esame ====== Verifica intermedia: | 23 Aprile 2007 | [[dm.verifica.23.aprile.html]] | Appelli: ^ Appello ^ Giorno ^ Orario esame scritto ^ Orario esami orali ^ Aula ^ Risultati ^ |3°| Martedì 5 giugno 2007| 9.00 - 11.00 | | // C1 // | | | | Mercoledì 6 giugno 2007| | 15.00 - 18.00 | // Aula Seminari Ovest // | | |4°| Martedì 26 giugno 2007| 9.00 - 11.00 | 13.00 - 18.00 | // C1 // | | |5°| Martedì 24 luglio 2007| 9.00 - 11.00 | 13.00 - 18.00 | // A1 // | {{dm:appello.2007.07.24.pdf|PDF}} | |6°| Mercoledì 12 settembre 2007| 9.00 - 11.00 | | // B1 // | {{dm:verifica.12.09.2007_risultati.pdf|PDF}} |