Strumenti Utente

Strumenti Sito


dm:dm.2008-09

Questa è una vecchia versione del documento!


Data Mining A.A. 2007/08

Docenti:

  • KDD LAB - Knowledge Discovery Laboratory, ISTI-CNR e Dipartimento di Informatica dell'Università di Pisa http://www-kdd.isti.cnr.it

News

  • Gli studenti che devono ancora sostenere l'esame (scritto e/o presentazione progetto) possono farlo su appuntamento. Si prega di contattare il docente.
  • Ricevimento collettivo: venerdì 30 maggio, ore 11-13, aula C1
  • Pubblicati i risultati della prima verifica intermedia (3 aprile 2008)
  • Fissati aula e orario per la prima verifica intermedia: 3 aprile, ore 9-12, aula C1

Obiettivi del corso

La grande disponibilità di dati provenienti da database relazionali, dal web o da altre sorgenti motiva lo studio di tecniche di analisi dei dati che permettano una migliore comprensione ed un più facile utilizzo dei risultati nei processi decisionali. L'obiettivo del corso è quello di fornire un'introduzione ai concetti di base del processo di estrazione di conoscenza, alle principali tecniche di data mining ed ai relativi algoritmi. Particolare enfasi è dedicata agli aspetti metodologici presentati mediante alcune classi di applicazioni paradigmatiche quali il Basket Market Analysis, la segmentazione di mercato, il rilevamento di frodi. Infine il corso introduce gli aspetti di privacy ed etici inerenti all’utilizzo di tecniche inferenza sui dati e dei quali l’analista deve essere a conoscenza. Il corso consiste delle seguenti parti:

  1. i concetti di base del processo di estrazione della conoscenza: studio e

preparazione dei dati, forme dei dati, misure e similarità dei dati;

  1. le principali tecniche di datamining (regole associative, classificazione e clustering). Di queste tecniche si studieranno gli aspetti formali e implementativi;
  2. alcuni casi di studio nell’ambito del marketing e del supporto alla gestione clienti, del rilevamento di frodi e di studi epidemiologici.
  3. l’ultima parte del corso ha l’obiettivo di introdurre gli aspetti di privacy ed etici inerenti all’utilizzo di tecniche inferenza sui dati e dei quali l’analista deve essere a conoscenza

Orario e Aule

Lezioni:

  • Martedì, ore 14-16, aula I1
  • Giovedi, ore 11-13, aula B

Ricevimento:

  • Giannotti: mercoledì 15-17, ISTI, Area Ricerca CNR, località San Cataldo, Pisa (prenotazione per e-mail)

Libro di Testo

Riferimenti bibliografici

  • Pang-Ning Tan, Michael Steinbach, Vipin Kumar, Introduction to DATA MINING, Addison Wesley, ISBN 0-321-32136-7, 2006
  • Jiawei Han, Micheline Kamber, Data Mining: Concepts and Techniques, Morgan Kaufmann Publishers, 2000 http://www.mkp.com/books_catalog/catalog.asp?ISBN=1-55860-489-8
  • U. Fayyad, G. Piatetsky-Shapiro, P. Smyth, R. Uthurusamy (editors). Advances in Knowledge discovery and data mining, MIT Press, 1996.
  • Barry Linoff Data Mining Techniques for Marketing Sales and Customer Support, John Wiles & Sons, 2002

Calendario delle lezioni

Calendario confermato:

Giorno/ora Aula Argomento Materiale didattico Docente
1. Martedì, Febbraio 19, 14-16 Aula I1 Presentazione del corso Giannotti
2. Giovedì, Febbraio 21, 11-13 Aula B Cosa è il Data Mining, Motivazioni, Classi di applicazioni, I principali metodi di datamining (Cap. 1) Slide Cap. 1 Giannotti
3. Martedì, Febbraio 26, 14-16 Aula I1 I Dati: i tipi di dato, la qualità dei dati, la preparazione dei dati (Cap. 2) Slide Cap. 2 Nanni
4. Giovedì, Febbraio 28, 11-13 Aula B I Dati: misure di similarità (Cap. 2) Giannotti
5. Martedì, Marzo 4, 14-16 Aula I1 I Dati: Esplorazione dei dati (Cap.3) Slide Cap. 3 Giannotti
6. Giovedì, Marzo 6, 11-13 Aula B Regole Associative: concetti basici ed algoritmo A-Priori (Cap. 6: 6.1, 6.2, 6.3, 6.4, 6.7) Slide Cap. 6 Giannotti
7. Martedì, Marzo 11, 14-16 Aula I1 Regole Associative: tassonomie, regole quantitative (Cap. 7: 7.1, 7.2, 7.3, 7.4) Slide Cap. 7 Giannotti
8. Giovedì, Marzo 13, 11-13 Aula B Regole Associative: Pattern Sequenziali (Cap. 7: 7.1, 7.2, 7.3, 7.4) Giannotti
9. Martedì, Marzo 18, 14-16 Aula I1 Regole Associative: Esercitazione Giannotti
10. Giovedì, Marzo 20, 11-13 Aula B Clustering - Introduzione e Algoritmo k-means (Cap. 8: 8.1, 8.2) Slide Cap. 8 Nanni
11. Giovedì, Marzo 27, 11-13 Aula B Clustering - Algoritmi gerarchici e density-based (Cap. 8: 8.3, 8.4, 8.5.1) Nanni
Giovedì, Marzo 27, 16-18 A. Riun. Ovest Ricevimento collettivo
12. Giovedì, Aprile 3, 9-12 Aula C1 VERIFICA
13. Martedì, Aprile 8, 14-16 Aula I1 Classificazione con alberi di decisione, Algoritmo C4.5 dm_8_aprile_08.pdf Giannotti
14. Giovedì, Aprile 10, 11-13 Aula B Classificazione: esercitazione (Cap. 4: 4.1, 4.2, 4.3) 2tdm_classificazione.pdf Giannotti
15. Martedì, Aprile 15, 14-16 Aula I1 Strumenti di Data Mining: Clementine Nanni
16. Giovedì, Aprile 17, 11-13 Aula B Casi di studio: Redemption - Customer Segmentation, Strumenti di Data Mining: Weka (1) Redemption Segmentation Nanni
17. Martedì, Aprile 22, 14-16 Aula I1 Casi di studio: Fraud detection, Strumenti di Data Mining: Weka (2) Fraud detection Esempio-flow-Weka Nanni
18. Martedì, Aprile 29, 14-16 Aula I1 Presentazione progetti, Modello Crisp-DM, Caso di studio: COOl Patterns Progetti CRISP-DM Market Basket Nanni
19. Martedì, Maggio 6, 14-16 Aula I1 Correzione verifica dm.projects..2008_1_.pdf Giannotti
20. Giovedì, Maggio 8, 11-13 Aula B Privacy e Data Mining: aspetti legali ed algoritmici ppdm.08.05.08.pdf Giannotti
21. Martedì, Maggio 20, 14-16 Aula I1 Reti Sociali e Data Mining han.ppt Giannotti

Verifiche 2007 e anni precedenti

Verifiche anni precedenti (sottoinsieme)

Verifiche 2007 (appelli giugno-luglio)

Verifiche 2008

Progetti

Appelli di esame

Verifiche intermedie

Data Orario Luogo Voti
3 aprile 2008 9.00 - 12.00 Aula C1 Risultati (aggiornati)
4 giugno 2008 9.00 - 12.00 Aula D1 Risultati (aggiornati)

Appelli regolari

Tipo di prova Data Orario Luogo Voti
Scritto 12 Giugno 2008 9.30 - 12.30 aula C1 Risultati (Aggiornati)
Scritto 2 Luglio 2008 9.00 - 12.00 aula D1 Risultati
Presentazione progetto 10 Luglio 2008 9.00 Aula riunioni ovest, Dip. Informatica
Scritto 18 Luglio 2008 15.00 - 18.00 aula C1 Risultati (Aggiornati)
Presentazione progetto 21 Luglio 2008 10.00 c/o studio prof.ssa Giannotti, CNR
Scritto 11 settembre 2008 9.30 - 12.30 aula D1 Risultati
Presentazione progetto 26 settembre 2008 10.00 Aula seminari est
Scritto e/o Presentazione progetto Gennaio-Febbraio 2009 - Su appuntamento tbd tbd

Edizioni anni precedenti

dm/dm.2008-09.1235035442.txt.gz · Ultima modifica: 19/02/2009 alle 09:24 (15 anni fa) da Mirco Nanni