Strumenti Utente

Strumenti Sito


dm:dm.2008-09

Differenze

Queste sono le differenze tra la revisione selezionata e la versione attuale della pagina.

Link a questa pagina di confronto

Entrambe le parti precedenti la revisione Revisione precedente
dm:dm.2008-09 [23/12/2009 alle 14:38 (12 anni fa)]
Mirco Nanni cancellata
dm:dm.2008-09 [23/12/2009 alle 14:38 (12 anni fa)] (versione attuale)
Mirco Nanni creata
Linea 1: Linea 1:
-====== Data Mining A.A. 2007/08 ======+====== Data Mining A.A. 2008/09 ======
 Docenti: Docenti:
   * Fosca Giannotti, [[fosca.giannotti@isti.cnr.it]]   * Fosca Giannotti, [[fosca.giannotti@isti.cnr.it]]
Linea 9: Linea 9:
 ====== News ====== ====== News ======
  
 +  * **[30/08/2009]** I risultati dell'appello del 21 luglio 2009 sono online.
 +  * **[06/07/2009]** I risultati dell'appello del 30 giugno 2009 sono online.
 +  * **[29/06/2009]** I risultati dell'appello del 12 giugno 2009 sono online.
 +  * **[08/06/2009]** I risultati della seconda verifica sono online.
 +  * **[22/05/2009]** La seconda verifica è stata spostata al pomeriggio di giovedì 28 maggio. L'appello dell'8-12 giugno verrà invece spostato, causa coincidenza con elezioni europee.
 +  * Le date della seconda verifica e degli appelli sono state fissate, anche se in modo non definitivo.
 +  * Giovedì 21 maggio 2009 ci sarà una lezione extra di esercitazione.
 +  * La verifica intermedia del 7 aprile è stata anticipata alla mattina dello stesso giorno.
   * Gli studenti che devono ancora sostenere l'esame (scritto e/o presentazione progetto) possono farlo su appuntamento. Si prega di contattare il docente.   * Gli studenti che devono ancora sostenere l'esame (scritto e/o presentazione progetto) possono farlo su appuntamento. Si prega di contattare il docente.
-  * Ricevimento collettivo: venerdì 30 maggio, ore 11-13, aula C1 
-  * Pubblicati i risultati della prima verifica intermedia (3 aprile 2008) 
-  * Fissati aula e orario per la **prima verifica intermedia**: 3 aprile, ore 9-12, aula C1 
  
 ====== Obiettivi del corso ====== ====== Obiettivi del corso ======
  
 La grande disponibilità di dati provenienti da database relazionali, dal web o da altre sorgenti motiva lo studio di tecniche di analisi dei dati che permettano una migliore comprensione ed un più facile utilizzo dei risultati nei processi decisionali. L'obiettivo del corso è quello di fornire un'introduzione ai concetti di base del processo di estrazione di conoscenza, alle principali tecniche di data mining ed ai relativi algoritmi. Particolare enfasi è dedicata agli aspetti metodologici presentati mediante alcune classi di applicazioni paradigmatiche quali il Basket Market Analysis, la segmentazione di mercato, il rilevamento di frodi. Infine il corso introduce gli aspetti di privacy ed etici inerenti all’utilizzo di tecniche inferenza sui dati e dei quali l’analista deve essere a conoscenza.  Il corso consiste delle seguenti parti:  La grande disponibilità di dati provenienti da database relazionali, dal web o da altre sorgenti motiva lo studio di tecniche di analisi dei dati che permettano una migliore comprensione ed un più facile utilizzo dei risultati nei processi decisionali. L'obiettivo del corso è quello di fornire un'introduzione ai concetti di base del processo di estrazione di conoscenza, alle principali tecniche di data mining ed ai relativi algoritmi. Particolare enfasi è dedicata agli aspetti metodologici presentati mediante alcune classi di applicazioni paradigmatiche quali il Basket Market Analysis, la segmentazione di mercato, il rilevamento di frodi. Infine il corso introduce gli aspetti di privacy ed etici inerenti all’utilizzo di tecniche inferenza sui dati e dei quali l’analista deve essere a conoscenza.  Il corso consiste delle seguenti parti: 
-  - i concetti di base del processo di estrazione della conoscenza: studio e  +  - i concetti di base del processo di estrazione della conoscenza: studio e preparazione dei dati, forme dei dati, misure e similarità dei dati;
-preparazione dei dati, forme dei dati, misure e similarità dei dati;+
   - le principali tecniche di datamining (regole associative, classificazione e clustering). Di queste tecniche si studieranno gli aspetti formali e implementativi;   - le principali tecniche di datamining (regole associative, classificazione e clustering). Di queste tecniche si studieranno gli aspetti formali e implementativi;
   - alcuni casi di studio nell’ambito del marketing e del supporto alla gestione clienti, del rilevamento di frodi e di studi epidemiologici.    - alcuni casi di studio nell’ambito del marketing e del supporto alla gestione clienti, del rilevamento di frodi e di studi epidemiologici. 
Linea 25: Linea 29:
 ====== Orario e Aule ====== ====== Orario e Aule ======
 **Lezioni:** **Lezioni:**
-  * Martedì, ore 14-16, aula I1 +  * Martedì, ore 14-16, aula C1 
-  * Giovedi, ore 11-13, aula B+  * Giovedi, ore 11-13, aula D1
 **Ricevimento:** **Ricevimento:**
   * Giannotti: mercoledì 15-17, ISTI, Area Ricerca CNR, località San Cataldo, Pisa (prenotazione per e-mail)   * Giannotti: mercoledì 15-17, ISTI, Area Ricerca CNR, località San Cataldo, Pisa (prenotazione per e-mail)
Linea 44: Linea 48:
   * Barry Linoff Data Mining Techniques for Marketing Sales and Customer Support, John Wiles & Sons, 2002   * Barry Linoff Data Mining Techniques for Marketing Sales and Customer Support, John Wiles & Sons, 2002
 ====== Calendario delle lezioni ====== ====== Calendario delle lezioni ======
- 
-Calendario confermato: 
  
 ^ ^ Giorno/ora ^ Aula ^ Argomento ^ Materiale didattico ^ Docente ^ ^ ^ Giorno/ora ^ Aula ^ Argomento ^ Materiale didattico ^ Docente ^
-|1.| Martedì, Febbraio 19, 14-16 | Aula I1 | //Presentazione del corso// |  | Giannotti | +|1.| Martedì, Febbraio 24, 14-16 | Aula C1 | //Presentazione del corso: motivazioni, classi di applicazioni // | {{:dm:dm_intro-1-2_2009.pdf|}}  | Giannotti | 
-|2.| Giovedì, Febbraio 21, 11-13 | Aula | //Cosa è il Data Mining, Motivazioni, Classi di applicazioni,principali metodi di datamining  (Cap. 1)// | {{dm:chap1_intro.pdf|Slide Cap. 1}} | Giannotti +|2.| Giovedì, Febbraio 26, 11-13 | Aula D1 | //principali metodi di DM (Cap.1) // | idem Nanni 
-|3.| Martedì, Febbraio 26, 14-16 | Aula I1 | //I Dati: i tipi di dato, la qualità dei dati, la preparazione dei dati  (Cap. 2) // | {{dm:chap2_data.pdf|Slide Cap. 2}} | Nanni +|3.| Martedì, Marzo 3, 14-16 | Aula C1 | //I Dati: i tipi di dato, la qualità dei dati, la preparazione dei dati - Misure di similarità (Cap.2) // | {{:dm:chap2_data.pdf|}} | Giannotti 
-|4.| Giovedì, Febbraio 28, 11-13 | Aula B | //I Dati: misure di similarità (Cap. 2)// | | Giannotti | +|4.| Giovedì, Marzo 5, 11-13 | Aula D1 | //I Dati: Esplorazione dei dati (Cap.3)// | {{:dm:chap3_data_exploration.pdf|}} | Giannotti | 
-|5.| Martedì, Marzo 4, 14-16 | Aula I1 | //I Dati: Esplorazione dei dati (Cap.3)// | {{dm:chap3_data_exploration.pdf|Slide Cap. 3}} | Giannotti | +|5.| Martedì, Marzo 1014-16 | Aula C1 | //Regole Associative: concetti basici ed algoritmo A-Priori (Cap. 6: 6.1, 6.2, 6.3, 6.4, 6.7) // |  | Giannotti | 
-|6.| Giovedì, Marzo 611-13 | Aula | //Regole Associative: concetti basici ed algoritmo A-Priori (Cap. 6: 6.1, 6.2, 6.3, 6.4, 6.7) // | {{dm:chap6_basic_association_analysis.pdf|Slide Cap. 6}} | Giannotti | +|6.| Giovedì, Marzo 1211-13 | Aula D1 | //Regole Associative: tassonomie, regole quantitative (Cap. 7: 7.1, 7.2, 7.3, 7.4) // | | Giannotti | 
-|7.| Martedì, Marzo 1114-16 | Aula I1 | //Regole Associative: tassonomie, regole quantitative (Cap. 7: 7.1, 7.2, 7.3, 7.4) // | {{dm:chap7_extended_association_analysis.pdf|Slide Cap. 7}} | Giannotti | +|7.| Martedì, Marzo 1714-16 | Aula C1 | //Regole Associative: Pattern Sequenziali (Cap. 7: 7.1, 7.2, 7.3, 7.4) // | | Giannotti | 
-|8.| Giovedì, Marzo 1311-13 | Aula | //Regole Associative: Pattern Sequenziali (Cap. 7: 7.1, 7.2, 7.3, 7.4) // | | Giannotti | +|8.| Giovedì, Marzo 1911-13 | Aula D1 | //Clustering - Introduzione  (Cap. 88.1)// | {{:dm:chap8_basic_cluster_analysis.pdf|}} (Slides 1-82) | Nanni 
-|9.| Martedì, Marzo 1814-16 | Aula I1 | //Regole AssociativeEsercitazione// | | Giannotti +|9.| Martedì, Marzo 2414-16 | Aula C1 | //Clustering - Algoritmi k-means e gerarchici (Cap. 8: 8.2, 8.3) // | idem | Nanni | 
-|10.| Giovedì, Marzo 2011-13 | Aula | //Clustering - Introduzione e Algoritmo k-means (Cap. 8: 8.1, 8.2)// | {{dm:chap8_basic_cluster_analysis.pdf|Slide Cap. 8}} | Nanni | +|10.| Giovedì, Marzo 26, 11-13 | Aula D1 | //Clustering - Algoritmi gerarchici e density-based (Cap. 8: 8.3, 8.4, 8.5.1)// | Idem | Nanni | 
-|11.| Giovedì, Marzo 27, 11-13 | Aula | //Clustering - Algoritmi gerarchici e density-based (Cap. 8: 8.3, 8.4, 8.5.1) // | | Nanni | +|11.Martedì, Marzo 3114-16 Aula C1 | //Esercitazione di preparazione alla verifica: Regole Associative e Clustering // | | Nanni 
-| | Giovedì, Marzo 2716-18 A. Riun. Ovest | //Ricevimento collettivo // | | | +|12.| Giovedì, Aprile 211-13 | Aula D1 | //Esercitazione di preparazione alla verifica: Regole Associative e Clustering// | | Giannotti | 
-|12.| Giovedì, Aprile 39-12 | Aula **C1** | **VERIFICA** | | | +| | Martedì, Aprile 7, 11-13 | Aula D1 | **VERIFICA** | | | 
-|13.| Martedì, Aprile 8, 14-16 | Aula I1 | //Classificazione con alberi di decisione, Algoritmo C4.5// | {{:dm:dm_8_aprile_08.pdf|}}| Giannotti |  +|13.| Martedì, Aprile 21, 14-16 | Aula C1 | //Classificazione con alberi di decisione, Algoritmo C4.5// | {{:dm:chap4_basic_classification.pdf|}} | Nanni |  
-|14.| Giovedì, Aprile 10, 11-13 | Aula | //Classificazione: esercitazione (Cap. 4: 4.1, 4.2, 4.3) // |{{:dm:2tdm_classificazione.pdf|}} | Giannotti +|14.| Giovedì, Aprile 23, 11-13 | Aula D1 | //Classificazione // | Idem Nanni 
-|15.| Martedì, Aprile 15, 14-16 | Aula I1 | // Strumenti di Data Mining: Clementine // | | Nanni +|15.| Martedì, Aprile 28, 14-16 | Aula C1 | //Classificazione // | | Giannotti 
-|16.| Giovedì, Aprile 17, 11-13 | Aula | // Casi di studioRedemption - Customer Segmentation, Strumenti di Data Mining: Weka (1)// | {{:dm:redemption.pdf|Redemption}} {{:dm:segmentation.pdf|Segmentation}} | Nanni +|16.| Giovedì, Aprile 30, 11-13 | Aula D1 | //Classificazioneesercitazione // |  Giannotti 
-|17.| Martedì, Aprile 22, 14-16 | Aula I1 | // Casi di studio: Fraud detection, Strumenti di Data Mining: Weka (2)// | {{:dm:fraud_detection.pdf|Fraud detection}} {{dm:esempio_kf.zip|Esempio-flow-Weka}} | Nanni | +|17.| Martedì, Maggio 5, 14-16 | Aula C1 | // Casi di studio // | {{:dm:redemption.pdf|}} | Nanni | 
-|18.| MartedìAprile 2914-16 | Aula I1 | // Presentazione progetti, Modello Crisp-DM, Caso di studio: COOl Patterns // | {{dm:progetti_adec_2008.pdf|Progetti}} {{:dm:crisp-dm.pdf|CRISP-DM}} {{:dm:casestudy3.coop-colla.adec2007.pdf|Market Basket}}| Nanni +|18.| GiovedìMaggio 711-13 | Aula D1 | // Casi di studio / Strumenti di DM // | | Giannotti 
-|19.| Martedì, Maggio 6, 14-16 | Aula I1 | // Correzione verifica // | {{:dm:dm.projects..2008_1_.pdf|}}| Giannotti +|19.| Martedì, Maggio 12, 14-16 | Aula C1 | // Esercitazione di preparazione alla verifica: Classificazione // | | Nanni 
-|20.| Giovedì, Maggio 8, 11-13 | Aula | // Privacy e Data Mining: aspetti legali ed algoritmici // | {{:dm:ppdm.08.05.08.pdf|}}| Giannotti +|20.| Giovedì, Maggio 14, 11-13 | Aula D1 | // Casi di studio / Presentazione progetti // | {{:dm:coop_dw_abbandono.pdf|}} | Mazzoni/Nanni 
-|21.| Martedì, Maggio 2014-16 | Aula I1 | // Reti Sociali e Data Mining // | {{:dm:han.ppt|}}Giannotti |+|21.| Giovedì, Maggio 2111-13 | Aula D1 | // Esercitazione di preparazione alla verifica: Classificazione // | [[http://lsirwww.epfl.ch/courses/dis/2007ws/exercises/week13/Exercise11-Classification-Solution.pdf|Esercizio]] Nanni |
  
-====== Verifiche 2007 e anni precedenti ======+ 
 +====== Verifiche anni precedenti ======
  
 === Verifiche anni precedenti (sottoinsieme) === === Verifiche anni precedenti (sottoinsieme) ===
Linea 91: Linea 94:
 ====== Progetti ====== ====== Progetti ======
  
-  * Descrizione progetti: {{dm:progetti_adec_2008.pdf|Progetti}} +  * Vengono proposti 5 progetti (+1 //jolly//), descritti nel seguente documento: {{:dm:progetti_adec_2009.pdf|Progetti 2009}}. 
-  * Domande frequenti Informazioni generali sui progetti: [[blog.progetti.2008]]+  * I progetti andranno svolti in gruppi preferibilmente di 2 persone, eccezionalmente anche di 1 o 3 persone. 
 +  * Ogni gruppo dovrà comunicare ai docenti la propria composizione il progetto scelto. In particolare, si richiede di indicare più precisamente l'approccio che verrà utilizzato, in termini di definizione degli obiettivi e, in linea di massima, il tipo di analisi e di metodi di mining che verranno utilizzati. In risposta a tale comunicazione verranno inviate le istruzioni per reperire i dataset di lavoro. 
 +  * I progetti e le corrispondenti relazioni dovranno in linea di massima seguire le linee guida del modello CRISP-DM, brevemente riassunto nelle seguenti slide{{:dm:crisp-dm.pdf|CRISP-DM}}. Esempio di relazione degli anni precedenti: {{:dm:1c.relazione_coop_colla.pdf|}} 
 +  * La discussione del progetto avverrà in prossimità degli appelli d'esame regolari. I gruppi che intendono presentare il proprio progetto ad un dato appello sono pregati di (i) avvisare i docenti almeno 4-5 giorni prima dell'appello; e (ii) inviare la propria relazione, preferibilmente in formato PDF, almeno 2 giorni prima della'appello. Per entrambe le comunicazioni, scrivere a [[mirco.nanni@isti.cnr.it]]. 
 +  * La presentazione di ogni progetto durerà tra i 20 e i 30 minuti. Al termine delle presentazioni, agli studenti verrà chiesto di fornire copia della presentazione. 
 + 
 +===== Software ===== 
 + 
 +  * I progetti possono essere svolti con qualunque software, a discrezione degli studenti, purché, ovviamente, provvisti di adeguate funzionalità di data mining. 
 +  * Alcuni software di analisi potrebbero avere problemi a reggere la mole dei dati forniti. In tal caso, si consiglia di utilizzare un DBMS (Access, SQL Server, Oracle, MySQL, ...) per effettuare una adeguata selezione/sfoltimento dei dati. 
 +  * Tra i software di data mining disponibili, si consigliano i seguenti: 
 +    * **Weka**, scaricabile gratuitamente da questo indirizzo: [[http://www.cs.waikato.ac.nz/ml/weka/]]
 +    * **Rialto**, scaricabile da: [[http://www.exeura.com/products.php?lan=it]]. La licenza per uso accademico (1 per gruppo) può essere richiesta ad Andrea Mazzoni: [[andrea.mazzoni@isti.cnr.it]].
  
 ====== Appelli di esame ====== ====== Appelli di esame ======
 ===== Verifiche intermedie ===== ===== Verifiche intermedie =====
  
-^ Data ^ Orario ^ Luogo ^ Voti ^ +^ Data ^ Orario ^ Luogo ^ Note ^ Voti ^ 
-aprile 2008 9.00 12.00 | Aula C1 {{:dm:compiti_aggiornati.pdf|Risultati (aggiornati)}} |  +aprile 2009, martedì 11-13 | Aula D1 | [[voti.7.4.2009]] 
-4 giugno 2008 9.00 12.00 | Aula D1 | {{:dm:risultati.2008.06.04aggiornato.pdf|Risultati (aggiornati)}} | +28 maggio 2009, giovedì 14-16 | Aula D1 | {{:dm:verifica.dm.2009.05.28.pdf|Testo verifica}} | [[voti.28.5.2009]] |
  
 ===== Appelli regolari ===== ===== Appelli regolari =====
  
  
-^ Tipo di prova ^ Data ^ Orario ^ Luogo ^ Voti ^ +^ Tipo di prova ^ Data ^ Orario ^ Luogo ^ Note ^ Voti ^ 
-Scritto | 12 Giugno 2008 9.30 - 12.30 aula C1{{:dm:voti120608_aggiornati.pdf|Risultati (Aggiornati)}}+ Appello 1 - scritto | 12 giugno 2009 10-12 | D1  | [[appello.12.06.2009.risultati]] 
-Scritto | 2 Luglio 2008 9.00 - 12.00 aula D1 | {{:dm:voti020708.pdf|Risultati}}| + orale 16 giugno 2009 | 10-13 | B | - | - | 
-Presentazione progetto | 10 Luglio 2008 9.00 Aula riunioni ovest, Dip. Informatica |  +|  Appello - scritto 30 giugno 2009 | 10-12 | D1 | {{:dm:appello.2009.06.30.pdf|Testo}} | [[appello.30.12.2009.risultati]] 
-Scritto 18 Luglio 2008 15.00 18.00 aula C1 | {{:dm:voti.2008.07.18.pdf|Risultati (Aggiornati)}} | + orale | 7 luglio 2009 | 10-13 D1 - | - 
-Presentazione progetto 21 Luglio 2008 | 10.00  c/o studio prof.ssa Giannotti, CNR  |  + Appello 3 - scritto 21 luglio 2009 10-12 D1 | {{:dm:appello.2009.07.21_definitivo.pdf|Testo}} | [[appello.21.07.2009.risultati]] 
-Scritto 11 settembre 2008 9.30 - 12.30 aula D1 | {{:dm:voti.11.09.2008.pdf|Risultati}}| + orale 24 luglio 2009 | 10-13 | D1 | - | | 
-Presentazione progetto 26 settembre 2008 | 10.00 Aula seminari est  + Appello 4 - scritto settembre 2009 10-12 | | {{:dm:appello.2009.09.03.pdf|Testo}} | [[appello.03.09.2009.risultati]] 
-| Scritto e/o Presentazione progetto | Gennaio-Febbraio 2009 - **Su appuntamento** | tbd tbd |  + orale 10 settembre 2009 | 10-12 | **Confermata** | |
  
 ====== Edizioni anni precedenti ===== ====== Edizioni anni precedenti =====
  
 +  * [[dm.2007-08]]
   * [[dm.2006-07]]   * [[dm.2006-07]]
dm/dm.2008-09.1261579080.txt.gz · Ultima modifica: 23/12/2009 alle 14:38 (12 anni fa) da Mirco Nanni