Tu sei qui

Data mining: problemi, strumenti ed applicazioni

Data mining: problemi, strumenti ed applicazioni
Corso di laurea magistrale in Informatica F008

SCV0328
Docente: Claudio Gentile


CFU SSD LEZIONI LABORATORI ANNO LINGUA
6 INF/01 40 16 II Italiano


Obiettivi dell’insegnamento e risultati di apprendimento attesi
Il corso mira a far acquisire familiarità con problemi, metodi e strumenti di Data Mining di attuale interesse applicativo/industriale su dati di grandi dimensioni. Per l'uso di tali dati e delle piattaforme hardware/software relative, verranno sottoposte richieste di grant AWS (Amazon Web Services) for education.
I contenuti didattici includono: mining di regole di associazione e pattern sequenziali, alberi di decisione, classificazione lineare e lineare generalizzata (funzioni kernel, Support Vector Machine, ecc); metodi di aggregazione; problemi e metodi di apprendimento ad informazioni parziali; classificazione gerarchica; ranking; collaborative filtering; data mining su reti.

    In sintesi, gli obiettivi dell'insegnamento ed i risultati attesi di apprendimento sono i seguenti:
  • Acquisire conoscenze di base dei metodi di Data Mining su dati di grandi dimensioni e delle problematiche relative.
  • Acquisire capacità nell'applicare tali conoscenze a problemi reali, declinando con giudizio critico i metodi in relazione ai problemi da risolvere.
  • Capacità di apprendimento di nuove metodologie e di svolgere analisi comparative con quanto è già noto allo studente.

Prerequisiti
Contenuti di base del corso di Sistemi Intelligenti erogato al primo anno del corso di laurea magistrale.

Contenuti e programma del corso

  • Mining di regole di associazione e pattern sequenziali, alberi di decisione, classificazione lineare e lineare generalizzata (funzioni kernel, Support Vector Machine, ecc). Metodi di aggregazione (bagging e boosting). (16 ore).
  • Problemi e metodi di apprendimento ad informazioni parziali (tradeoff esplorazione-sfruttamento, "bandit problems", crowdsourcing); e strutturata (classificazione gerarchica; ranking; collaborative filtering). (10 ore).
  • Data mining su reti (co-training, transfer learning, active learning e semi-supervised learning su reti di task, pagerank per la classificazione di strutture testuali linkate, community discovery, ecc.). (14 ore)
  • Attività di laboratorio: L'enfasi sarà su problemi reali inerenti reti sociali online e su problemi di Web recommendation/Web advertising. E' previsto l'uso di software standard quali Matlab (o sue versioni freeware), e/o di MapReduce/Hadoop. (16 ore).

Tipologia delle attività didattiche
40 ore di lezione frontale vengono svolte in aula, le 16 ore di laboratorio vengono invece svolte presso un attrezzato laboratorio informatico. Nel laboratorio viene fornita assistenza continua da parte del docente.

Testi e materiale didattico
Da individuare.
Dispense fornite dal docente e disponibili sul sito di e-learning.

Modalità di verifica dell’apprendimento
L'esame consta di un progetto e di un colloquio orale. Il progetto viene proposto dallo studente in base ai suoi precipui interessi. In assenza di specifiche proposte, il progetto è proposto dal docente. Nel progetto gli studenti sono tipicamente chiamati ad implementare semplici metodi di indagine sperimentale su dati messi loro a disposizione (o scaricati) da reti sociali online e/o da siti di web advertisement e/o da dati di banchmarking di altra natura disponibili su repository online.
Tali indagini sono volte ad accertare la capacità degli studenti di adattare i metodi studiati ai casi reali, comprendendone eventualmente le specificità. Il progetto deve essere accompagnato da una breve relazione che descriva i contenuti e le risultanze ottenute. L'esito del progetto, in trentesimi, è positivo (e consente l'accesso al successivo esame orale) se riporta una votazione almeno pari a 18/30. La prova orale consta di un colloquio la cui prima domanda è sempre la discussione dei risultati del progetto. Durante l'esame orale lo studente deve mostrare comprensione dei metodi trattati a lezione, dei loro vantaggi e dei loro svantaggi. La prova complessiva è superata con una votazione finale di almeno 18/30. Il voto del progetto concorre in modo significativo alla determinazione del voto finale.

Orario di ricevimento
Su appuntamento.

Theme by Danetsoft and Danang Probo Sayekti inspired by Maksimer