Ministero dell'Universita' e della Ricerca scientifica e tecnologica
Dipartimento Affari Economici
Programmi di Ricerca scientifica - richiesta di cofinanziamento
(DM del 23 aprile 1997)
PROGETTO DI UNA UNITA' DI RICERCA - MODELLO B
Anno 1997 - prot. 9709A77351_015
1. Programma di Ricerca di tipo: interuniversitario
Area Scientifico Disciplinare: Ingegneria industriale dell'informazione
Per programmi inter-area:
|
Area: Scienze matematiche (35%)
|
2. Coordinatore Scientifico del Programma di Ricerca
ATZENI
(Cognome) |
PAOLO
(Nome) |
(Cognome acquisito - facoltativo) |
IIIa Università
(Università) |
INGEGNERIA
(Facoltà) |
DIP INFORMATICA E AUTOMAZIONE
(Dipartimento/Istituto) |
3. Titolo del Programma di Ricerca Metodologie e tecnologie per la gestione di dati e processi su reti Internet e Intranet
4. Responsabile Scientifico dell'Unità di Ricerca
BARALIS
(Cognome) |
ELENA
(Nome) |
BIANCO
(Cognome acquisito - facoltativo) |
Ricercatore
(Qualifica) |
09/03/62
(Data di nascita) |
BRLLMR62C49L219W
(Codice di identificazione personale) |
Politecnico TORINO
(Università) |
INGEGNERIA II
(Facoltà) |
Automatica e Informatica
(Dipartimento/Istituto) |
176988
(Codice conto Tesoreria Unica del Dip/Ist.) |
011/5647075
(Prefisso e telefono) |
011/5647099
(Numero fax) |
baralis@polito.it,baralis@athena.polito.it
(Indirizzo di posta elettronica) |
5. Settori disciplinari interessati dal Programma di Ricerca
6. Titolo specifico del programma svolto dall'Unità di Ricerca
Estrazione di informazioni (data mining) dai dati estratti dal Web
7. Descrizione del Programma dell'Unità di Ricerca
* I semestre
Obiettivo di questa fase e` lo studio delle proposte presenti in letteratura e la definizione preliminare di un modello dei dati e di un linguaggio di analisi per le informazioni estratte dal Web. In particolare, si esamineranno e classificheranno le diverse tipologie di metodi di estrazione di conoscenza e si studieranno le proposte di linguaggi per l'estrazione di conoscenza da basi di dati presenti in letteratura.
Si definira` un modello logico per i dati estratti dal Web, che sara` usato come riferimento per la definizione di un linguaggio di tipo generale per l'estrazione di conoscenza.
* Prodotti del I semestre
Si produrranno i seguenti rapporti scientifici, che riassumono i risultati ottenuti:
- rapporto tecnico che descriva il modello logico di riferimento per i dati estratti da Web
- rapporto tecnico che descriva le diverse tipologie di metodi di estrazione di conoscenza
* II semestre
In questa fase, si definiranno gli algoritmi per la realizzazione degli operatori del linguaggio di estrazione proposto nella fase precedente.
Inoltre, si studieranno le proprieta` degli operatori di estrazione e si valuteranno possibili tecniche di ottimizzazione delle operazioni di
estrazione specifiche per data warehouse su Web.
* Prodotti del II semestre
Si produrra` il seguente rapporto scientifico che riassume i risultati ottenuti:
- rapporto tecnico che descrive gli algoritmi per la realizzazione degli operatori di estrazione della conoscenza proposti
* III semestre
Obiettivo di questa fase e` la definizione di una metodologia di specifica delle operazioni di estrazione. Si realizzeranno gli operatori di estrazione mediante opportuni algoritmi e se ne verifichera` sperimentalmente l'efficienza.
* Prodotti del III semestre
Si produrranno un rapporto scientifico che riassume i risultati ottenuti e un primo prototipo:
- rapporto tecnico che che descriva la metodologia di specifica delle operazioni di estrazione di conoscenza
- prototipo di un sistema che permetta di eseguire le operazioni di estrazione proposte
* IV semestre
Obiettivo di questa fase e` la realizzazione di un prototipo e lo sviluppo di un'applicazione prototipale utilizzando la metodologia e gli strumenti definiti nel progetto. In particolare, si sviluppera` un prototipo per l'analisi dei dati estratti da Web. Si verificheranno la metodologia proposta e le funzionalita` offerte mediante lo sviluppo di un'applicazione per l'estrazione di conoscenza in ambito industriale o bancario.
* Prodotti del IV semestre
Si produrranno un rapporto scientifico che riassume i risultati ottenuti nel progetto e un secondo prototipo:
- rapporto tecnico finale su linguaggi di analisi dei dati per data warehouse su Web
- prototipo per l'analisi dei dati estratti da Web mediante tecniche di data mining
8. Obiettivo del programma dell'Unità di Ricerca
A causa della mole rilevante di dati che puo` essere estratta dal Web si rende necessaria un'analisi successiva dei dati (data mining) che permetta di individuare le informazioni effettivamente rilevanti per un utente o un'applicazione specifica.
Gli obiettivi di questo progetto sono:
1) la definizione di una metodologia per specificare le operazioni di estrazione di informazione "nascosta" sotto forma di regolarita` ricorrenti (data mining) da dati provenienti da Web
2) la definizione di un linguaggio per specificare le operazioni di estrazione di alcune tipologie di regole, quali i pattern sequenziali
3) l'ideazione, la realizzazione e la verifica sperimentale di un insieme di algoritmi che permettano di implementare gli operatori del linguaggio proposto
9. Base di partenza scientifica
La ricerca nel campo del data mining e` stata focalizzata prevalentemente sulla definizione di algoritmi efficienti per la risoluzione di problemi specifici, quali la classificazione di dati in gruppi disgiunti (Agrawal et al. 92), la scoperta di associazioni (Agrawal et al. 93), schemi ripetuti e similarita` in sequenze di dati ordinate (Faloutsos et al. 94), la ricerca di pattern frequenti all'interno di collezioni di sequenze temporali di dati (Agrawal et al. 95).
Quasi del tutto assente e` invece una trattazione di tipo generale del problema, che offra all'utente sia un linguaggio di tipo generale per esprimere le caratteristiche delle informazioni da estrarre, sia un insieme di strumenti efficaci e potenti per eseguire l'analisi che siano mirati alle caratteristiche dei dati da analizzare.
L'attivita` di ricerca della nostra unita` e` stata volta alla definizione, mediante un approccio di tipo generale, di un ambiente di specifica e di estrazione di regole di associazione. Tale ambiente, descritto preliminarmente in (Baralis et al. 97), fornisce all'utente meno esperto la possibilita` di specificare in modo semplice i criteri di estrazione di regole di associazione per mezzo di strutture predefinite, dette template, descritte in (Baralis e Psaila 97). L'ambiente di progettazione permette inoltre di specificare criteri di estrazione di regole di associazione mediante un linguaggio simile a SQL, descritto in (Meo et al 96).
(Agrawal et al. 92) R. Agrawal, S. Ghosh, T. Imielinsky, B. Iyer, A. Swami, An interval Classifier for Database Mining Applications, in Proc. VLDB-92, p. 560-573, Vancouver, Agosto 1992
(Agrawal et al. 93) R. Agrawal, T. Imielinsky, A. Swami, Mining Association Rules between Set of items in Large Databases, in Proc. ACM-SIGMOD-93, p. 207-216, Washington D.C., Maggio 1993
(Agrawal et al. 95) R. Agrawal, G. Psaila, E.L. Wimmers, M. Zait, Querying shapes of Histories, in Proc. VLDB-95, Settembre 1995
(Faloutsos et al. 94) C. Faloutsos, M. Ranganathan, Y. Manolopoulos, Fast Subsequence Matching in Time Series Databases, in Proc. ACM SIGMOD-94, Maggio 1994 (Baralis et al. 97) E.Baralis, S.Ceri, R.Meo, G.Psaila, M.Richeldi, P.Risimini, AMORE: an Integrated Environment for Database Mining, Convegno sui Sistemi Evoluti di Basi Dati, 25-28 Giugno, 1997, Verona, Italia.
(Baralis e Psaila 97) E. Baralis, G. Psaila, Designing Templates for Mining Association Rules, sara` pubblicato su Journal of Intelligent Information Systems, Volume 9, Number 1, 1997, numero speciale su Data Mining.
(Meo et al. 96) R.Meo, G.Psaila, S.Ceri, A New SQL-like Operator for Mining Association Rules, 22nd International Conference on Very Large Data Bases, 3-6 Settembre, 1996, Bombay, INDIA.
10. Durata del Programma di Ricerca
24 (mesi)
11. Pubblicazioni scientifiche più significative del Responsabile dell'Unità di Ricerca
- E. Baralis, G. Psaila, Designing Templates for Mining Association Rules, sara` pubblicato su Journal of Intelligent Information Systems, Volume 9, Number 1, 1997, numero speciale su Data Mining.
- E. Baralis, S. Ceri, S. Paraboschi, Modularization Techniques for Active Rules Design, ACM Transactions on Database Systems, Volume 21, Number 1, pp 1-29, Marzo 1996.
- E. Baralis, S. Paraboschi, E. Teniente, Materialized View Selection in a Multidimensional Database, accettato a 23rd Int. Conf.on Very Large Databases, Atene, Grecia, Settembre 1997.
- E. Baralis, S. Ceri, R. Meo, G. Psaila, M. Richeldi, P. Risimini, AMORE: an Integrated Environment for Database Mining, Convegno sui Sistemi Evoluti di Basi Dati, Verona, Italia Giugno 1997.
- E. Baralis, S. Ceri, S. Paraboschi, Conservative Timestamp Revisited for Materialized View Maintenance in a Data Warehouse, ACM-SIGMOD Workshop on Materialized Views: Techniques and Applications, pp. 1-9, Montreal, Canada, Giugno 1996.
12. Risultati ottenibili con fondi propri
* Primo anno
Si produrranno tutti i rapporti tecnici:
- rapporto tecnico che descriva le diverse tipologie di metodi di estrazione di conoscenza
- rapporto tecnico che descrive gli algoritmi per la realizzazione degli operatori di estrazione della conoscenza proposti
* Secondo anno
Si produrranno tutti i rapporti tecnici e la versione semplificata del primo prototipo: - rapporto tecnico che che descriva la metodologia di specifica delle operazioni di estrazione di conoscenza
- versione semplificata del prototipo di un sistema che permetta di eseguire le operazioni di estrazione proposte
- rapporto tecnico finale su linguaggi di analisi dei dati per data warehouse su Web
13. Risorse umane impegnabili nel Programma dell'Unità di Ricerca
(un docente-ricercatore può far parte di una sola Unità di Ricerca)
13.1 Personale universitario dell'Università sede dell'Unità di Ricerca
No. |
Cognome |
Nome |
Dipart./Istituto |
Qualifica |
Mesi uomo |
1. |
Baralis |
Elena |
Automatica e Informatica |
Ricercatore
| 12 |
2. |
Macii |
Enrico |
Automatica e Informatica |
Ricercatore
| 6 |
3. |
Meo |
Angelo Raffaele |
Automatica e Informatica |
Professore Ordinario
| 4 |
13.2 Personale universitario di altre Università:
No. |
Cognome |
Nome |
Università |
Dipart./Istituto |
Qualifica |
Mesi uomo |
13.3 Titolari di borse ex L. 398/89 art. 4 (post-dottorato e specializzazioni)
No. |
Cognome |
Nome |
Dipart./Istituto |
Mesi uomo |
1. |
Meo |
Rosa |
Automatica e Informatica |
12 |
13.4 Titolari di borse per dottorato di ricerca
No. |
Cognome |
Nome |
Università sede amm. |
Dipart./Istituto |
Ciclo |
Mesi uomo |
1. |
Psaila |
Giuseppe |
Politecnico di Torino |
Automatica e Informatica |
10 |
12 |
13.5 Personale extrauniversitario - aggregabile al programma senza oneri aggiuntivi
No. |
Cognome |
Nome |
Ente |
Qualifica |
Mesi uomo |
13.6 Personale a contratto
No. |
Cognome |
Nome |
Qualifica |
Costo previsto |
Mesi uomo |
1. |
X |
X |
X |
32.000.000 |
12 |
14. Risorse finanziarie a sostegno del Programma già disponibili all'atto della domanda
(tutte le cifre sono espresse in milioni)
QUADRO RD
Provenienza |
anno di assegnazione |
importo disponibile |
nome Resp. Naz. |
Universita' |
1996 |
10,000 |
Dipartimento |
|
|
MURST (ex 40%) |
antecedente 1995 |
|
MURST (ex 40%) |
1995 |
|
|
MURST (ex 40%) |
1996 |
7,000 |
Atzeni |
CNR |
1996 |
5,000 |
Unione Europea |
|
|
Altro |
1996 |
18,000 |
TOTALE |
|
40,000 |
14.1 Altro (origine e importi dettagliati):
Contratto di ricerca tra CSELT e Politecnico di Torino per L. 18.000.000
15. Risorse finanziarie acquisibili in data successiva a quella della domanda e utilizzabili a sostegno del Programma
(tutte le cifre sono espresse in milioni)
QUADRO RA
Provenienza |
anno della domanda o stipula del contratto |
stato di approvazione |
disponibilità per il programma |
Università |
|
|
|
Dipartimento |
|
|
|
CNR |
|
|
|
Unione Europea |
|
|
|
Altro |
|
|
|
TOTALE |
|
|
|
15.1 Disponibilità per il programma(articolare negli anni di durata del programma)
15.2 Altro (origine e importi dettagliati)
16. Apparecchiature o grandi attrezzature
16.1 Disponibili ed utilizzabili per la ricerca proposta
(tutte le cifre sono espresse in milioni)
descrizione |
anno di acquisizione |
valore all'acquisto |
finanziamenti ottenuti dal MURST |
% di utilizzo per la ricerca proposta |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
L'uso delle attrezzature disponibili richiede, per la ricerca proposta,
interventi di adeguamento?
Quota necessaria per l'adeguamento:
16.2 Descrizione sintetica dell'adeguamento richiesto
16.3 Richiesta di grandi attrezzature (GA)
(tutte le cifre sono espresse in milioni)
-
Descrizione:
Valore presunto (milioni):
-
Descrizione:
Valore presunto (milioni):
-
Descrizione:
Valore presunto (milioni):
17. Certifico la disponibilità e l'utilizzabilità dei fondi
si
Firma ________________________________
|
(per la copia da depositare presso l'Ateneo)
|
18. Costo complessivo del Programma dell'Unità di Ricerca (in milioni di lire)
Costo complessivo
di cui:
|
96,000
|
Voce
|
importo
|
Materiale inventariabile - (Voce A) |
0,000 |
Spese generali - (Voce B) |
96,000 |
Grandi attrezzature - (Voce GA) |
|
Risorse disponibili all'atto della domanda (RD) |
40,000 |
Risorse acquisibili (RA) |
|
Cofinanziamento richiesto al MURST |
56,000 |
Costo minimo per garantire la possibilità di verifica dei risultati |
64,000 |
Occorre precisare che la quota di cofinanziamento massimo del Programma di Ricerca deve essere pari a:
(Totale RD + Totale RA) x 1.5 per progetti Interuniversitari e
(Totale RD + Totale RA) x 0.66 per progetti Intrauniversitari
(per la copia da depositare presso l'Ateneo e per l'assenso alla divulgazione via Internet delle informazioni riguardanti i programmi finanziati; legge del 31.12.96 n° 675 sulla "Tutela dei dati personali")
Firma ____________________________________
|
Data 22/7/97
Ora 11:53:26
|