Ministero dell'Universita' e della Ricerca scientifica e tecnologica
Dipartimento Affari Economici
Programmi di Ricerca scientifica - richiesta di cofinanziamento
(DM del 23 aprile 1997)
PROGETTO DI UNA UNITA' DI RICERCA - MODELLO B
Anno 1997 - prot. 9709A77351_015


1. Programma di Ricerca di tipo: interuniversitario


Area Scientifico Disciplinare: Ingegneria industriale dell'informazione
Per programmi inter-area:
Area: Scienze matematiche (35%)

2. Coordinatore Scientifico del Programma di Ricerca
ATZENI
(Cognome)
PAOLO
(Nome)

(Cognome acquisito - facoltativo)
IIIa Università
(Università)
INGEGNERIA
(Facoltà)
DIP INFORMATICA E AUTOMAZIONE
(Dipartimento/Istituto)

3. Titolo del Programma di Ricerca Metodologie e tecnologie per la gestione di dati e processi su reti Internet e Intranet


4. Responsabile Scientifico dell'Unità di Ricerca
BARALIS
(Cognome)
ELENA
(Nome)
BIANCO
(Cognome acquisito - facoltativo)
Ricercatore
(Qualifica)
09/03/62
(Data di nascita)
BRLLMR62C49L219W
(Codice di identificazione personale)
Politecnico TORINO
(Università)
INGEGNERIA II
(Facoltà)
Automatica e Informatica
(Dipartimento/Istituto)
176988
(Codice conto Tesoreria Unica del Dip/Ist.)
011/5647075
(Prefisso e telefono)
011/5647099
(Numero fax)
baralis@polito.it,baralis@athena.polito.it
(Indirizzo di posta elettronica)


5. Settori disciplinari interessati dal Programma di Ricerca
K05A K05B


6. Titolo specifico del programma svolto dall'Unità di Ricerca
Estrazione di informazioni (data mining) dai dati estratti dal Web


7. Descrizione del Programma dell'Unità di Ricerca
* I semestre
Obiettivo di questa fase e` lo studio delle proposte presenti in letteratura e la definizione preliminare di un modello dei dati e di un linguaggio di analisi per le informazioni estratte dal Web. In particolare, si esamineranno e classificheranno le diverse tipologie di metodi di estrazione di conoscenza e si studieranno le proposte di linguaggi per l'estrazione di conoscenza da basi di dati presenti in letteratura.
Si definira` un modello logico per i dati estratti dal Web, che sara` usato come riferimento per la definizione di un linguaggio di tipo generale per l'estrazione di conoscenza.
* Prodotti del I semestre
Si produrranno i seguenti rapporti scientifici, che riassumono i risultati ottenuti:
- rapporto tecnico che descriva il modello logico di riferimento per i dati estratti da Web
- rapporto tecnico che descriva le diverse tipologie di metodi di estrazione di conoscenza
* II semestre
In questa fase, si definiranno gli algoritmi per la realizzazione degli operatori del linguaggio di estrazione proposto nella fase precedente.
Inoltre, si studieranno le proprieta` degli operatori di estrazione e si valuteranno possibili tecniche di ottimizzazione delle operazioni di
estrazione specifiche per data warehouse su Web.
* Prodotti del II semestre
Si produrra` il seguente rapporto scientifico che riassume i risultati ottenuti:
- rapporto tecnico che descrive gli algoritmi per la realizzazione degli operatori di estrazione della conoscenza proposti
* III semestre
Obiettivo di questa fase e` la definizione di una metodologia di specifica delle operazioni di estrazione. Si realizzeranno gli operatori di estrazione mediante opportuni algoritmi e se ne verifichera` sperimentalmente l'efficienza.
* Prodotti del III semestre
Si produrranno un rapporto scientifico che riassume i risultati ottenuti e un primo prototipo:
- rapporto tecnico che che descriva la metodologia di specifica delle operazioni di estrazione di conoscenza
- prototipo di un sistema che permetta di eseguire le operazioni di estrazione proposte
* IV semestre
Obiettivo di questa fase e` la realizzazione di un prototipo e lo sviluppo di un'applicazione prototipale utilizzando la metodologia e gli strumenti definiti nel progetto. In particolare, si sviluppera` un prototipo per l'analisi dei dati estratti da Web. Si verificheranno la metodologia proposta e le funzionalita` offerte mediante lo sviluppo di un'applicazione per l'estrazione di conoscenza in ambito industriale o bancario.
* Prodotti del IV semestre
Si produrranno un rapporto scientifico che riassume i risultati ottenuti nel progetto e un secondo prototipo:
- rapporto tecnico finale su linguaggi di analisi dei dati per data warehouse su Web
- prototipo per l'analisi dei dati estratti da Web mediante tecniche di data mining


8. Obiettivo del programma dell'Unità di Ricerca
A causa della mole rilevante di dati che puo` essere estratta dal Web si rende necessaria un'analisi successiva dei dati (data mining) che permetta di individuare le informazioni effettivamente rilevanti per un utente o un'applicazione specifica.
Gli obiettivi di questo progetto sono:
1) la definizione di una metodologia per specificare le operazioni di estrazione di informazione "nascosta" sotto forma di regolarita` ricorrenti (data mining) da dati provenienti da Web
2) la definizione di un linguaggio per specificare le operazioni di estrazione di alcune tipologie di regole, quali i pattern sequenziali
3) l'ideazione, la realizzazione e la verifica sperimentale di un insieme di algoritmi che permettano di implementare gli operatori del linguaggio proposto


9. Base di partenza scientifica
La ricerca nel campo del data mining e` stata focalizzata prevalentemente sulla definizione di algoritmi efficienti per la risoluzione di problemi specifici, quali la classificazione di dati in gruppi disgiunti (Agrawal et al. 92), la scoperta di associazioni (Agrawal et al. 93), schemi ripetuti e similarita` in sequenze di dati ordinate (Faloutsos et al. 94), la ricerca di pattern frequenti all'interno di collezioni di sequenze temporali di dati (Agrawal et al. 95).
Quasi del tutto assente e` invece una trattazione di tipo generale del problema, che offra all'utente sia un linguaggio di tipo generale per esprimere le caratteristiche delle informazioni da estrarre, sia un insieme di strumenti efficaci e potenti per eseguire l'analisi che siano mirati alle caratteristiche dei dati da analizzare.
L'attivita` di ricerca della nostra unita` e` stata volta alla definizione, mediante un approccio di tipo generale, di un ambiente di specifica e di estrazione di regole di associazione. Tale ambiente, descritto preliminarmente in (Baralis et al. 97), fornisce all'utente meno esperto la possibilita` di specificare in modo semplice i criteri di estrazione di regole di associazione per mezzo di strutture predefinite, dette template, descritte in (Baralis e Psaila 97). L'ambiente di progettazione permette inoltre di specificare criteri di estrazione di regole di associazione mediante un linguaggio simile a SQL, descritto in (Meo et al 96).
(Agrawal et al. 92) R. Agrawal, S. Ghosh, T. Imielinsky, B. Iyer, A. Swami, An interval Classifier for Database Mining Applications, in Proc. VLDB-92, p. 560-573, Vancouver, Agosto 1992
(Agrawal et al. 93) R. Agrawal, T. Imielinsky, A. Swami, Mining Association Rules between Set of items in Large Databases, in Proc. ACM-SIGMOD-93, p. 207-216, Washington D.C., Maggio 1993
(Agrawal et al. 95) R. Agrawal, G. Psaila, E.L. Wimmers, M. Zait, Querying shapes of Histories, in Proc. VLDB-95, Settembre 1995
(Faloutsos et al. 94) C. Faloutsos, M. Ranganathan, Y. Manolopoulos, Fast Subsequence Matching in Time Series Databases, in Proc. ACM SIGMOD-94, Maggio 1994 (Baralis et al. 97) E.Baralis, S.Ceri, R.Meo, G.Psaila, M.Richeldi, P.Risimini, AMORE: an Integrated Environment for Database Mining, Convegno sui Sistemi Evoluti di Basi Dati, 25-28 Giugno, 1997, Verona, Italia.
(Baralis e Psaila 97) E. Baralis, G. Psaila, Designing Templates for Mining Association Rules, sara` pubblicato su Journal of Intelligent Information Systems, Volume 9, Number 1, 1997, numero speciale su Data Mining.
(Meo et al. 96) R.Meo, G.Psaila, S.Ceri, A New SQL-like Operator for Mining Association Rules, 22nd International Conference on Very Large Data Bases, 3-6 Settembre, 1996, Bombay, INDIA.


10. Durata del Programma di Ricerca 24 (mesi)


11. Pubblicazioni scientifiche più significative del Responsabile dell'Unità di Ricerca
  1. E. Baralis, G. Psaila, Designing Templates for Mining Association Rules, sara` pubblicato su Journal of Intelligent Information Systems, Volume 9, Number 1, 1997, numero speciale su Data Mining.
  2. E. Baralis, S. Ceri, S. Paraboschi, Modularization Techniques for Active Rules Design, ACM Transactions on Database Systems, Volume 21, Number 1, pp 1-29, Marzo 1996.
  3. E. Baralis, S. Paraboschi, E. Teniente, Materialized View Selection in a Multidimensional Database, accettato a 23rd Int. Conf.on Very Large Databases, Atene, Grecia, Settembre 1997.
  4. E. Baralis, S. Ceri, R. Meo, G. Psaila, M. Richeldi, P. Risimini, AMORE: an Integrated Environment for Database Mining, Convegno sui Sistemi Evoluti di Basi Dati, Verona, Italia Giugno 1997.
  5. E. Baralis, S. Ceri, S. Paraboschi, Conservative Timestamp Revisited for Materialized View Maintenance in a Data Warehouse, ACM-SIGMOD Workshop on Materialized Views: Techniques and Applications, pp. 1-9, Montreal, Canada, Giugno 1996.


12. Risultati ottenibili con fondi propri
* Primo anno
Si produrranno tutti i rapporti tecnici:
- rapporto tecnico che descriva le diverse tipologie di metodi di estrazione di conoscenza
- rapporto tecnico che descrive gli algoritmi per la realizzazione degli operatori di estrazione della conoscenza proposti
* Secondo anno
Si produrranno tutti i rapporti tecnici e la versione semplificata del primo prototipo: - rapporto tecnico che che descriva la metodologia di specifica delle operazioni di estrazione di conoscenza
- versione semplificata del prototipo di un sistema che permetta di eseguire le operazioni di estrazione proposte
- rapporto tecnico finale su linguaggi di analisi dei dati per data warehouse su Web


13. Risorse umane impegnabili nel Programma dell'Unità di Ricerca
(un docente-ricercatore può far parte di una sola Unità di Ricerca)

13.1 Personale universitario dell'Università sede dell'Unità di Ricerca


No. Cognome Nome Dipart./Istituto Qualifica Mesi uomo
1. Baralis Elena Automatica e Informatica Ricercatore 12
2. Macii Enrico Automatica e Informatica Ricercatore 6
3. Meo Angelo Raffaele Automatica e Informatica Professore Ordinario 4

13.2 Personale universitario di altre Università:

No. Cognome Nome Università Dipart./Istituto Qualifica Mesi uomo

13.3 Titolari di borse ex L. 398/89 art. 4 (post-dottorato e specializzazioni)

No. Cognome Nome Dipart./Istituto Mesi uomo
1. Meo Rosa Automatica e Informatica 12

13.4 Titolari di borse per dottorato di ricerca

No. Cognome Nome Università sede amm. Dipart./Istituto Ciclo Mesi uomo
1. Psaila Giuseppe Politecnico di Torino Automatica e Informatica 10 12

13.5 Personale extrauniversitario - aggregabile al programma senza oneri aggiuntivi

No. Cognome Nome Ente Qualifica Mesi uomo

13.6 Personale a contratto

No. Cognome Nome Qualifica Costo previsto Mesi uomo
1. X X X 32.000.000 12


14. Risorse finanziarie a sostegno del Programma già disponibili all'atto della domanda
(tutte le cifre sono espresse in milioni)

QUADRO RD

Provenienza anno di assegnazione importo disponibile nome Resp. Naz.
Universita'  1996  10,000
Dipartimento    
MURST (ex 40%)  antecedente 1995  
MURST (ex 40%)  1995    
MURST (ex 40%)  1996  7,000  Atzeni
CNR  1996  5,000
Unione Europea    
Altro  1996  18,000
TOTALE    40,000

14.1 Altro (origine e importi dettagliati):

Contratto di ricerca tra CSELT e Politecnico di Torino per L. 18.000.000


15. Risorse finanziarie acquisibili in data successiva a quella della domanda e utilizzabili a sostegno del Programma
(tutte le cifre sono espresse in milioni)

QUADRO RA

Provenienza anno della domanda o stipula del contratto stato di approvazione disponibilità per il programma
Università      
Dipartimento      
CNR      
Unione Europea      
Altro      
TOTALE      

15.1 Disponibilità per il programma(articolare negli anni di durata del programma)

15.2 Altro (origine e importi dettagliati)


16. Apparecchiature o grandi attrezzature

16.1 Disponibili ed utilizzabili per la ricerca proposta
(tutte le cifre sono espresse in milioni)

descrizione anno di acquisizione valore all'acquisto finanziamenti ottenuti dal MURST % di utilizzo per la ricerca proposta
         
         
         

L'uso delle attrezzature disponibili richiede, per la ricerca proposta, interventi di adeguamento?

Quota necessaria per l'adeguamento:


16.2 Descrizione sintetica dell'adeguamento richiesto


16.3 Richiesta di grandi attrezzature (GA)
(tutte le cifre sono espresse in milioni)
  1. Descrizione:


    Valore presunto (milioni):    

  2. Descrizione:


    Valore presunto (milioni):    

  3. Descrizione:


    Valore presunto (milioni):    


17. Certifico la disponibilità e l'utilizzabilità dei fondi si



Firma ________________________________ (per la copia da depositare presso l'Ateneo)


18. Costo complessivo del Programma dell'Unità di Ricerca (in milioni di lire)

Costo complessivo

di cui:
 96,000

Voce importo
Materiale inventariabile - (Voce A)  0,000
Spese generali - (Voce B)  96,000
Grandi attrezzature - (Voce GA)  


Risorse disponibili all'atto della domanda (RD)  40,000
Risorse acquisibili (RA)  
Cofinanziamento richiesto al MURST  56,000
Costo minimo per garantire
la possibilità di verifica dei risultati
 64,000

Occorre precisare che la quota di cofinanziamento massimo del Programma di Ricerca deve essere pari a:
(Totale RD + Totale RA) x 1.5 per progetti Interuniversitari e
(Totale RD + Totale RA) x 0.66 per progetti Intrauniversitari

(per la copia da depositare presso l'Ateneo e per l'assenso alla divulgazione via Internet delle informazioni riguardanti i programmi finanziati; legge del 31.12.96 n° 675 sulla "Tutela dei dati personali")



Firma ____________________________________ Data 22/7/97
Ora  11:53:26