Ministero dell'Universita' e della Ricerca scientifica e tecnologica
Dipartimento Affari Economici
Programmi di Ricerca scientifica - richiesta di cofinanziamento
(DM del 23 aprile 1997)
PROGETTO DI UNA UNITA' DI RICERCA - MODELLO B
Anno 1997 - prot. 9709A77351_001


1. Programma di Ricerca di tipo: interuniversitario


Area Scientifico Disciplinare: Ingegneria industriale dell'informazione
Per programmi inter-area:
Area: Scienze matematiche (35%)

2. Coordinatore Scientifico del Programma di Ricerca
ATZENI
(Cognome)
PAOLO
(Nome)

(Cognome acquisito - facoltativo)
IIIa Università
(Università)
INGEGNERIA
(Facoltà)
DIP INFORMATICA E AUTOMAZIONE
(Dipartimento/Istituto)

3. Titolo del Programma di Ricerca Metodologie e tecnologie per la gestione di dati e processi su reti Internet e Intranet


4. Responsabile Scientifico dell'Unità di Ricerca
ATZENI
(Cognome)
PAOLO
(Nome)

(Cognome acquisito - facoltativo)
Professore Ordinario
(Qualifica)
27/04/57
(Data di nascita)
TZNPLA57D27H501O
(Codice di identificazione personale)
IIIa Università
(Università)
INGEGNERIA
(Facoltà)
Dip Informatica e Automazione
(Dipartimento/Istituto)
148852
(Codice conto Tesoreria Unica del Dip/Ist.)
06/55177051
(Prefisso e telefono)
06/55173211
(Numero fax)
atzeni@inf.uniroma3.it
(Indirizzo di posta elettronica)


5. Settori disciplinari interessati dal Programma di Ricerca
K05A


6. Titolo specifico del programma svolto dall'Unità di Ricerca
Metodologie e tecnologie per la gestione di dati su reti Internet e Intranet


7. Descrizione del Programma dell'Unità di Ricerca


La ricerca si articola su quattro fasi di durata semestrale, descritte di seguito insieme ai prodotti previsti per ciascuna di esse.


PRIMA FASE


Nel corso della prima fase verranno avviate le prime attivita' di ricerca, con riferimento alla definizione di modelli e linguaggi, come segue.


Verranno studiati i modelli per la descrizione dell'organizzazione dei dati sul Web e i linguaggi di manipolazione per data warehouse.


Verranno definiti gli strumenti per la scrittura di wrapper. Verra' definito un modello logico per rappresentare aspetti dimensionali di un data warehouse su Web e un linguaggio astratto per l'analisi dei dati.


Verranno infine definiti i modelli di dati (concettuale e logico) per la descrizione di siti Web; l'utilizzo di modelli del genere consentira' di progettare lo schema di un sito, mettendo in evidenza elementi di regolarita' assai utili nell'interazione, quali, ad esempio, tipologie di pagine Web e relazioni logiche e collegamenti tra tipi di pagine. Sulla base di questi modelli, verra' sviluppata una metodologia di progettazione integrata fra Web e basi di dati; la metodologia avra' l'obiettivo di produrre siti con struttura regolare, in modo da migliorare l'interazione dell'utente con il sito, e facilitare l'attivita' di manutenzione da parte del progettista. La metodologia definita verra' infine sperimentata nel progetto di siti Web reali.


Si prevede l'ottenimento dei seguenti prodotti:


- rapporto contenente la descrizione del modello di dati;


- rapporto contenente la sintassi e la semantica del linguaggio per la scrittura dei wrapper;


- rapporto descrivente un modello per basi di dati multidimensionali e contenente un confronto con la letteratura;


- rapporto descrivente un linguaggio astratto di alto livello per l'interrogazione di basi di dati multidimensionali su Web;


- rapporto descrivente i modelli di dati per la descrizione di siti Web e della relativa metodologia.


SECONDA FASE


Nel corso della seconda fase verranno proseguite le ricerche avviate nella fase precedente e si comincera' a definire le architetture dei prototipi previsti, come descritto con maggior dettaglio nel seguito.


Verra' implementato un linguaggio per la scrittura dei wrapper e si definira' la sintassi e la semantica del linguaggio per l'interrogazione del Web. Si definira' l'architettura del prototipo del linguaggio di interrogazione.


Si studieranno le proprieta' del linguaggio per l'analisi dei dati con valutazione della sua potenza espressiva. Si studieranno linguaggi procedurali per l'interrogazione di basi di dati multidimensionali e tecniche per l'ottimizzazione di interrogazioni su basi di dati multidimensionali. Si progettera' l'architettura di un prototipo per la manipolazione di basi di dati multidimensionali.


Verranno infine studiati gli strumenti a supporto della metodologia; tali strumenti dovranno consentire, tra le altre cose, la generazione automatica delle pagine HTML a partire dal contenuto della basi di dati; questo da una parte permette al progettista di concentrarsi sulle scelte fondamentali di progetto e di disinteressarsi dei dettagli relativi alla generazione delle pagine; dall'altra, garantisce la consistenza del sito anche in presenza di aggiornamenti e riorganizzazioni. A questo fine, verra' definita la sintassi e della semantica di un linguaggio per la generazione automatica delle pagine HTML.


Si prevede l'ottenimento dei seguenti prodotti:


- primo prototipo del linguaggio per la scrittura dei wrapper;


- rapporto contenente la sintassi e la semantica del linguaggio di interrogazione di siti Web;


- rapporto descrivente l'architettura del prototipo del linguaggio di interrogazione;


- rapporto contenente un studio delle proprieta' del linguaggio per l'analisi dei dati con valutazione della sua potenza espressiva;


- rapporto descrivente un linguaggio procedurale per la manipolazione di basi di dati multidimensionali e relative tecniche di ottimizzazione;


- rapporto descrivente l'architettura di un prototipo per la manipolazione di basi di dati multidimensionali;


- rapporto descrivente la sintassi e la semantica del linguaggio per la generazione delle pagine HTML.


TERZA FASE


Nel corso della terza fase, oltre a proseguire le ricerche avviate nelle fasi precedenti, si avvieranno le realizzazioni dei prototipi previsti, come segue.


Si studieranno le problematiche per l'esecuzione efficiente delle interrogazioni nel linguaggio e si realizzera' un primo prototipo del linguaggio di interrogazione di siti Web.


Si sviluppera` un linguaggio pratico basato sul linguaggio astratto studiato e si definira` una metodologia per il progetto di basi di dati multidimensionali, che sara` sperimentata in alcune applicazioni reali. Saranno inoltre sviluppati alcuni moduli di un prototipo per la manipolazione di basi di dati multidimensionali.


Verranno realizzati i primi prototipi degli strumenti di ausilio alla progettazione si siti web integrati con la metodologia; tra questi, verra' realizzato il primo prototipo del linguaggio per la generazione automatica delle pagine HTML.


Si prevede l'ottenimento dei seguenti prodotti:


- rapporto descrivente strutture di dati ed algoritmi allo scopo di diminuire i tempi di risposta del sistema di interrogazione di siti Web;


- prototipo del sistema di interrogazione di siti Web;


- rapporto descrivente un linguaggio pratico di analisi dei dati e sua applicazione in casi reali.


- rapporto descrivente una metodologia per il progetto di basi di dati multidimensionali e sua sperimentazione in alcune applicazioni reali.


- alcuni moduli di un prototipo per la manipolazione di basi di dati multidimensionali.


- prototipo dello strumento per la generazione automatica delle pagine HTML e sua istallazione su sito Web.


QUARTA FASE


Nel corso della quarta fase verra' completato lo sviluppo dei prototipi previsti e verranno effettuate con i prototipi realizzati alcune sperimentazioni, come descritto con maggior dettaglio nel seguito.


Verra' sperimentato il prototipo nell'interrogazione di siti Web esistenti e verranno realizzati alcuni strumenti di supporto alle interrogazioni (es: interfacce amichevoli per la specifica delle query).


Si terminera' lo sviluppo di un prototipo per la manipolazione di basi di dati multidimensionali e si svilupperanno alcuni moduli di uno strumento automatico per il supporto alla progettazione di basi di dati multidimensionali su Web.


Verra' affrontato lo studio dei paradigmi di interrogazione e ricerca che traggono vantaggio dalla presenza di una progettazione del sito Web. Infatti, un approccio metodologico strutturato, aumentando la regolarita' delle strutture all'interno del sito, consente di rispondere in modo efficace a interrogazioni circa il contenuto del sito Web. A questo fine, verranno definiti opportuni linguaggi per la specifica di interrogazioni e l'estrazione dei dati dai siti progettati utilizzando la metodologia.


Si prevede l'ottenimento dei seguenti prodotti:


- sperimentazione e validazione del prototipo per l'interrogazione di siti Web;


- implementazione di strumenti di supporto alla scrittura delle query;


- rapporto conclusivo: sviluppi futuri della ricerca e applicabilita' dei risultati.


- prototipo per la manipolazione di basi di dati multidimensionali;


- moduli di uno strumento automatico per il supporto alla progettazione di basi di dati multidimensionali su Web;


- rapporto descrivente i risultati della ricerca e della attivita' sperimentazione di linguaggi per l'analisi di dati.


- pubblicazione dei dati relativi alla sperimentazione della metodologia e all'uso dei prototipi;


- definizione e implementazione di strumenti per l'interrogazione dei siti progettati utilizzando la metodologia;


- rapporto conclusivo: sviluppi futuri della ricerca e applicabilita' dei risultati.


8. Obiettivo del programma dell'Unità di Ricerca
Il World Wide Web si sta rapidamente affermando come un'interfaccia uniforme per l'accesso ai dati. Purtroppo, le modalita' di accesso a questo grande patrimonio di dati (navigazione manuale ed uso di motori di ricerca) non possono essere considerate soddisfacenti. E' dunque necessario sviluppare strumenti che consentano un'interazione piu' efficace, nello spirito dei linguaggi di interrogazione per basi di dati. Questi strumenti dovranno essere in grado, sulla base di interrogazioni espresse dall'utente, di navigare automaticamente le pagine, estrarre i dati di interesse e fornire all'utente i risultati in formato compatto e strutturato.


A causa della mole rilevante di dati che puo` essere estratta dal Web si rendono necessarie elaborazioni successive che permettano sia di individuare informazioni rilevanti per una specifica applicazione, sia di fornire un supporto efficace alle decisioni da intraprendere. Queste analisi sono comuni a tutte quelle applicazioni che richiedono la costruzione di appositi magazzini di dati detti "data warehouse", contenenti collezioni integrate di dati di tipo storico-temporale, provenienti da sorgenti informative distribuite ed eterogenee. L'analisi viene poi effettuata descrivendo i dati secondo diverse prospettive o "dimensioni" (temporali, spaziali, ecc.), ottenendo le cosidette di basi di dati "multidimensionali", In questo contesto si intendono studiare i seguenti temi di ricerca: (a) la definizione di modelli a diversi livelli di astrazione e di metodologie per la progettazione di data warehouse, a partire da fonti informative eterogenee presenti sul Web; (b) lo sviluppo di linguaggi per l'interrogazione e di basi di dati multidimensionali su Web sia di alto livello, in grado di esprimere in maniera dichiarativa operazioni complesse, che di tipo procedurale, sui quali applicare tecniche di ottimizzazione sviluppate appositamente.


Infine, e' divenuto sempre piu' importante progettare siti Web che consentano una interazione organica, semplificando al massimo la gestione dei dati contenuti nel sito. In questo senso, la tecnologia delle basi di dati rappresenta una risorsa essenziale. E' necessario dunque sviluppare metodologie e strumenti che supportino la progettazione di siti Web e delle relative basi di dati.


9. Base di partenza scientifica
Il problema dell'accesso alle informazioni sul Web e' stato recentemente affrontato in letteratura (Konopnicki 1995, Mendelzon 1996). Questi approcci vedono il Web come un'enorme grafo di documenti collegati da link, e mirano allo sviluppo di linguaggi di alto livello che consentano all'utente di esprimere interrogazioni sulla base della struttura del grafo e del contenuto dei documenti.


Il limite principale di questi approcci consiste nel fatto che tendono a vedere le pagine HTML come oggetti essenzialmente non strutturati e non tengono in considerazione l'organizzazione interna delle pagine. Viceversa, in molti casi, le pagine hanno una struttura interna articolata, e la conoscenza di questa struttura da parte dell'utente consente di rendere le interrogazioni piu' efficaci. A questo fine, nei lavori recenti di questa unita' (Atzeni 1997a, Atzeni 1997b), e' stato iniziato lo studio di un modello di dati per la descrizione di siti Web. Nel modello, le pagine sono viste come oggetti con un identificatore (l'URL) e una serie di attributi. Al fine di vedere le pagine HTML come istanze delle corrispondenti strutture del modello, e' necessario scrivere opportuni "wrapper", che estraggano i valori degli attributi dalle pagine. A tal fine e' stato definito un opportuno linguaggio (Atzeni 1997c) per la ricerca e la ristrutturazione di testi. Infine, e' stata avviata la definizione di un linguaggio per l'interrogazione di porzioni del Web descritte utilizzando il modello di dati.


Recentemente, il problema dell'analisi dei dati per il supporto alla decisioni e' stata largamente studiato nell'area delle basi di dati (Chaudhuri 97). Le principali tematiche allo studio sono la progettazione di data warehouse multidimensionali e lo sviluppo di linguaggi per le interrogazioni dei dati orientate all'analisi. Nel primo caso, si sta cercando di individuare modelli concettuali e logici adatti alla modellizzazione dei data warehouse in grado di descrivere gli aspetti multidimensionali che caratterizzano l'analisi dei dati (Agrawal 97). Nel secondo, sono stati proposti alcuni specifici linguaggi di manipolazione, tipicamente estensioni di SQL, che rendano efficace operazioni tipiche dell'analisi quali aggregazioni e classificazioni (Gray 96). In quest'ottica, si sta seguendo un approccio piu' sistematico al problema in grado di analizzare proprieta' generali (Cabibbo 97).


Varie metodologie (Garzotto, 1993, Isakowitz, 1995) sono state recentemente presentate nel contesto della progettazione di applicazioni ipermediali. Queste metodologie tendono a dividere l'attivita' di progettazione in una serie di fasi specifiche: progetto concettuale dei dati, progetto della navigazione e progetto dell'interfaccia.


L'obiettivo della ricerca e' quello di estendere queste metodologie in varie direzioni. Per cominciare, con la definizione di opportuni modelli per la descrizione concettuale e logica di ipertesti Web, nello spirito delle metodologie di progetto per basi di dati (Atzeni, 1996). Tali modelli verranno usati per descrivere l'organizzazione delle informazioni nel sito. Contemporaneamente, la metodologia dovra' consentire di progettare anche la base di dati in cui le informazioni contenute nel sito saranno conservate, e sara' supportata dall'utilizzo di opportuni strumenti per la generazione automatica delle pagine HTML a partire dal contenuto della basi di dati. La metodologia verra' infine arricchita in modo da affrontare il progetto di siti distribuiti.


In questo contesto, e' stata avviata la definizione delle funzionalita' di uno strumento per la generazione automatica delle pagine a partire da una base di dati (Atzeni, 1997b).


Riferimenti:


(Agrawal 97) R. Agrawal, A. Gupta, and S. Sarawagi. Modeling multidimensional databases. In Thirteenth IEEE International Conference on Data Engineering, pages 232-243, 1997.


(Atzeni, 1996) P. Atzeni, S. Ceri, S. Paraboschi, R. Torlone "Basi di Dati" Mc-Graw Hill, 1996.


(Atzeni 1997a) P. Atzeni, G. Mecca, P. Merialdo "To Weave the Web", In Proceedings of the 23rd International Conference on Very Large Databases (VLDB'97), 1997


(Atzeni 1997b) P. Atzeni, G. Mecca, P. Merialdo "Semistructured and Structured Data in the Web: Going Back and Forth", SIGMOD Record, To Appear, December 1997.


(Atzeni 1997c) P. Atzeni, G. Mecca "Cut and Paste" In Proceedings of the 16th International Symposium on Principles of Database Systems (PODS'97), 1997.


(Cabibbo 97) L. Cabibbo, R. Torlone. Querying Multidimensional Databases. In Sixth International Workshop on Database Programming Languages (DBPL6), Lecture Notes in Computer Science, Springer--Verlag, 1997.


(Chaudhuri 97) S. Chaudhuri, U. Dayal. An overview of Data Warehousing, and OLAP Technology. SIGMOD Record, vol. 26, n. 1, pag. 65-74, 1997.


(Garzotto, 1993) F. Garzotto, P. Paolini, D. Schwabe "HDM -- A model based approach to hypertext application design", ACM Transactions on Information Systems, January 1993.


(Gray 96) J. Gray, A. Bosworth, A. Layman, and H. Pirahesh. Data Cube: a relational aggregation operator generalizing group-by, cross-tab, and sub-totals. In Twelfth IEEE International Conference on Data Engineering, pages 152-159, 1996.


(Isakowitz, 1995) T. Isakowits, E. Stohr, P. Balasubramanian "RMM: A methodology for structured hypermedia design", Communications of the ACM, August 1995.


(Konopnicki 1995) D. Konopnicki, O. Shmueli "W3QS: A query system for the World Wide Web, In Proceedings of the 21rd International Conference on Very Large Databases (VLDB'95), 1995


(Mendelzon 1996) A. O. Mendelzon, G. Mihaila, T. Milo "Querying the World Wide Web", In Proceedings of the 1st International Conference on Parallel and Distributed Information Systems (PDIS'96), 1996.


10. Durata del Programma di Ricerca 24 (mesi)


11. Pubblicazioni scientifiche più significative del Responsabile dell'Unità di Ricerca
  1. P. Atzeni, G. Mecca, P. Merialdo “To Weave the Web”, Very Large Databases (VLDB'97), 1997
  2. P. Atzeni, L. Cabibbo, G. Mecca “IsaLog: A Deductive Language with Negation for Complex Object Databases with Hierarchies”, Data and Knowledge Engineering, 1997.
  3. P. Atzeni, G. Mecca, P. Merialdo “Semistructured and Structured Data in the Web: Going Back and Forth”, SIGMOD Record, To Appear, December 1997.
  4. P. Atzeni, A. Masci, G. Mecca, P. Merialdo, E. Tabet. Ulixes: Building Relational Views over the Web. IEEE Data Engineering, 1997.
  5. P. Atzeni, R. Torlone “Efficient Database Updates with Independent Schemes”, SIAM Journal on Computing, To Appear, 1997.


12. Risultati ottenibili con fondi propri


Il grado di avanzamento raggiungibile con fondi propri riguarda principalmente lo studio dei principi e lo sviluppo di alcuni moduli dei prototipi previsti.


I prodotti attesi sono i seguenti:


- rapporto contenente la descrizione del modello di dati per siti Web;


- rapporto contenente la sintassi e la semantica del linguaggio per la scrittura dei wrapper;


- rapporto contenente la sintassi e la semantica del linguaggio di interrogazione di siti Web;


- rapporto contenente la descrizione del modello per basi di dati multidimensionali su Web e della relativa metodologia;


- alcuni moduli sempilficati del prototipo per la manipolazione di basi di dati multidimensionali;


- rapporto contenente la descrizione della metodologia di sviluppo di siti Web;


- documento di descrizione della sintassi e della semantica del linguaggio per la generazione automatica di pagine HTML.


13. Risorse umane impegnabili nel Programma dell'Unità di Ricerca
(un docente-ricercatore può far parte di una sola Unità di Ricerca)

13.1 Personale universitario dell'Università sede dell'Unità di Ricerca


No. Cognome Nome Dipart./Istituto Qualifica Mesi uomo
1. Atzeni Paolo Dip. Informatica e Automazione Professore Ordinario 12
2. Torlone Riccardo Dip. Informatica e Automazione Ricercatore 14
3. Cabibbo Luca Dip. Informatica e Automazione Ricercatore 14

13.2 Personale universitario di altre Università:

No. Cognome Nome Università Dipart./Istituto Qualifica Mesi uomo
1. Mecca Giansalvatore Basilicata DIFA Ricercatore 14

13.3 Titolari di borse ex L. 398/89 art. 4 (post-dottorato e specializzazioni)

No. Cognome Nome Dipart./Istituto Mesi uomo

13.4 Titolari di borse per dottorato di ricerca

No. Cognome Nome Università sede amm. Dipart./Istituto Ciclo Mesi uomo
1. Merialdo Paolo Roma La Sapienza Dip Informatica e Sistemistica X 6
2. Sindoni Giuseppe Roma La Sapienza Dip Informatica e Sistemistica XI 16
3. Rumolo Giovanni Roma La Sapienza Dip Informatica e Sistemistica XI 12
4. De Carolis Berardina Roma La Sapienza Dip Informatica e Sistemistica XI 8

13.5 Personale extrauniversitario - aggregabile al programma senza oneri aggiuntivi

No. Cognome Nome Ente Qualifica Mesi uomo

13.6 Personale a contratto

No. Cognome Nome Qualifica Costo previsto Mesi uomo
1. X X Funzionario tecnico 28 7
2. X X Funzionario 28 7


14. Risorse finanziarie a sostegno del Programma già disponibili all'atto della domanda
(tutte le cifre sono espresse in milioni)

QUADRO RD

Provenienza anno di assegnazione importo disponibile nome Resp. Naz.
Universita'  1997  61,000
Dipartimento    
MURST (ex 40%)  antecedente 1995  
MURST (ex 40%)  1995    
MURST (ex 40%)  1996  7,000  Paolo Atzeni
CNR    
Unione Europea    
Altro    
TOTALE    68,000

14.1 Altro (origine e importi dettagliati):


15. Risorse finanziarie acquisibili in data successiva a quella della domanda e utilizzabili a sostegno del Programma
(tutte le cifre sono espresse in milioni)

QUADRO RA

Provenienza anno della domanda o stipula del contratto stato di approvazione disponibilità per il programma
Università      
Dipartimento      
CNR      
Unione Europea      
Altro      
TOTALE      

15.1 Disponibilità per il programma(articolare negli anni di durata del programma)

15.2 Altro (origine e importi dettagliati)


16. Apparecchiature o grandi attrezzature

16.1 Disponibili ed utilizzabili per la ricerca proposta
(tutte le cifre sono espresse in milioni)

descrizione anno di acquisizione valore all'acquisto finanziamenti ottenuti dal MURST % di utilizzo per la ricerca proposta
 Laboratorio con un server 8 workstation di vari fornitori  1996  180  0  35
         
         

L'uso delle attrezzature disponibili richiede, per la ricerca proposta, interventi di adeguamento? no

Quota necessaria per l'adeguamento:


16.2 Descrizione sintetica dell'adeguamento richiesto


16.3 Richiesta di grandi attrezzature (GA)
(tutte le cifre sono espresse in milioni)
  1. Descrizione:


    Valore presunto (milioni):    

  2. Descrizione:


    Valore presunto (milioni):    

  3. Descrizione:


    Valore presunto (milioni):    


17. Certifico la disponibilità e l'utilizzabilità dei fondi si



Firma ________________________________ (per la copia da depositare presso l'Ateneo)


18. Costo complessivo del Programma dell'Unità di Ricerca (in milioni di lire)

Costo complessivo

di cui:
 168,000

Voce importo
Materiale inventariabile - (Voce A)  0,000
Spese generali - (Voce B)  168,000
Grandi attrezzature - (Voce GA)  


Risorse disponibili all'atto della domanda (RD)  68,000
Risorse acquisibili (RA)  
Cofinanziamento richiesto al MURST  100,000
Costo minimo per garantire
la possibilità di verifica dei risultati
 112,000

Occorre precisare che la quota di cofinanziamento massimo del Programma di Ricerca deve essere pari a:
(Totale RD + Totale RA) x 1.5 per progetti Interuniversitari e
(Totale RD + Totale RA) x 0.66 per progetti Intrauniversitari

(per la copia da depositare presso l'Ateneo e per l'assenso alla divulgazione via Internet delle informazioni riguardanti i programmi finanziati; legge del 31.12.96 n° 675 sulla "Tutela dei dati personali")



Firma ____________________________________ Data 25/7/97
Ora  9:24:12