3.Rendiconto scientifico delle attivitą presso le sedi partecipanti
Unità di IIIa Universita' degli Studi di ROMA |
Responsabile PAOLO ATZENI |
Quota Cofinanziamento Murst 75.660.000 |
Quota Cofinanziamento Ateneo 68.000.000 (RD+RA certificata) |
Fondi complessivi utilizzati il primo anno 86.398.000 |
Illustrazione dell'attivita' svolta |
-Illustrazione dell'attivita' svolta
L'unita` di ricerca e` coinvolta nei temi 2, 4 e 6 del progetto. I risultati ottenuti nel primo anno sono quelli previsti nella proposta e sono descritti nei rapporti T2-R01, T2-R0, T2-R09, T2-R10, T4-R03, T4-R09, T6-R01, T6-R05 e T6-R09. I risultati includono il prototipo software T2-S11. Per quel che riguarda il Tema 2 (Estrazione di informazioni distribuite sul WWW), l'unita' ha messo a punto uno specifico modello dei dati, chiamato "The Araneus Data Model" (ADM), al fine di permettere una gestione delle sorgenti informative Web. Sulla base di questo modello sono stati quindi approfondite tematiche relative alla estrazione e alla generazione di sorgenti informative Web. Lo studio ha portato alla progettazione di un sistema per la interrogazione di siti Web. Il modello dei dati ADM permette di descrivere efficacemente l'organizzazione dei dati in pagine Web. ADM e' un modello dei dati orientato alle pagine, nel senso che il suo costrutto principale e' quello di "Schema di Pagina". In ADM ogni pagina Web viene vista come un oggetto complesso con un identificatore univoco, l'URL, e un insieme di attributi; gli attributi possono essere semplici (testo, immagine, link), o complessi (liste, eventualmente nidificate). Uno schema di pagina descrive l'organizzazione di un insieme omogeneo di pagine; uno schema ADM consiste di un insieme di schemi di pagina, eventualmente collegati da attributi di tipo link. Per estrarre informazioni dal Web e' stato progettato un prototipo, che permette di porre interrogazioni su uno schema ADM. Il sistema e' basato su un linguaggio, chiamato Ulisse, per la espressione di query navigazionali, e da un insieme di programmi, detti wrapper, che consentono di mappare la struttura fisica delle pagine su quella logica della descrizione ADM. Al fine di agevolare la scrittura di programmi wrapper e' stato realizzato il prototipo di un linguaggio procedurale, chiamato Editor, che offre le primitive per la estrazione e la ristrutturazione di informazioni da documenti. Editor e' stato sperimentato nella scrittura di numerosi wrapper; da una parte l'approccio procedurale di Editor ha garantito una notevole flessibilita', permettendo di trattare documenti anche molto irregolari; tuttavia, dall'altra parte, questo approccio e' risultato poco efficiente per la scrittura di wrapper per documenti ben strutturati. Quest'ultima osservazione ha portato alla realizzazione di Minerva, uno strumento che, a partire da una definizione dichiarativa della struttura del documento da elaborare, genera automaticamente il codice Editor per il corrispondente wrapper. Al fine di gestire con efficacia anche irregolarita' che il documento puo' presentare rispetto alla grammatica ad esso associata, Minerva mette a disposizione un sofisticato meccanismo di gestione delle eccezioni. Attraverso questo meccanismo, e' possibile associare al fallimento di una produzione una porzione di codice Editor che permette di continuare a processare il documento. Per quel che riguarda il tema 4 (Analisi delle informazioni estratte dal WWW), sono stati studiati modelli e linguaggi per la gestione di un data warehouse costruito a partire da sorgenti informative distribuite sul Web. Il modello proposto, chiamato MD, consente l'analisi "multi-dimensionale" dei dati. In particolare, MD si basa su due costrutti principali: la dimensione e la f-tabella. Una dimensione e' una categorie sintattiche che consente di specificare "prospettive" secondo le quali vogliamo analizzare i dati. Ogni dimensione e' organizzata in una gerarchia di livelli, che corrispondono essenzialmente a domini a livelli di granularita' differenti. Le f-tabelle sono funzioni che associano misure a coordinate simboliche (definite rispetto a una particolare combinazione di livelli): esse sono usate per rappresentare i dati su cui l'analisi si basa. Su questo modello sono stati successivamente definiti alcuni linguaggi di interrogazione basati su paradigmi diversi: un linguaggio grafico per utenti finali, un linguaggio testuale, basato sul calcolo del primo ordine, per utenti esperti e un linguaggio procedurale, basato su un'algebra, per la specifica di ottimizzazioni. Sono state studiate alcune proprieta' generali dei linguaggio per l'analisi dei dati. In particolare, la loro potenza espressiva e l'interazione con le funzioni aggregative. E' stata inoltre definita l'architettura di un prototipo per la manipolazione di un data warehouse che utilizza il modello e i linguaggi proposti. E' stato infine definito un quadro metodologico di carattere generale, che suggerisce e coordina tutte le attivita' necessarie alla costruzione e l'uso di un data warehouse, a partire dalla selezione delle sorgenti informative, eventualmente dislocate sul Web, fino all'organizzazione di collezioni di dati orientate all'analisi multidimensionale. Per quel che riguarda infine il Tema 6 (Metodologie di progettazione di siti WWW) e' stata definita da questa unita' una metodologia per la progettazione di siti Web a partire da informazioni memorizzate in un database locale; a completamento della metodologia sono state definite sintassi e semantica di un linguaggio (chiamato Penelope) per la generazione di siti Web. La metodologia prevede una suddivisione in fasi del processo di progettazione, in cui ciascuna fase fa uso di appropriati modelli. La suddivisione in fasi e' motivata dal fatto che le componenti che concorrono a caratterizzare un sito Web fanno riferimento a tre aspetti fondamentali: il contenuto informativo offerto dal sito, la struttura ipertestuale attraverso la quale si organizza laccesso allinformazione, la presentazione grafica dellinformazione. Questa suddivisione ispira una naturale articolazione del processo di progettazione di un sito in fasi distinte: 1) definizione del contenuto informativo che il sito dovra' offrire, 2) definizione della struttura ipertestuale, 3) definizione della presentazione grafica dellinformazione. La prima fase (definizione del contenuto informativo) ha un duplice scopo. In primo luogo mira a definire ad un alto livello di astrazione quali sono le informazioni e le corrispondenti relazioni concettuali che il sito deve offrire. In secondo luogo, permette la progettazione di una base di dati (relazionale) che, in modo indipendente dalle modalita' di accesso e di presentazione dell'informazione permette una efficace gestione dei dati. La seconda fase (definizione della struttura ipertestuale) e' focalizzata sulla definizione dell'organizzazione ipertestuale dei dati. Questa fase prende in ingresso la definizione concettuale del dominio applicativo e produce uno schema ADM. La terza fase (definizione della presentazione grafica) si concentra su come i vari elementi informativi specificati nella fase precedente dovranno essere presentati graficamente. Per quanto riguarda la prima fase, a livello concettuale si e' scelto di utilizzare il Entity Relationship, ampiamente adottato da molti analisti. A livello logico, il modello relazionale e' stato preferito ad altri (ad esempio quello OO) per poter usare appieno una tecnologia matura ed affidabile. Per quanto riguarda invece la descrizione della struttura ipertestuale, viene usato il modello ADM. Tuttavia, per facilitare la definizione della descrizione ADM a partire dallo schema ER di ingresso, si e' scelto di introdurre un ulteriore modello dei dati, chiamato "The Navigation Conceptual Model" (NCM). NCM e' una semplice variante del modello ER; in particolare, in NCM e' possibile associare una direzione alle relationships, ed e' possibile descrivere la struttura si accesso all'informazione mediante opportuni costrutti. Grazie ad un modello "intermedio" quale NCM, risulta naturale ricavare la descrizione ADM del sito a partire dallo schema ER iniziale. A supporto della metodologia e' stato progettato un linguaggio dichiarativo, chiamato Penelope, che permetta la generazione automatica di siti HTML (e XML) a partire dal contenuto della base di dati. La semantica del linguaggio e' basata definita in maniera operazionale, mediante gli operatori di una semplice estensione dell'algebra relazionale nidificata. I risultati ottenuti, oltre ad essere descritti nei rapporti tecnici elencati alla fine della presente relazione, hanno portato a 6 pubblicazioni su riviste internazionali e 15 pubblicazioni in atti di convegni internazionali con revisione. - strumentazione acquisita Attrezzatura per la realizzazione di un laboratorio informatico (denominato "Laboratorio di basi di dati") nel quale sono stati avviati gli sviluppi dei prototipi e le sperimentazioni previste. Il laboratorio e' dotato di un server e sei personal computer per postazioni di lavoro individuali. - prodotti della ricerca T2-R01 - Documento di descrizione del modello di dati per la descrizione di siti web, intitolato "The Araneus Data Model (ADM): a Logical Data Model for Web Sites" T2-R02 - Documento contenente la sintassi e la semantica del linguaggio per la scrittura dei wrapper, intitolato "Grammars have Exceptions: The Araneus Approach to Wrapping" T2-R09 - Documento contenente la sintassi e la semantica del linguaggio di interrogazione T2-R10 - Documento di descrizione dell'architettura del prototipo del linguaggio di interrogazione T2-S11 - Primo prototipo del linguaggio per la scrittura dei wrapper T4-R03 - Documento che presenta un modello e alcuni linguaggi di interrogazione per basi di dati multidimensionali, intitolato "A Logical Framework for Querying Multidimensional Data" T4-R09 - Documento che presenta l'architettura di un prototipo per la manipolazione di basi di dati multidimensionali T6-R01 - Documento di descrizione dei modelli di dati e della metodologia Araneus T6-R05 - Rapporto sulla sperimentazione della metodologia Araneus nello sviluppo di siti universitari T6-R09 - Documento di descrizione della sintassi e della semantica del linguaggio Penelope per la generazione delle pagine HTML |
Schema riassuntivo dei fondi utilizzati (cifre spese o impegnate)
Voce di spesa | Cifra spesa o impegnata | Descrizione |
---|---|---|
Materiale inventariabile | 55.256.000 | Attrezzature per il laboratorio di basi di dati |
Grandi Attrezzature | 0.000 | |
Materiale di consumo | 0.000 | |
Spese per calcolo ed elaborazione dati | 0.000 | |
Personale a contratto | 4.797.000 | |
Servizi esterni | 5.000.000 | |
Missioni | 19.119.000 | Partecipazioni a convegni e riunioni di progetto |
Altro | 2.226.000 |