Ministero dell'Universita' e della Ricerca Scientifica e Tecnologica
Dipartimento Affari Economici

RELAZIONE ANNUALE



3.Rendiconto scientifico delle attivitą presso le sedi partecipanti

     Unità di       IIIa Universita' degli Studi di ROMA
     Responsabile PAOLO ATZENI  
     Quota Cofinanziamento Murst  75.660.000
     Quota Cofinanziamento Ateneo  68.000.000 (RD+RA certificata)
     Fondi complessivi utilizzati il primo anno  86.398.000
     Illustrazione dell'attivita' svolta
-Illustrazione dell'attivita' svolta

L'unita` di ricerca e` coinvolta nei temi 2, 4 e 6 del progetto. I risultati ottenuti
nel primo anno sono quelli previsti nella proposta e sono descritti nei rapporti T2-R01,
T2-R0, T2-R09, T2-R10, T4-R03, T4-R09, T6-R01, T6-R05 e T6-R09. I risultati includono il
prototipo software T2-S11.

Per quel che riguarda il Tema 2 (Estrazione di informazioni distribuite sul WWW),
l'unita' ha messo a punto uno specifico modello dei dati, chiamato "The Araneus Data
Model" (ADM), al fine di permettere una gestione delle sorgenti informative Web. Sulla
base di questo modello sono stati quindi approfondite tematiche relative alla estrazione
e alla generazione di sorgenti informative Web. Lo studio ha portato alla progettazione
di un sistema per la interrogazione di siti Web. Il modello dei dati ADM permette di
descrivere efficacemente l'organizzazione dei dati in pagine Web. ADM e' un modello dei
dati orientato alle pagine, nel senso che il suo costrutto principale e' quello di
"Schema di Pagina". In ADM ogni pagina Web viene vista come un oggetto complesso con un
identificatore univoco, l'URL, e un insieme di attributi; gli attributi possono essere
semplici (testo, immagine, link), o complessi (liste, eventualmente nidificate). Uno
schema di pagina descrive l'organizzazione di un insieme omogeneo di pagine; uno schema
ADM consiste di un insieme di schemi di pagina, eventualmente collegati da attributi di
tipo link. Per estrarre informazioni dal Web e' stato progettato un prototipo, che
permette di porre interrogazioni su uno schema ADM. Il sistema e' basato su un
linguaggio, chiamato Ulisse, per la espressione di query navigazionali, e da un insieme
di programmi, detti wrapper, che consentono di mappare la struttura fisica delle pagine
su quella logica della descrizione ADM. Al fine di agevolare la scrittura di programmi
wrapper e' stato realizzato il prototipo di un linguaggio procedurale, chiamato Editor,
che offre le primitive per la estrazione e la ristrutturazione di informazioni da
documenti. Editor e' stato sperimentato nella scrittura di numerosi wrapper; da una parte
l'approccio procedurale di Editor ha garantito una notevole flessibilita', permettendo di
trattare documenti anche molto irregolari; tuttavia, dall'altra parte, questo approccio
e' risultato poco efficiente per la scrittura di wrapper per documenti ben strutturati.
Quest'ultima osservazione ha portato alla realizzazione di Minerva, uno strumento che, a
partire da una definizione dichiarativa della struttura del documento da elaborare,
genera automaticamente il codice Editor per il corrispondente wrapper. Al fine di gestire
con efficacia anche irregolarita' che il documento puo' presentare rispetto alla
grammatica ad esso associata, Minerva mette a disposizione un sofisticato meccanismo di
gestione delle eccezioni. Attraverso questo meccanismo, e' possibile associare al
fallimento di una produzione una porzione di codice Editor che permette di continuare a
processare il documento.

Per quel che riguarda il tema 4 (Analisi delle informazioni estratte dal WWW), sono stati
studiati modelli e linguaggi per la gestione di un data warehouse costruito a partire da
sorgenti informative distribuite sul Web. Il modello proposto, chiamato MD, consente
l'analisi "multi-dimensionale" dei dati. In particolare, MD si basa su due costrutti
principali: la dimensione e la f-tabella. Una dimensione e' una categorie sintattiche che
consente di specificare "prospettive" secondo le quali vogliamo analizzare i dati. Ogni
dimensione e' organizzata in una gerarchia di livelli, che corrispondono essenzialmente a
domini a livelli di granularita' differenti. Le f-tabelle sono funzioni che associano
misure a coordinate simboliche (definite rispetto a una particolare combinazione di
livelli): esse sono usate per rappresentare i dati su cui l'analisi si basa. Su questo
modello sono stati successivamente definiti alcuni linguaggi di interrogazione basati su
paradigmi diversi: un linguaggio grafico per utenti finali, un linguaggio testuale,
basato sul calcolo del primo ordine, per utenti esperti e un linguaggio procedurale,
basato su un'algebra, per la specifica di ottimizzazioni. Sono state studiate alcune
proprieta' generali dei linguaggio per l'analisi dei dati. In particolare, la loro
potenza espressiva e l'interazione con le funzioni aggregative. E' stata inoltre definita
l'architettura di un prototipo per la manipolazione di un data warehouse che utilizza il
modello e i linguaggi proposti. E' stato infine definito un quadro metodologico di
carattere generale, che suggerisce e coordina tutte le attivita' necessarie alla
costruzione e l'uso di un data warehouse, a partire dalla selezione delle sorgenti
informative, eventualmente dislocate sul Web, fino all'organizzazione di collezioni di
dati orientate all'analisi multidimensionale.

Per quel che riguarda infine il Tema 6 (Metodologie di progettazione di siti WWW) e'
stata definita da questa unita' una metodologia per la progettazione di siti Web a
partire da informazioni memorizzate in un database locale; a completamento della
metodologia sono state definite sintassi e semantica di un linguaggio (chiamato Penelope)
per la generazione di siti Web. La metodologia prevede una suddivisione in fasi del
processo di progettazione, in cui ciascuna fase fa uso di appropriati modelli. La
suddivisione in fasi e' motivata dal fatto che le componenti che concorrono a
caratterizzare un sito Web fanno riferimento a tre aspetti fondamentali: il contenuto
informativo offerto dal sito, la struttura ipertestuale attraverso la quale si organizza
l’accesso all’informazione, la presentazione grafica dell’informazione. Questa
suddivisione ispira una naturale articolazione del processo di progettazione di un sito
in fasi distinte: 1) definizione del contenuto informativo che il sito dovra' offrire, 2)
definizione della struttura ipertestuale, 3) definizione della presentazione grafica
dell’informazione. La prima fase (definizione del contenuto informativo) ha un duplice
scopo. In primo luogo mira a definire ad un alto livello di astrazione quali sono le
informazioni e le corrispondenti relazioni concettuali che il sito deve offrire. In
secondo luogo, permette la progettazione di una base di dati (relazionale) che, in modo
indipendente dalle modalita' di accesso e di presentazione dell'informazione permette una
efficace gestione dei dati. La seconda fase (definizione della struttura ipertestuale) e'
focalizzata sulla definizione dell'organizzazione ipertestuale dei dati. Questa fase
prende in ingresso la definizione concettuale del dominio applicativo e produce uno
schema ADM. La terza fase (definizione della presentazione grafica) si concentra su come
i vari elementi informativi specificati nella fase precedente dovranno essere presentati
graficamente. Per quanto riguarda la prima fase, a livello concettuale si e' scelto di
utilizzare il Entity Relationship, ampiamente adottato da molti analisti. A livello
logico, il modello relazionale e' stato preferito ad altri (ad esempio quello OO) per
poter usare appieno una tecnologia matura ed affidabile. Per quanto riguarda invece la
descrizione della struttura ipertestuale, viene usato il modello ADM. Tuttavia, per
facilitare la definizione della descrizione ADM a partire dallo schema ER di ingresso, si
e' scelto di introdurre un ulteriore modello dei dati, chiamato "The Navigation
Conceptual Model" (NCM). NCM e' una semplice variante del modello ER; in particolare, in
NCM e' possibile associare una direzione alle relationships, ed e' possibile descrivere
la struttura si accesso all'informazione mediante opportuni costrutti. Grazie ad un
modello "intermedio" quale NCM, risulta naturale ricavare la descrizione ADM del sito a
partire dallo schema ER iniziale. A supporto della metodologia e' stato progettato un
linguaggio dichiarativo, chiamato Penelope, che permetta la generazione automatica di
siti HTML (e XML) a partire dal contenuto della base di dati. La semantica del linguaggio
e' basata definita in maniera operazionale, mediante gli operatori di una semplice
estensione dell'algebra relazionale nidificata.

I risultati ottenuti, oltre ad essere descritti nei rapporti tecnici elencati alla fine
della presente relazione, hanno portato a 6 pubblicazioni su riviste internazionali e 15
pubblicazioni in atti di convegni internazionali con revisione.

- strumentazione acquisita

Attrezzatura per la realizzazione di un laboratorio informatico (denominato "Laboratorio
di basi di dati") nel quale sono stati avviati gli sviluppi dei prototipi e le
sperimentazioni previste. Il laboratorio e' dotato di un server e sei personal computer
per postazioni di lavoro individuali.


- prodotti della ricerca

T2-R01 - Documento di descrizione del modello di dati per la descrizione di siti web,
intitolato "The Araneus Data Model (ADM): a Logical Data Model for Web Sites"

T2-R02 - Documento contenente la sintassi e la semantica del linguaggio per la scrittura
dei wrapper, intitolato "Grammars have Exceptions: The Araneus Approach to Wrapping"

T2-R09 - Documento contenente la sintassi e la semantica del linguaggio di interrogazione

T2-R10 - Documento di descrizione dell'architettura del prototipo del linguaggio di
interrogazione

T2-S11 - Primo prototipo del linguaggio per la scrittura dei wrapper

T4-R03 - Documento che presenta un modello e alcuni linguaggi di interrogazione per basi
di dati multidimensionali, intitolato "A Logical Framework for Querying Multidimensional
Data"

T4-R09 - Documento che presenta l'architettura di un prototipo per la manipolazione di
basi di dati multidimensionali

T6-R01 - Documento di descrizione dei modelli di dati e della metodologia Araneus

T6-R05 - Rapporto sulla sperimentazione della metodologia Araneus nello sviluppo di siti
universitari

T6-R09 - Documento di descrizione della sintassi e della semantica del linguaggio
Penelope per la generazione delle pagine HTML

Schema riassuntivo dei fondi utilizzati (cifre spese o impegnate)
 
Voce di spesa Cifra spesa o impegnata Descrizione
Materiale inventariabile 55.256.000  Attrezzature per il laboratorio di basi di dati
Grandi Attrezzature 0.000  
Materiale di consumo 0.000  
Spese per calcolo ed elaborazione dati 0.000  
Personale a contratto 4.797.000  
Servizi esterni 5.000.000  
Missioni 19.119.000  Partecipazioni a convegni e riunioni di progetto
Altro 2.226.000