Ministero dell'Universita' e della Ricerca Scientifica e Tecnologica
Dipartimento Affari Economici

RELAZIONE ANNUALE



3.Rendiconto scientifico delle attivitą presso le sedi partecipanti

     Unità di       Ia Universita' degli Studi di ROMA "La Sapienza"
     Responsabile SILVIO SALZA  
     Quota Cofinanziamento Murst  52.380.000
     Quota Cofinanziamento Ateneo  50.000.000 (RD+RA certificata)
     Fondi complessivi utilizzati il primo anno  23.767.392
     Illustrazione dell'attivita' svolta
L'unita' di Roma "La Sapienza" e' coinvolta sul Tema 4 " Analisi delle informazioni
estratte dal WWW", e sul Tema 5 "Visualizzazione di informazioni provenienti dal WWW". I
risultaati ottenuti sono quelli previsti nella proposta e sono descritti nei rapporti
T4-R02,T5-R02,T5-R03 e includono anche il prototipo software T4-S01.

A) Tema 4 "Analisi delle informazioni estratte dal WWW"

La ricerca nell'ambito di questo tema si e' articolata sostanzialmente in due direzioni.

1) Organizzazione logica e fisica di data warehouse

Inizialmente e' stata effettuata uno studio sulle diverse alternative in termini di
architetture di data warehouse, allo scopo di definire un'architettura di riferimento da
adottare nel progetto. A seguito di tale studio si e' deciso di adottare un'architettura
a tre livelli, comprendente un data warehouse di primo livello, eventualmente con
struttura distribuita, e una serie di di data warehouse tematiche di secondo livello.
Inoltre e' stata effettuato uno studio sulle metodologie di integrazione delle sorgenti.
Un primo passo e' consistito in un accurata ricognizione dello stato dell'arte.
Successivamente lo studio ha condotto ad un contributo originale, costituito dalla
definizione di una metodologia sistematiche per l'integrazione di piu' sorgenti
informative in un datawarehouse.

L'approccio adottato e' quello di costruire una rappresentazione concettuale sia delle
sorgenti informative che del data warehouse, con la specificazione esplicita dell'insieme
delle interdipendenze tra gli oggetti nelle sorgenti e quelli nel data warehouse. Cosi'
l'integrazione e' vista come il processo di comprendere e rappresentare le relazioni tra
dati nelle sorgenti e nel data warehouse possibilmente con la specifica delle azioni di
riconciliazione, e non come un processo di produzione diretta dello schema integrato.
Inoltre opportune tecniche di ragionamento associate al formalismo concettuale sono
fornite a supporto del progettista nel processo di specifica.

Piu dettagliatamente e' stato definito un formalismo che consente di esprimere la
rappresentazione concettuale del data warehouse, ed e' stata introdotta la nozione di
asserzione intermodello, mostrando il suo uso nel processo di integrazione. Sono state
inoltre introdotte tecniche di reasoning che svolgono un ruolo fondamentale nel processo
di integrazione delle sorgenti. La metodologia viene dettagliata in una serie ben
definita di passi che devono essere effettuati dal progettista

Questa prima serie di attivita' e' documentata in un rapporto tecnico pubblicato nella
collana dei rapporti del progetto T4-R02.


2) Valutazione dei costi di gestione e memorizzazione

Un'altra attivita' ha riguardato l'approfondimento degli aspetti quantitativi legati al
processo di integrazione delle sorgenti informative e di progettazione del data
warehouse. In particolare si vuole assistere il progettista in tutto il processo di
costruzione, di tuning e di mantenimento del data warehouse, anche per quanto concerne la
valutazione dei costi esecutivi e di memorizzazione, che era peraltro previsto come
prodotto della seconda fase.

A tale scopo e' stata definta una metodologia sistematica, e si e' proceduto a
progettare un tool si supporto. In particolare il tool assiste il progettista nei
seguenti passi:

a) Identificazione e appresentazione delle sorgenti informative. In questa fase e'
possibile gestire il caso sia di sitemi operazionali costituiti da basi di dati
relazionali, sia quello di sistemi legacy. La rappresentazione delle sorgenti, che viene
gestita dal tool in una base di metadati, viene fornita sia in termini di schema Entita'
Relazione, che in termini di schema relazionale. Oltre all'organizzazione logica, il
sistema permette anche di gestire un database di parametri estensionali, stimati dal
progettista, e definiti con riferimento allo schema relazionale.

b) Definizione dello schema del data warehouse di primo livello. Analogamente a quanto
fatto nel passo a), anche questo schema viene definito sia in termini di schema ER, che
di schema relazionale. Inoltre viene gestita la definizione del mapping tra sistemi
operazionali e data warehouse di primo livello specificandola in termini di query SQL
(con alcune restrizioni non sostanziali sulla struttura dei predicati).

c) Valutazione dei parametri estensionali del data warehouse di primo livello. Questi,
sfruttando il mapping definito al passo b), vengono calcolati dal tool di supporto a
partire da quelli delle sorgenti informative. In maniera analoga il tool valuta delle
stime indicative dei costi di estrazione e di mantenimento.

d) Definizione dello schema relazionale delle data warehouse di secondo livello (data
marts), e del mapping tra queste ultime e il data warehouse di primo livello, espresso,
analogamente a quanto fatto nel passo b), in termini interrogazioni SQL.

e) Valutazione dei parametri dimensionali dei data mart e dei relativi costi di
costruzione e di mantenimento. Questa viene ffettuata utilizzando il papping definito al
passo d) e le stime dei parametri del data warehouse di primo livello calcolate al passo
c).

L'utilita' della metodologia e del tool, consiste nella capacita' di gestire
automaticamente un insieme esteso di metadati, e nella capacita' fornita al progettista
di valutare velocemente diverse alternative di progetto, in un ottica estremamente
concreta di analisi dei costi esecutivi e di memorizzazione. E' possibile ad esempio
valutare i costi di materializzazione e di mantenimento relativi a modifiche del
datawarehouse di primo livello, come l'aggiunta di viste connesse alla costruzione ed il
mantenimento dei data mart. Il tool T4-S01 e' attualmente in fase di avanzata
realizzazione.


B) Tema 5 "Visualizzazione di informazioni provenienti dal WWW"

Obiettivo globale del tema 5 e' la identificazione di appropriate forme di
visualizzazione di dati su WWW, visualizzazioni che permettano all'utente di esaminare lo
stesso insieme di dati da differenti angolazioni, evidenziando diverse caratteristiche,
in modo da fornire un efficace supporto nel processo di analisi preliminare, permettendo
di scoprire la presenza o meno di fenomeni rilevanti, che meritano di essere approfonditi
tramite ulteriori elaborazioni ed accesso ad altre fonti

In particolare nel primo anno le attivita' di questa unita'prevedevano l'approfondimento
dello stato dell'arte nel settore della visualizzazione di grandi quantita' di dati e la
definizione dei modelli per la specifica formale delle strutture di visualizzazione da
utilizzare nell'analisi visuale di grandi quantita' di dati.

I risultati ottenuti dalla unita' sono contenuti nei documenti T5-R02, T5-R03, documenti
previsti per il tema 5 come prodotti del primo anno di attivita'. Il lavoro si e' svolto
secondo gli obbiettivi ed i tempi previsti. E' iniziato, congiuntamente alla unita' di
Bari, lo studio di metodi e tecniche per valutare l'usabilita' di interfacce per il WWW,
sviluppando anche una nuova tecnica grafica di analisi dell'interazione degli utenti,
tecnica che permette di definire delle metriche per una valutazione piu' oggettiva. Per
migliorare l'usabilita' di interfacce WWW, si sta studiando la possibilita' di progettare
una interfaccia adattiva ai vari profili di utenza individuabili. Per quanto riguarda le
attivita svolte principalmente dalla unita` di Roma e' stata effettuata una rassegna
dello stato dell'arte della ricerca sulla manipolazione di grandi quantita' di dati. La
rassegna ha confermato che, dal punto di vista dell'utente, la tecnica piu' efficace, per
individuare particolarita' rilevanti o fenomeni interessanti nella distribuzione di
grandi quantita' di dati, e' la visualizzazione. In particolare, e' fondamentale
disporre di visualizzazioni ad-hoc, che permettano di esaminare lo stesso insieme di dati
da differenti angolazioni, evidenziando diverse caratteristiche. Inoltre, l'interazione
con tali visualizzazioni permette all'utente di guidare facilmente il successivo processo
di analisi, che puo' essere affidato a strumenti basati su tecniche diverse (alberi di
decisione, reti neurali, ecc.).Sulla base di tale analisi e' stata quindi proposta una
soluzione originale di visualizzazione di dati su WWW. E' stato quindi affrontato il
problema di associare automaticamente ad una base di dati una rappresentazione visuale
che sia corretta, completa ed efficace rispetto ai bisogni dell'utente. Tale approccio
tenta di superare le due fondamentali limitazioni delle soluzioni presentate in
letteratura:

a) mirano a costruire rappresentazioni complete, senza considerare correttezza e
efficacia, che sono due caratteristiche fondamentali;

b) sono dirette a visualizzare lo schema o le istanze della base di dati, e mai entrambi.

La nostra proposta cerca di superare queste limitazioni tramite la definizione di una
teoria generale per stabilire l'adeguatezza di una rappresentazione visuale associata ad
una base di dati, note le caratteristiche della base dati stessa ed un certo insieme di
regole riguardanti la percezione dell'utente. Utilizzando tale impianto teorico sono
state gettate le basi per costruire un sistema, chiamato DARE: Drawing Adequate
REpresentations.

Il sistema DARE prevede due modalita' essenziali di impiego:

a) Verifica di Rappresentazione, in cui verifica l'adeguatezza di una rappresentazione
proposta dall'utente, fornendo una valutazione della sua efficacia;

b) Generazione di Rappresentazione, in cui genera automaticamente la rappresentazione
visuale piu' adeguata basandosi sulle caratteristiche della base di dati, le finalita'
per cui e' stata costruita, le classi di potenziali utenti. Il cuore di DARE e'
costituito da una base di conoscenza, contenente regole relative alla base di dati, alle
visualizzazioni, al legame tra dati e visualizzazioni, alla percezione dell'utente, e da
meccanismi di ragionamento definiti su di essa.

Allo scopo di validare l'intero approccio e' stata avviata una prima implementazione di
DARE, tesa a risolvere un sottocaso, di particolare interesse, del problema generale: la
visualizzazione (e conseguente manipolazione da parte dell'utente) di grandi insiemi di
dati che costituiscono il risultato di una o piu' interrogazioni su di una base di dati.
Il sottocaso analizzato e`particolarmente significativo perche` rappresenta una
situazione molto comune in cui le normali tecniche di browsing sono completamente
inutili. Tale situazione puo' essere generata sia da una ricerca tramite parole chiave
su di un motore di ricerca sul WWW che da una interrogazione tradizionale su una base di
dati contenente grandi insiemi di dati.

I risultati ottenuti, oltre ad essere descritti nei rapporti tecnici elencati alla fine
della presente relazione, hanno portato a 8 pubblicazioni in atti di convegni
internazionali con revisione.


PRODOTTI

- Rapporti:

- T4-R02 "Source Integration in Data Warehousing", D. Calvanese, G. De
Giacomo, M. Lenzerini, D. Nardi, R. Rosati

- T5-R02 "DARE: "Drawing Adequate REpresentation", T. Catarci, G. Santucci

- T5-R03 "Architettura del sistema DARE", G. Santucci, L. Perugini

- Prototipo:

- TS4-01 "Uno strumento per l'analisi dei costi esecutivi e di
memorizzazione di Data Warehouse", S. Salza

Schema riassuntivo dei fondi utilizzati (cifre spese o impegnate)
 
Voce di spesa Cifra spesa o impegnata Descrizione
Materiale inventariabile 0.000  0.000
Grandi Attrezzature 0.000  
Materiale di consumo 0.000  
Spese per calcolo ed elaborazione dati 0.000  
Personale a contratto 0.000  
Servizi esterni 0.000  
Missioni 23.767.392  Partecipazione a convegni e visite scientifiche
Altro 0.000