3.Rendiconto scientifico delle attivitą presso le sedi partecipanti
Unità di Ia Universita' degli Studi di ROMA "La Sapienza" |
Responsabile SILVIO SALZA |
Quota Cofinanziamento Murst 52.380.000 |
Quota Cofinanziamento Ateneo 50.000.000 (RD+RA certificata) |
Fondi complessivi utilizzati il primo anno 23.767.392 |
Illustrazione dell'attivita' svolta |
L'unita' di Roma "La Sapienza" e' coinvolta sul Tema 4 " Analisi delle informazioni
estratte dal WWW", e sul Tema 5 "Visualizzazione di informazioni provenienti dal WWW". I risultaati ottenuti sono quelli previsti nella proposta e sono descritti nei rapporti T4-R02,T5-R02,T5-R03 e includono anche il prototipo software T4-S01. A) Tema 4 "Analisi delle informazioni estratte dal WWW" La ricerca nell'ambito di questo tema si e' articolata sostanzialmente in due direzioni. 1) Organizzazione logica e fisica di data warehouse Inizialmente e' stata effettuata uno studio sulle diverse alternative in termini di architetture di data warehouse, allo scopo di definire un'architettura di riferimento da adottare nel progetto. A seguito di tale studio si e' deciso di adottare un'architettura a tre livelli, comprendente un data warehouse di primo livello, eventualmente con struttura distribuita, e una serie di di data warehouse tematiche di secondo livello. Inoltre e' stata effettuato uno studio sulle metodologie di integrazione delle sorgenti. Un primo passo e' consistito in un accurata ricognizione dello stato dell'arte. Successivamente lo studio ha condotto ad un contributo originale, costituito dalla definizione di una metodologia sistematiche per l'integrazione di piu' sorgenti informative in un datawarehouse. L'approccio adottato e' quello di costruire una rappresentazione concettuale sia delle sorgenti informative che del data warehouse, con la specificazione esplicita dell'insieme delle interdipendenze tra gli oggetti nelle sorgenti e quelli nel data warehouse. Cosi' l'integrazione e' vista come il processo di comprendere e rappresentare le relazioni tra dati nelle sorgenti e nel data warehouse possibilmente con la specifica delle azioni di riconciliazione, e non come un processo di produzione diretta dello schema integrato. Inoltre opportune tecniche di ragionamento associate al formalismo concettuale sono fornite a supporto del progettista nel processo di specifica. Piu dettagliatamente e' stato definito un formalismo che consente di esprimere la rappresentazione concettuale del data warehouse, ed e' stata introdotta la nozione di asserzione intermodello, mostrando il suo uso nel processo di integrazione. Sono state inoltre introdotte tecniche di reasoning che svolgono un ruolo fondamentale nel processo di integrazione delle sorgenti. La metodologia viene dettagliata in una serie ben definita di passi che devono essere effettuati dal progettista Questa prima serie di attivita' e' documentata in un rapporto tecnico pubblicato nella collana dei rapporti del progetto T4-R02. 2) Valutazione dei costi di gestione e memorizzazione Un'altra attivita' ha riguardato l'approfondimento degli aspetti quantitativi legati al processo di integrazione delle sorgenti informative e di progettazione del data warehouse. In particolare si vuole assistere il progettista in tutto il processo di costruzione, di tuning e di mantenimento del data warehouse, anche per quanto concerne la valutazione dei costi esecutivi e di memorizzazione, che era peraltro previsto come prodotto della seconda fase. A tale scopo e' stata definta una metodologia sistematica, e si e' proceduto a progettare un tool si supporto. In particolare il tool assiste il progettista nei seguenti passi: a) Identificazione e appresentazione delle sorgenti informative. In questa fase e' possibile gestire il caso sia di sitemi operazionali costituiti da basi di dati relazionali, sia quello di sistemi legacy. La rappresentazione delle sorgenti, che viene gestita dal tool in una base di metadati, viene fornita sia in termini di schema Entita' Relazione, che in termini di schema relazionale. Oltre all'organizzazione logica, il sistema permette anche di gestire un database di parametri estensionali, stimati dal progettista, e definiti con riferimento allo schema relazionale. b) Definizione dello schema del data warehouse di primo livello. Analogamente a quanto fatto nel passo a), anche questo schema viene definito sia in termini di schema ER, che di schema relazionale. Inoltre viene gestita la definizione del mapping tra sistemi operazionali e data warehouse di primo livello specificandola in termini di query SQL (con alcune restrizioni non sostanziali sulla struttura dei predicati). c) Valutazione dei parametri estensionali del data warehouse di primo livello. Questi, sfruttando il mapping definito al passo b), vengono calcolati dal tool di supporto a partire da quelli delle sorgenti informative. In maniera analoga il tool valuta delle stime indicative dei costi di estrazione e di mantenimento. d) Definizione dello schema relazionale delle data warehouse di secondo livello (data marts), e del mapping tra queste ultime e il data warehouse di primo livello, espresso, analogamente a quanto fatto nel passo b), in termini interrogazioni SQL. e) Valutazione dei parametri dimensionali dei data mart e dei relativi costi di costruzione e di mantenimento. Questa viene ffettuata utilizzando il papping definito al passo d) e le stime dei parametri del data warehouse di primo livello calcolate al passo c). L'utilita' della metodologia e del tool, consiste nella capacita' di gestire automaticamente un insieme esteso di metadati, e nella capacita' fornita al progettista di valutare velocemente diverse alternative di progetto, in un ottica estremamente concreta di analisi dei costi esecutivi e di memorizzazione. E' possibile ad esempio valutare i costi di materializzazione e di mantenimento relativi a modifiche del datawarehouse di primo livello, come l'aggiunta di viste connesse alla costruzione ed il mantenimento dei data mart. Il tool T4-S01 e' attualmente in fase di avanzata realizzazione. B) Tema 5 "Visualizzazione di informazioni provenienti dal WWW" Obiettivo globale del tema 5 e' la identificazione di appropriate forme di visualizzazione di dati su WWW, visualizzazioni che permettano all'utente di esaminare lo stesso insieme di dati da differenti angolazioni, evidenziando diverse caratteristiche, in modo da fornire un efficace supporto nel processo di analisi preliminare, permettendo di scoprire la presenza o meno di fenomeni rilevanti, che meritano di essere approfonditi tramite ulteriori elaborazioni ed accesso ad altre fonti In particolare nel primo anno le attivita' di questa unita'prevedevano l'approfondimento dello stato dell'arte nel settore della visualizzazione di grandi quantita' di dati e la definizione dei modelli per la specifica formale delle strutture di visualizzazione da utilizzare nell'analisi visuale di grandi quantita' di dati. I risultati ottenuti dalla unita' sono contenuti nei documenti T5-R02, T5-R03, documenti previsti per il tema 5 come prodotti del primo anno di attivita'. Il lavoro si e' svolto secondo gli obbiettivi ed i tempi previsti. E' iniziato, congiuntamente alla unita' di Bari, lo studio di metodi e tecniche per valutare l'usabilita' di interfacce per il WWW, sviluppando anche una nuova tecnica grafica di analisi dell'interazione degli utenti, tecnica che permette di definire delle metriche per una valutazione piu' oggettiva. Per migliorare l'usabilita' di interfacce WWW, si sta studiando la possibilita' di progettare una interfaccia adattiva ai vari profili di utenza individuabili. Per quanto riguarda le attivita svolte principalmente dalla unita` di Roma e' stata effettuata una rassegna dello stato dell'arte della ricerca sulla manipolazione di grandi quantita' di dati. La rassegna ha confermato che, dal punto di vista dell'utente, la tecnica piu' efficace, per individuare particolarita' rilevanti o fenomeni interessanti nella distribuzione di grandi quantita' di dati, e' la visualizzazione. In particolare, e' fondamentale disporre di visualizzazioni ad-hoc, che permettano di esaminare lo stesso insieme di dati da differenti angolazioni, evidenziando diverse caratteristiche. Inoltre, l'interazione con tali visualizzazioni permette all'utente di guidare facilmente il successivo processo di analisi, che puo' essere affidato a strumenti basati su tecniche diverse (alberi di decisione, reti neurali, ecc.).Sulla base di tale analisi e' stata quindi proposta una soluzione originale di visualizzazione di dati su WWW. E' stato quindi affrontato il problema di associare automaticamente ad una base di dati una rappresentazione visuale che sia corretta, completa ed efficace rispetto ai bisogni dell'utente. Tale approccio tenta di superare le due fondamentali limitazioni delle soluzioni presentate in letteratura: a) mirano a costruire rappresentazioni complete, senza considerare correttezza e efficacia, che sono due caratteristiche fondamentali; b) sono dirette a visualizzare lo schema o le istanze della base di dati, e mai entrambi. La nostra proposta cerca di superare queste limitazioni tramite la definizione di una teoria generale per stabilire l'adeguatezza di una rappresentazione visuale associata ad una base di dati, note le caratteristiche della base dati stessa ed un certo insieme di regole riguardanti la percezione dell'utente. Utilizzando tale impianto teorico sono state gettate le basi per costruire un sistema, chiamato DARE: Drawing Adequate REpresentations. Il sistema DARE prevede due modalita' essenziali di impiego: a) Verifica di Rappresentazione, in cui verifica l'adeguatezza di una rappresentazione proposta dall'utente, fornendo una valutazione della sua efficacia; b) Generazione di Rappresentazione, in cui genera automaticamente la rappresentazione visuale piu' adeguata basandosi sulle caratteristiche della base di dati, le finalita' per cui e' stata costruita, le classi di potenziali utenti. Il cuore di DARE e' costituito da una base di conoscenza, contenente regole relative alla base di dati, alle visualizzazioni, al legame tra dati e visualizzazioni, alla percezione dell'utente, e da meccanismi di ragionamento definiti su di essa. Allo scopo di validare l'intero approccio e' stata avviata una prima implementazione di DARE, tesa a risolvere un sottocaso, di particolare interesse, del problema generale: la visualizzazione (e conseguente manipolazione da parte dell'utente) di grandi insiemi di dati che costituiscono il risultato di una o piu' interrogazioni su di una base di dati. Il sottocaso analizzato e`particolarmente significativo perche` rappresenta una situazione molto comune in cui le normali tecniche di browsing sono completamente inutili. Tale situazione puo' essere generata sia da una ricerca tramite parole chiave su di un motore di ricerca sul WWW che da una interrogazione tradizionale su una base di dati contenente grandi insiemi di dati. I risultati ottenuti, oltre ad essere descritti nei rapporti tecnici elencati alla fine della presente relazione, hanno portato a 8 pubblicazioni in atti di convegni internazionali con revisione. PRODOTTI - Rapporti: - T4-R02 "Source Integration in Data Warehousing", D. Calvanese, G. De Giacomo, M. Lenzerini, D. Nardi, R. Rosati - T5-R02 "DARE: "Drawing Adequate REpresentation", T. Catarci, G. Santucci - T5-R03 "Architettura del sistema DARE", G. Santucci, L. Perugini - Prototipo: - TS4-01 "Uno strumento per l'analisi dei costi esecutivi e di memorizzazione di Data Warehouse", S. Salza |
Schema riassuntivo dei fondi utilizzati (cifre spese o impegnate)
Voce di spesa | Cifra spesa o impegnata | Descrizione |
---|---|---|
Materiale inventariabile | 0.000 | 0.000 |
Grandi Attrezzature | 0.000 | |
Materiale di consumo | 0.000 | |
Spese per calcolo ed elaborazione dati | 0.000 | |
Personale a contratto | 0.000 | |
Servizi esterni | 0.000 | |
Missioni | 23.767.392 | Partecipazione a convegni e visite scientifiche |
Altro | 0.000 |