3.Rendiconto scientifico delle attivitą presso le sedi partecipanti
Unità di Universita' degli Studi di VERONA |
Responsabile LETIZIA TANCA |
Quota Cofinanziamento Murst 47.530.000 |
Quota Cofinanziamento Ateneo 47.000.000 (RD+RA certificata) |
Fondi complessivi utilizzati il primo anno 25.689.000 |
Illustrazione dell'attivita' svolta |
L'unita' di Verona e' coinvolta nel Tema 2. I risultati ottenuti nel primo anno sono
quelli previsti nella proposta e sono descritti nei rapporti T2-TR06, T2-TR07, T2-R17, T2-R18, T2-R19, e includono anche il prototipo software T2-S20. L'evoluzione dei modelli e dei linguaggi di interrogazione per dati semistrutturati ha suggerito la definizione di un nuovo ambiente concettuale per la modellazione e l'interrogazione delle informazioni presenti sul WWW. L'unita' operativa di Verona ha progettato e realizzato il prototipo del linguaggio WG-Log per mantenere e interrogare una rappresentazione astratta delle informazioni dei siti WEB. WG-log rappresenta in modo sintetico tale informazione mediante schemi basati su grafi, permettendo di specificare interrogazioni e viste su questi schemi sempre in forma di grafi, ed e' un'evoluzione del linguaggio G-log, definito presso l'Universita' di Anversa alcuni anni fa. Nella nuova formulazione (Rapporto T2-R06) si introducono vari elementi lessicali tipici dei linguaggi di progettazione ipermediali, come indici, entry points, e link navigazionali, mantenendo il forte potere espressivo di G-log dal punto di vista delle interrogazioni. Lo schema e le interrogazioni si possono cosi' riferire alla natura logica o navigazionale dei concetti e ai legami presenti nel sito. Gli schemi WG-log costituiscono quindi una efficace rappresentazione della metainformazione legata ai siti, allo stesso modo di altri modelli per la rappresentazione di metadati, come ad esempio RDF. Il progetto prevede una architettura per l'interazione con il WEB mediante il linguaggio WG-log: dei programmi chiamati Schema Robots (Rapporto T2-R07) gestiscono gli schemi dei siti di struttura nota, e forniscono all'utente un'interfaccia basata su parole chiave attraverso le quali e' facile identificare gli schemi del siti che contengono le informazioni desiderate. A questo punto, noti gli schemi dei siti da interrogare, l'utente, mediante un'interfaccia grafica (Query Client) fornita dal sistema, formula una query visuale che viene spedita ai siti di interesse, presso i quali risiede un modulo di gestione delle interrogazioni detto Query Manager. Durante lo studio di tale modulo (Rapporti T2-R07 e T2-R18), sono state esaminate le query piu' "interessanti", cioe' quelle piu' frequenti, per poter progettare algoritmi di accesso piu' efficaci per questi particolari tipi di query (in particolare le cosiddette "simple queries" che sono composte da un solo grafo topologicamente piuttosto semplice. Il modulo realizzato e' basato su un algoritmo depth first, che, mentre dal punto di vista della complessita' teorica nel caso peggiore e' esponenziale, risulta poiuttosto efficiente all'atto pratico. Infatti, i grafi delle query sono in genere costituiti da un numero molto piccolo di nodi (massimo 5 o 6) e inoltre i nodi della query e dell'istanza hanno un tipo, in generale distribuito abbastanza uniformemente in modo da consentire una certa efficienza nel caso medio, studiato soltanto empiricamente. La risposta alla query ha a sua volta struttura ipermediale, organizzata secondo modalita' che e' possibile specificare attraverso la query stessa e attraverso un modulo speciale chiamato Presentation Manager. Di tale modulo e' stata per ora realizzata solo una versione molto preliminare, ma si prevede che fornisca funzionalita' avanzate di visualizzazione del grafo dell'istanza risultato della query, dal quale si dovrebbe poter accedere in modo interattivo alle pagine sottostanti; di queste si prevedono vari tipi di visualizzazione, legati al tipo di dati e al profilo d'utente. Ci si e' inoltre resi conto che il linguaggio WG-log, a causa delle sue particolari doti di flessibilita', ben si presta in generale alla rappresentazione di informazione semistrutturata. L'informazione si dice semistrutturata quando la sua struttura non e' ben definita (come e' per esempio nel caso di una base di dati) e quando d'altra parte l'informazione non e' totalmente destrutturata come in un semplice testo. Oltre alle pagine del WWW, altri esempi di informazione semistrutturata sono le basi documentali in XML o SGML. Allora diventa interessante poter interrogazre documenti e, in generale, contenitori di informazione multimediale mediante linguaggi che possano sfruttare la sia pur scarsa struttura nota. Tra i tipi di informazione semistrutturata si puo' anche considerare l'informazione eterogenea, ad esempio proveniente da varie basi di dati aventi modelli dei dati differenti. In quest'ottica, il progetto WG-log e' stato arricchito di un certo numero di componenti di mediazione verso altre fonti informative, semistrutturate oppure strutturate in base a modelli dei dati i piu' vari (relazionale, ad oggetti etc.). L'architettura iniziale e' stata quindi estesa nel modo seguente (Rapporto T2-R17): lo Schema Robot assume il ruolo di Mediator, permettendo a un utente interessato ad accedere a determinate informazioni di fornirne una descrizione (che nella sua forma piu' semplice e' un elenco di parole chiave) e di ricevere un elenco di fonti informative eterogenee (siti Web, basi di dati, basi documentali in genere) che possono contenere le informazioni di interesse. Il Mediator e' in possesso di una descrizione delle informazioni contenute nella fonte informativa in termini di schema WG-log, che fornisce all'utente, insieme con l'informazione relativa al tipo di fonte. Se la fonte e' WG-log, l'utente a questo punto potra' gia' inviare la sua interrogazione al relativo Query Manager; se invece la fonte non e' WG-Log, il Mediator e' in grado di fornire all'utente un modulo Wrapper appropriato per il tipo di fonte, in grado di eseguire la traduzione da WG-log al linguaggio nativo della fonte informativa stessa. In particolare, presso l'Unita' di Verona sono stati progettati i wrapper per fonti informative O2/OQL (Bancilhon et al.), OEM/Lore (Garcia-Molina, Widom et al.) ed SQL, mentre e' in corso di progettazione un Wrapper per Araneus (Atzeni et al.), che e' parte di questo stesso progetto. L'utente e' ora in grado di formulare in WG-log la sua query, e inviarla al sito che la ricevera' tradotta nel suo linguaggio locale. La traduzione inversa verra' effettuata sulla risposta, permettendo all'utente di vedere i risultati in forma di istanza WG-log, rappresentati dal Presentation Manager. Il sistema d'interrogazione e integrazione per fonti informative eterogenee appena descritto è stato progettato sulla base di specifici pattern progettuali per sistemi distribuiti; i prototipi dei vari moduli (prodotto T2-S20) attualmente disponibili, realizzati in linguaggio Java, colloquiano nel quadro di un'architettura standard CORBA ad oggetti distribuiti. In particolare è stato standardizzato l'Interface Repository CORBA complessivo del sistema WG-log, definendo in linguaggio IDL le interfacce standard dei componenti del sistema. E' stato poi definito un modello per la rappresentazione di siti Web strutturati o semistrutturati attraverso metafore di realtà virtuale (Rapporto T2-R19). Si è preferito privilegiare la rappresentazione di siti Web invece di informazioni multimediali generiche, come anticipato nel programma di ricerca iniziale, per una maggior vicinanza con gli altri argomenti del tema. Il modello peraltro non preclude la possibilità di investigare aspetti tipicamente multimediali nel corso del secondo anno. Il modello sviluppato si basa su tre elementi: (1) XML come linguaggio per la descrizione dei contenuti e della struttura (attraverso l'associato DTD) dei documenti del sito, (2) un linguaggio di mapping tra oggetti del sito (sostanzialmente identificati attraverso i corrispondenti tag XML) e oggetti di un mondo virtuale metaforico, (3) un database che descrive la metafora utilizzata per il mondo virtuale in termini di proprietà degli oggetti, loro relazioni reciproche, e descrizioni VRML. Al momento il metafora utilizzata per il mondo virtuale in termini di proprietà degli oggetti, loro relazioni reciproche, e descrizioni VRML. Al momento il linguaggio di cui al punto 2 è modellato su XSL.. E' in corso di completamento un prototipo basato su un programma che elabora il mapping tra documento XML e mondo virtuale che utilizza anche programmi di pubblico dominio per l'elaborazione di XML e XSL. I risultati ottenuti, oltre ad essere descritti nei rapporti tecnici elencati alla fine della presente relazione, hanno portato 8 pubblicazioni in atti di convegni internazionali con revisione. PRODOTTI T2-TR06 S. Comai, E. Damiani, L. Tanca "The WG-log System: data model and Semantics" T2-TR07 M. Baldi, S. Comai, E. Damiani, F. Insaccanebbia, L. Tanca "The architecture of the WG-log Web Query System" T2-R17 S. Comai, E. Damiani, B. Oliboni, L. Tanca "The integrated WG-log system for querying semistructured information" T2-R18 S. Comai, A. Cortesi, A. Dovier, E. Quintarelli, L. Tanca "computing efficielntly WG-log queries via the bisimulation semantics" T2-R19 A. Celentano "Progetto di un sistema di rappresentazione di dati multimediali per l'interrogazione attraverso la realta` virtuale" T2-S20 S. Comai, E. Damiani, B. Oliboni, L. Tanca "WG-Log WQS: the WG-log Web Query System" |
Schema riassuntivo dei fondi utilizzati (cifre spese o impegnate)
Voce di spesa | Cifra spesa o impegnata | Descrizione |
---|---|---|
Materiale inventariabile | 4.380.000 | Computer |
Grandi Attrezzature | 0.000 | |
Materiale di consumo | 0.000 | |
Spese per calcolo ed elaborazione dati | 0.000 | |
Personale a contratto | 20.000.000 | |
Servizi esterni | 0.000 | |
Missioni | 1.309.000 | |
Altro | 0.000 |