Ministero dell'Università e della Ricerca scientifica e tecnologica
Dipartimento Affari Economici
Programmi di Ricerca scientifica - richiesta di cofinanziamento
(DM del 23 aprile 1997)
PROGRAMMA DI RICERCA - MODELLO A
Anno 1997 - prot. 9709A77351 (attribuito dal sistema)


1. Programma di Ricerca di tipo: interuniversitario

Area Scientifico Disciplinare: Ingegneria industriale dell'informazione

Per Programmi inter-area: Area Scienze matematiche   35 (indicare la % di afferenza)

2. Settori disciplinari interessati dal Programma di Ricerca:
(e' obbligatorio indicare almeno uno dei codici forniti nell'elenco)

K05A K05B


3. Titolo del Programma di Ricerca:
Metodologie e tecnologie per la gestione di dati e processi su reti Internet e Intranet


4. Coordinatore Scientifico del Programma di Ricerca:
ATZENI
(Cognome)
PAOLO
(Nome)

(Cognome acquisito - facoltativo)
PO
(Qualifica)
27/04/57
(Data di nascita)
TZNPLA57D27H501O
(Codice di identificazione personale)
IIIa Università
(Università)
INGEGNERIA
(Facoltà)
DIP INFORMATICA E AUTOMAZIONE
(Dipartimento/Istituto)
148852
(Codice contoT.U. del Dip./Ist.)
06/55177051
(Prefisso e telefono)
06/55173211
(Numero fax)
atzeni@inf.uniroma3.it
(Indirizzo posta elettronica)


5. Durata del Programma di Ricerca: 24 (mesi)


6. Numero di fasi del Programma di Ricerca: 4


7. Numero delle Unità di Ricerca partecipanti al Programma (modelli B allegati al presente modello A, inserito automaticamente dal sistema): 17


8. Obiettivo del Programma di Ricerca:
La grandissima diffusione del World Wide Web (WWW) ne fa al giorno d'oggi un'interfaccia pressoche' uniforme per la condivisione delle informazioni. Il numero e l'importanza dei siti WWW cresce di giorno in giorno, prefigurando un futuro in cui il WWW rappresentera' uno strumento essenziale per la diffusione delle informazioni e la disseminazione dei dati e per l'accesso a sistemi informativi di ogni tipo.
Peraltro, la rapida diffusione delle tecnologie legate al WWW non e' stata adeguatamente sostenuta da uno sviluppo organico di metodologie, ne' al livello informatico (correlate agli strumenti) ne' a quello organizzativo. Al riguardo, si possono individuare vari tipi di problemi.
Per quanto riguarda la gestione dei dati e delle informazioni, l'organizzazione ipertestuale delle informazioni sul WWW rende difficile lo svolgimento di attivita' sistematiche di ricerca, interrogazione e acquisizione dei dati: gli strumenti disponibili per la ricerca, cioe' i robot, non sono completamente soddisfacenti e comunque non e' possibile "interrogare" il WWW nel modo, ormai riconosciuto molto utile, in cui si interrogano le basi di dati. Inoltre, e' spesso difficile addirittura sapere quali sono le informazioni disponibili, in quanto la documentazione e' limitata e la non esistenza di strumenti per l'accesso globale rende spesso necessaria una faticosa esplorazione preliminare, spesso infruttuosa. Un altro problema osservato recentemente e' la difficolta' nella predisposizione e manutenzione di siti WWW: e' stato recentemente notato che forse la meta' dei siti WWW sono "in disuso" (creati sulla base di un entusiasmo o un finanziamento iniziale, ma non aggiornati) e che in moltissimi casi la manutenzione dei siti presenta costi organizzativi e umani molto superiori alle valutazioni iniziali. Infine, sono tutt'ora irrisolti i problemi legati alla sicurezza nell'interazione con siti WWW, funzionalita' essenziale per un suo pieno utilizzo in attivita' produttive.
Il progetto si pone l'obiettivo di affrontare sistematicamente le problematiche connesse con la gestione, attraverso il World Wide Web, di grandi moli di dati e delle relative applicazioni. Il progetto che qui viene proposto si articolerà secondo sette temi, ognuno rappresentativo di un fondamentale aspetto della problematica generale:
1) applicazioni per basi di dati su Internet e Intranet
2) estrazione di informazioni distribuite sul WWW
3) integrazione di informazioni estratte da siti WWW
4) analisi delle informazioni estratte dal WWW
5) visualizzazione di informazioni provenienti dal WWW
6) metodologie di progettazione di siti WWW
7) sicurezza e controllo degli accessi in siti WWW
In questo modo, si affronteranno, nel primo tema, le problematiche relative alle applicazioni che utilizzano la rete e in particolare i dati definiti su di essa. Nei successivi quattro si affronteranno vari aspetti, logicamente successivi, nell'utilizzo di informazioni provenienti da siti WWW esistenti: estrazione di informazioni da singoli siti (tema 2), integrazione di informazioni provenienti da siti diversi (tema 3), analisi al fine dell'utilizzo (tema 4) e visualizzazione (tema 5). Negli ultimi due temi si affronteranno problematiche di natura progettuale: l'organizzazione complessiva anche con riferimento all'uso di basi di dati (tema 6) e la definizione e gestione della sicurezza (tema 7).
Il progetto vede la partecipazione di 17 unita' di sedi universitarie diverse, con oltre 90 fra professori, ricercatori, dottorandi e borsisti. Il coordinamento del progetto verra' assicurato attraverso l'individuazione di un coordinatore per ciascuno dei temi, che interagira' con il responsabile nazionale, al fine di monitorare lo stato di avanzamento relativo. Verranno organizzate almeno una riunione complessiva all'anno (due se il cofinanziamento sara' pari o vicino a quello massimo richiesto). In particolare, tale riunione principale si terra' in occasione del convegno SEBD, che, promosso anche dal preesistente progetto nazionale "Basi di dati evolute", cui afferivano quasi tutte le unita' di questo progetto, costituisce ormai da cinque anni l'occasione di incontro nazionale della comunita' scientifica di basi di dati.
Il progetto prevede un costo complessivo che e' pari a circa 8 milioni all'anno per ciascun docente o borsista partecipante (e questo e' approssimativamente il costo che viene indicato come costo minimo per garantire la verificabilita' dei risultati). Esso e' inteso come costo marginale, in quanto ognuno ha gia' la propria retribuzione o borsa di studio gravante su altri fondi. Con il resto del cofinanziamento, che verrebbe utilizzato per il pieno raggiungimento dei risultati previsti, quasi tutte le unita' del progetto prevedono l'acquisizione di personale a contratto, cui si rinuncerebbe quindi in caso di finanziamento minore.
Vengono nel seguito illustrati gli obiettivi specifici dei sette temi.

TEMA 1: APPLICAZIONI PER BASI DI DATI SU INTERNET E INTRANET

Obiettivo del presente tema di ricerca e' la specifica e la realizzazione di applicazioni per basi di dati su Internet e Intranet per la gestione di processi aziendali e di applicazioni distribuite su reti Internet.

Verranno considerati in particolare i seguenti aspetti:

- sistemi di tipi che permettano la comunicazione di oggetti con ruoli sulla rete;

- meccanismi per la riflessione, per permettere la negoziazione tra componenti;

- meccanismi di modularizzazione, basati su valori di prima classe e sulla possibilita' di definire moduli parametrici;

- meccanismi per la programmazione del World Wide Web;

- privacy dei dati distribuiti in Intranet;

- formazione tramite Web basata su tecnologia delle basi di dati;

- transazioni distribuite real-time in Intranet;

- modello ad agenti mobili per la gestione di transazioni distribuite su Basi di Dati eterogenei in ambiente Internet;

- generazione di servizi di accesso a basi di dati fondato su due classi di attori: i gestori di servizio, che progettano le transazioni parametriche da mettere a disposizione, e gli utenti, che utilizzano le interfacce generate automaticamente in fase di progettazione dei servizi;

- definizione di modelli e sviluppo di strumenti per la specifica di processi amministrativi.

Le applicazioni previste sono sia in ambiente di controllo industriale sia nell'ambito dei servizi della Pubblica Amministrazione.

TEMA 2: ESTRAZIONE DI INFORMAZIONI DISTRIBUITE SUL WWW

Le attuali modalita' di accesso all'informazione distribuita sul WWW (navigazione manuale ed uso di motori di ricerca) non possono essere sempre considerate soddisfacenti, per la complessita` del processo in se', per la scarsa accuratezza dei risultati, e per la presentazione non-strutturata degli stessi.

Obiettivo del tema e' pertanto studiare soluzioni e sviluppare strumenti che consentano un'interazione piu' efficace ed efficiente con il WWW, sia nel caso in cui si evidenzi la presenza di una struttura comune tra le pagine, sia in assenza di tale struttura.

Nel primo caso (siti WWW 'strutturati'), l'obiettivo e', nello spirito proprio dei sistemi per basi di dati, fare uso di 'schemi' che permettano all'utente di navigare automaticamente tra le pagine, estrarre i dati di interesse e ottenerli in formato compatto e strutturato.

Nel secondo caso (WWW 'non strutturato'), l'obiettivo e' quello di sviluppare strumenti metodologici, teorici e pratici che permettano di migliorare l'attivita' di ricerca e il processo di recupero e presentazione delle informazioni, avvalendosi a tal fine di informazione locale, di tecniche di 'relevance feedback' opportunamente estese, e della possibilita' di operare in modo non-deterministico.

TEMA 3: INTEGRAZIONE DI INFORMAZIONI ESTRATTE DA SITI WWW

La possibilita' di disporre di grandi quantita' di informazioni estratte da siti WWW pone in evidenza la necessita' di poter definire viste globali delle informazioni provenienti da sorgenti distribuite ed eterogenee, per fornire una rappresentazione integrata dei dati rilevanti per una specifica applicazione e costituire una base di riferimento per interrogazioni da parte dell'utente.

Obiettivo del presente tema di ricerca e' lo sviluppo di metodi e strumenti per la ristrutturazione e integrazione di informazioni e conoscenza disponibili su Internet e Intranet. Verranno considerati in particolare i seguenti aspetti:

1. Metodologie di integrazione di informazioni e conoscenza provenienti da sorgenti multiple ed eterogenee, basate sull'utilizzo di tecniche e strumenti di astrazione/unificazione di viste globali in grado di mediare possibili eterogeneita' tra siti distribuiti.

2. Modelli e linguaggi per la generazione di metadati e "mediatori" per il trattamento integrato di dati testuali, strutturati, semi-strutturati e dataset spaziali.

3. Tecniche di raffinamento e ristrutturazione di informazioni e conoscenza che consentano il trattamento dell'inferenza secondo formalismi logici, il trattamento dell'incertezza nei dati spaziali secondo modelli basati su relazioni metriche, il trattamento di proprieta' e attributi dei dati, secondo approcci mutuati dall'elaborazione del linguaggio naturale (NLP).

TEMA 4: ANALISI DELLE INFORMAZIONI ESTRATTE DAL WWW

A causa della mole rilevante di dati che puo` essere estratta dal Web si rendono necessarie elaborazioni successive che permettano sia di individuare informazioni rilevanti per una specifica applicazione, sia di fornire un supporto efficace alle decisioni da intraprendere. Queste analisi sono comuni a tutte quelle applicazioni che richiedono la costruzione di appositi magazzini di dati detti "data warehouse", contenenti collezioni integrate di dati di tipo storico-temporale, provenienti da sorgenti informative distribuite ed eterogenee.

L'attivita` di ricerca sara` focalizzata sui seguenti temi:

1. Metodologie di progettazione di data warehouse che permettano di definire (a) un modello concettuale indipendente dal modello logico (multidimensionale o relazionale), (b) tecniche per la costruzione automatica o semi-automatica del modello logico, (c) tecniche per la costruzione del modello concettuale del data warehouse a partire dallo schema concettuale del sistema informativo (schemi E/R del sistema informativo, schema dell'ipertesto per il WWW).

2. Metodologie, linguaggi e algoritmi per l'analisi dei dati, effettuata in due modi: (a) descrivendo i dati secondo diverse prospettive o "dimensioni" (temporali, spaziali, ecc.), ottenendo le cosidette basi di dati "multidimensionali", (b) facendo uso di tecniche di "data mining" e "knowledge discovery" per estrarre informazioni nascoste sotto forma di regolarita` ricorrenti.

3. Analisi delle prestazioni volta a verificare l'efficienza delle operazioni di analisi dei dati mediante: (a) valutazione dei costi esecutivi, analisi delle utilizzazioni e strategie di bilanciamento del carico, (b) analisi dei tempi di risposta.

TEMA 5: VISUALIZZAZIONE DI INFORMAZIONI PROVENIENTI DAL WWW

Con la globalizzazione delle informazioni, determinata dall'uso crescente del WWW, l'accesso a grandi quantita' di dati e' diventata una necessita' per gli utenti di calcolatori. Un aspetto cruciale e' permettere agli utenti di selezionare e elaborare dati che essi trovano significativi. In particolare, l'analisi preliminare dei dati deve permettere di scoprire la presenza o meno di fenomeni rilevanti, che meritino di essere approfonditi con ulteriori elaborazioni ed accesso ad altre fonti. A questo scopo, e' fondamentale disporre di sistemi "user-oriented", che forniscano automaticamente alle varie classi di utenti gli strumenti e le modalita' di interazione piu' opportuni, coerentemente con le diverse necessita' ed obiettivi. Per rendere piu' efficace il processo di ritrovamento e di assimilazione delle informazioni su WWW, bisogna rappresentarle in una forma adatta alle capacita' percettive (soprattutto visuali) degli utenti e ai requisiti specifici del problema.

Obiettivo del tema 5 e' l'identificazione di appropriate forme di visualizzazione che permettano di esaminare lo stesso insieme di dati da differenti angolazioni, evidenziando diverse caratteristiche. Inoltre, l'interazione con tali visualizzazioni permettera' all'utente di guidare facilmente il successivo processo di analisi, che puo' essere affidato a strumenti basati su tecniche diverse.

Il modulo di visualizzazione che si intende realizzare e' parte dell'interfaccia per l'intero sistema (composto da strumenti diversi, ma con un formato comune per lo scambio di informazioni); tale interfaccia permette all'utente di selezionare sottoinsiemi dei dati, specificare variabili da correlare, analizzare i risultati delle elaborazioni, ecc. Saranno inoltre studiate possibili caratteristiche di adattivita' dell'interfaccia, in modo che possa modificare il suo comportamento sulla base della tipologia dell'utente che sta interagendo e di mutate condizioni di contesto. Lo scopo ultimo e' di ottenere un'interfaccia usabile con soddisfazione degli utenti.

TEMA 6: METODOLOGIE DI PROGETTAZIONE DI SITI WWW

Con l'affermarsi del Web quale strumento principe per l'accesso a grandi collezioni di dati, e' divenuto sempre piu' importante progettare siti Web che consentano una interazione organica, semplificando al massimo la gestione dei dati contenuti nel sito. In questo senso, la tecnologia delle basi di dati rappresenta una risorsa essenziale. L'obiettivo di questa ricerca e' lo studio di metodologie e tecniche che supportino la progettazione di siti Web e delle relative basi di dati in ambiente Internet/Intranet. Questo richiedera' lo sviluppo di opportuni modelli di dati e strumenti per la progettazione concettuale e logica di siti Web, e per la generazione automatica delle pagine HTML a partire dalla base di dati.

La metodologia verra' poi estesa in varie direzioni. Per cominciare, verra' affrontato il problema della progettazione distribuita di siti Web, ottimizzando la scelta dei siti in un contesto distribuito e di replicazione dei dati. Questo richiedera' di estendere l'attivita' di progettazione con una fase di raccolta dei requisiti relativi ai potenziali utenti del sito e alla loro dislocazione.

Le tecniche sviluppate verranno poi raffinate per estendere al Web concetti elaborati nel contesto della ricerca sulle basi di dati temporali, quali il tempo di transazione e il tempo di validita', che consentano la realizzazione di documenti Web intrinsecamente temporali. Questo richiedera' lo sviluppo di estensioni dei browser Web in grado di supportare le nuove funzionalita'.

TEMA 7: SICUREZZA E CONTROLLO DEGLI ACCESSI IN SITI WWW

L'obiettivo dell'attivita' di ricerca proposta e' lo sviluppo di un meccanismo di controllo degli accessi a pagine WWW. Il meccanismo di controllo e' di tipo discrezionario e deve permettere di garantire e revocare autorizzazioni a singoli utenti ed a gruppi di utenti. Il meccanismo di controllo degli accessi che si prevede di sviluppare sara' basato sui vari tipi di accesso che si eseguono a pagine WWW, come letture, navigazioni, modifiche attraverso forms. Dovra' inoltre fornire funzionalita' che permettano un controllo degli accessi in base al tempo - utile per limitare l'accesso a determinati intervalli temporali - che in base alla storia passata degli accessi.

Le funzioni principali che il meccanismo di controllo deve fornire includono: garanzia e revoca di autorizzazioni per l'accesso a pagine WWW a livelli variabili di granularita' (quali directories, pagine, porzioni di pagine) e con diverse modalita' di revoca (on-line e off-line); gestione di domini logici di autorizzazione, dove un dominio logico e' un insieme di pagine e link tra le pagine che puo' essere considerato come un singolo oggetto da parte del meccanismo di controllo degli accessi; meccanismi di credenziali; garanzia di anonimita'.



9. Base di partenza scientifica nazionale o internazionale (con eventuali riferimenti bibliografici):

L'attivita' di ricerca in sviluppata negli ultimi anni sulle tematiche relative a Internet e' enorme. Nell'impossibilita' di essere esaustivi, ne presentiamo una discussione solo con riferimento agli specifici temi di interesse per il progetto.

TEMA 1: APPLICAZIONI PER BASI DI DATI SU INTERNET E INTRANET

La ricerca nell'area dei sistemi informativi attualmente si sta concentrando su problematiche di reingegnerizazzione di sistemi esistenti, integrazione di sistemi eterogenei di enti pubblici e privati, sul trattamento dei dati ipermediali e geografici e su problemi di sicurezza dei dati e applicativi.

Le tecnologie innovative che si stanno diffondendo a supporto di tali aree di ricerca sono sistemi di connessione tra basi di dati e sistemi Web, utilizzo di browser per la navigazione in sistemi legacy e strumenti di supporto al workflow distribuiti con interfacce utenti basate su tecnologia Web. Inoltre, con le nuove normative sulla privacy dei dati, sono allo studio sistemi di sicurezza basati su crittografia e controllo dellaccesso in rete e nelle basi di dati.

L'unita' di Pisa negli ultimi anni ha fatto ricerche sul disegno e sulla realizzazione di linguaggi per basi di dati. In particolare, il gruppo si e' occupato di linguaggi per basi di dati ad oggetti con un sisteme di tipi forte e statico. I risultati di questa ricerca riguardano i seguenti temi: a) linguaggi di programmazione per basi di dati a oggetti, b) tecniche per la realizzazione di oggetti estendibili e c) teoria dei tipi per linguaggi a oggetti.

Per quanto riguarda i linguaggi di programmazione per basi di dati a oggetti sono state studiate le proprieta' (a) del meccanismo degli oggetti con ruoli per consentire la modellazione di oggetti che cambiano tipo dinamicamente e presentino una pluralita' di comportamenti, (b) del meccanismo degli oggetti virtuali per modellare viste di basi di dati a oggetti e (c) del meccanismo dei moduli. Questi meccanismi sono stati sperimentati in due prototipi: il sistema Fibonacci e il sistema Galileo 95.

Per quanto riguarda le tecniche per la realizzazione di oggetti estendibili e' stato presentato un modello di realizzazione che mostra come vadano arricchite le strutture dati all'aumentare della generalita' del meccanismo di estendibilita' degli oggetti.

Per quanto riguarda la teoria dei tipi per linguaggi per basi di dati a oggetti, sono stati studiati alcuni aspetti della formalizzazione delle proprieta' del sistema dei tipi di un linguaggio con controllo statico. Come fondazione del sistema dei tipi e' stato scelto il sistema FM-> , lambda calcolo al secondo ordine con sottotipi, poiche' esso e' il minimo sistema di tipi che integri polimorfismo parametrico e di inclusione.

Nella realizzazione di Sistemi Informativi cooperativi ed autonomi (Muller 94) e' di fondamentale importanza che l'aggiunta o la eliminazione dalla rete di un sistema cooperante, avvenga in modo "poco costoso", in termini di intervento esterno umano e di assoggettamento a standardizzazioni (soprattutto di schema) che limiterebbero l'autonomia dei singoli, tipica di tali modelli.

Alcuni approcci alla determinazione delle somiglianze semantiche fra attributi che utilizzano misure/metodi basati su euristiche soggettive, tipicamente fornite off-line da analisti (Shet 88), (Larson 89), risultano "costosi" per innestare una nuova base di dati in una federazione esistente, altri, che mirano ad estrarre la semantica in modo automatico dalle informazioni contenute nella base di dati, utilizzano informazioni presenti nel dizionario dei dati o nella base di dati stessa (Ellmer 95), (Li 94), (Diamantini 96), ma si confrontano con il limite della poca espressivita' semantica dell'informazione strutturale. L'obiettivo della Unita' Operativa di Ancona consiste nell'adattamento di una variante a collaborazione "spontanea" (Panti 96) (Chang 94) del modello di sistema ad agenti a conoscenza distribuita (Davis 83) al fine di svolgere, in modo automatico e collaborativo, i task relativi alla individuazione delle somiglianze semantiche tra schemi di DB eterogenei usando anche elementi di conoscenza rapresentanti il dominio applicativo in termini di attivita' ed oggetti (Panti 94 ) e tecniche di analisi semantica proprie dell'elaborazione del linguaggio naturale (NLP) .

L'unita' Politecnico di Milano svolge da molti anni ricerca sul tema della progettazione di sistemi informativi, e in particolare sullo sviluppo di ambienti per la progettazione di sistemi per il supporto al lavoro d'ufficio e sui sistemi di workflow basati su tecnologia basi di dati. Sono stati studiati modelli per la progettazione di sistemi informativi e sistemi di workflow nell'ambito di progetti ESPRIT (Progetti TODOS, F3, Equator, IDEA, e il progetto WIDE, tuttora in corso). Piu' recentemente, il gruppo ha studiato problematiche relative alla progettazione di sistemi Intranet su piu' siti, studiando le problematiche della distribuzione dei dati. Si e' inoltre studiato un modello e realizzato un prototipo di sistema per la preparazione di corsi su Web, utilizzando una base di dati per memorizzare il materiale di base e gli esercizi da cui costruire corsi a diversi livelli di approfondimento, componendo il materiale in modo flessibile.

Il gruppo Sistemi Ipermediali ha lavorato sin dal 1988 a ricerche su sistemi ipermediali e multimediali. E' dotato di un laboratorio attrezzato e ha collaborato sia con numerose ditte nazionali e internazionali che con istituzioni di ricerca e culturali, tra cui il CNR, il Museo Poldi Pezzoli, il Museo Benaki di Atene. Ha partecipato a numerosi progetti di ricerca su produzione elettronica di documenti (progetti ESPRIT INDOC e SUPERDOC), su ipermedia e multimedia (progetti ESPRIT HYTEA, nel quale e' stata sviluppata la metodologia HDM, i progetti HIFI e MINERS).

Le tecnologie per lo sviluppo di applicazioni mobili su rete hanno avuto nel corso degli ultimi anni un notevole sviluppo, specie grazie alla crescita e diffusione della rete Internet. In particolare, sono stati sviluppati una serie di linguaggi di programmazione che permettono lo sviluppo di programmi che, secondo diverse modalita', sono in grado di migrare sulla rete. Esempi di tali linguaggi sono Java, che permette solo la mobilita' di codice sorgente, e Telescript, che permette la creazione di unita' computazionali in grado di muoversi autonomamente con il proprio stato. Oltre ai linguaggi sono stati sviluppati nuovi paradigmi di progettazione di applicazioni su rete come, per esempio, il concetto di agente. Tale paradigma concepisce un sistema distribuito come un insieme di unita' computazionali autonome che migrano sui nodi della rete in funzione dei risultati che vengono via via prodotti.

Il lavoro del gruppo si e' concentrato in primo luogo sulla comprensione delle proprieta' e caratteristiche di queste nuove tecnologie, attraverso la creazione di framework di classificazione e inquadramento dei linguaggi, dei paradigmi e delle applicazioni emergenti. Si e' notato che linguaggi e paradigmi sono ragionevolmente ortogonali, e che quindi servono criteri di selezione delle tecnologie in funzione del paradigma di progetto. In seguito sono stati studiati proprieta' e i limiti di alcuni linguaggi (in particolare Java), proponendone delle estensioni e miglioramenti. Inoltre, sono stati studiati e confrontati alcuni paradigmi di progettazione all'interno di casi pilota. Un ulteriore filone di lavoro concerne lo studio di architetture distribuite basate sul concetto di evento e integrate con codice mobile. Infine, sono in corso di studio tecniche per la progettazione e gestione di siti Web. Le competenze precedenti nell'area ingegneria del software presso il Politecnico di Milano che hanno una ricaduta piu' diretta sull'attivita' di ricerca sulle applicazioni di network computing proposta riguardano gli ambienti di sviluppo di software guidati da una descrizione esplicita del processo (process centered software engineering environments). Si tratta di particolari ambienti distribuiti per il supporto alle attivita' cooperative di progettazione. Altre competenze pregresse ricadono nel filone dei linguaggi di programmazione, settore scientifico nel quale tradizionalmente e' attivo il gruppo di ricerca.

L'Unita' di Catania negli ultimi anni si e' occupata di temi inerenti le basi di dati tempo-reali. Queste ultime sono tuttora ampiamente studiate in letteratura sotto diversi aspetti quali, ad esempio, la modellazione dei dati e delle transazioni (Ramamrithan, 1993)(Kim and Son, 1995), i meccanismi di controllo di concorrenza (Lee e Son, 1994), la schedulazione delle transazioni(Haritsa et al, 1991). La ricerca svolta dall'Unita' di Catania ha mosso i suoi primi passi nell'ambiente del controllo di processo (Cavalieri et al, 1993)(Di Stefano et al, 1993)(Di Stefano et al, 1997), per il quale e' sotto studio un modello di real-time Data Base adatto a supportare le applicazioni tempo-critiche tipiche dell'ambiente. Attualmente sono anche in fase di studio e di valutazione alcune strategie di schedulazione delle transazioni real-time soft e firm miranti alla massimizzazione del numero di transazioni schedulate nel rispetto delle deadline. Oltre a queste attivita' correlate all'ambiente real-time, l'Unita' di Catania sta studiando anche l'uso di modelli ad agenti mobili per la soluzione di problemi di cooperazione in ambiente distribuito.

L'accesso a basi di dati distribuite allo stato attuale si fonda principalmente su sistemi proprietari, cioe' con sistemi omogenei nei vari siti, o su interfacce standard (quali ad esempio ODBC) che interagiscono con browser web tramite lo standard CGI. Entrambe queste classi di soluzioni richiedono l'installazione di driver specifici o di programmi ad hoc per effettuare l'accesso ai dati. Il linguaggio Java, la disponibilita' di una Java abstract machine su diverse piattaforme e la possibilita' di scaricare via rete, senza installazione, applicativi Java, rendono possibile un salto di qualita' nella generazione di applicazioni DBMS flessibili, indipendenti dalla piattaforma e di installazione praticamente immediata. In tale campo sono gia' stati svolti studi preliminari dai proponenti presso l'unita' dell'Universita' di Bologna.

(Fuggetta 97) A. Fuggetta, G. Picco, G. Vigna: "Understanding code mobility", Rapporto tecnico del Politecnico, sottomesso a IEEE TSE

(Chang 94) M.K. Chang, C.C. Woo, A Speech Act Based Negotiation Protocol: Design Implementation and Test Use - ACM Trans. on Information Systems, Vol. 12, N. 4, 360-377, 1994.

(Davis 83) Davis R., Smith R. - Negotiation as a metaphor for distributed problem solving - Artificial Intelligence, Vol. 20, pp. 63-109, 1983.

(Diamantini 96): S. Castano, C. Diamantini, Classificazione di schemi di E-R basata su tecniche neurali, SEBD 96, S. Miniato, pp 365-383

(Ellmer 95) E. Ellmer et alii: "Neural Network Technology to Support View Integration", Proc. OO-ER'95, Gold Coast 1995, Springer-Verlag

(Larson 89): J. Larson et alii: "A theory of attribute equivalence in databases with application to schema integration", IEEE Trans. Software Engineering, 15, 4, 449-463, 1989

(Li 94): W.S. Li et alii: "Semantic Integration in Heterogeneous Databases using Neural Networks", Proc. VLDB'94, Santiago del Cile]

(Muller 94) J.P. Muller, Pischekl M. - An Architecture for Dinamically Interacting Agents - International Journal of Intelligent and Cooperative Information Systems, 3, 1, 25-45, 1994.

(Panti 96) A. Cucchiarelli, M. Panti, S. Valenti, Voluntary Collaboration and Coordination in Multi-Agent Environment, Intl Conf. "Artificial Intelligence, Expert Systems and Neural Networks", H. Adeli ed, 321-326, 1996.

(Panti 94) M. Panti, A. Cucchiarelli, S. Valenti, Supporting User-Analyst Interaction in Functional Requirements Elicitation, Proceedings of APSEC'94, IEEE Computer Society Press, 114-123, 1994.

(Sheth 88): A. Sheth et alii: "A tool for integrating conceptual schemas and user views", Proc. 4th Int. Conf. on Data Engineering, Los Angeles, Feb. 1988, IEEE

(Spalazzi 96) P. Traverso and L. Spalazzi and F. Giunchiglia, "Reasoning About Acting, Sensing, and Failure Handling: A Logic for Agents Embedded in the Real World", in M. Wooldridge and J. P. Muller and M. Tambe (eds), Lecture Notes in Artificial Intelligence,Springer-Verlag, 1996

(Valenti 97) S. Valenti, M. Panti, A. Cucchiarelli, The application of planning by abstraction to Workflow Management Systems based on agents, AISC 97, Acta Press 1997.

(Albano 93) Albano A., R. Bergamini, G. Ghelli, R. Orsini, "An Object Data Model with Roles", Proc. of 19th Int. Conf. on VLDB, Dublin, 1993, pp.39-51.

(Albano 95) A. Albano, G. Ghelli, R. Orsini, "Fibonacci: a Programming Language for Object Databases", Journal of Very Large Data Bases, 4 (3), 1995, pp.403-444.

(Poncia 97) G. Poncia, B. Pernici, "A methodology for the design of distributed web systems", LNCS Springer Verlag, CAiSE '97, Barcellona, giugno 1997

(Batini 96) C. Batini, S. Castano, V. De Antonellis, M.G. Fugini, B. Pernici, "Analysis of an inventory of information systems in the Public Administration", Requirements Engineering Journal, marzo 1996

(Ceri 96) S. Ceri, J. Widom, Active Database Systems: "Triggers and Rules for Advance Database Processing'', Morgan-Kauffmann, (pp. 332), August 1996.

(Garzotto 93) Garzotto F., Paolini P., Schwabe D. "HDM - A Model Based Approach to Hypertext Application Design" in ACM Trans. on Information Systems, Vol. 11, No. 1, Jan. 1993.

(Cavallaro 93) Cavallaro U., Paolini P., Christodoulakis S., Dallas K., Etnotiados A., Proja S., Shiff J., Shuler W. "HIFI: Hypertext Interfaces to Information Systems". In The Electronic Library, Vol. 11, No.1, Feb. 1993.

TEMA 2: ESTRAZIONE DI INFORMAZIONI DISTRIBUITE SUL WWW

Il problema di estrarre informazioni dal Web, andando oltre le semplici modalita` basate su navigazione manuale e motori di ricerca, e' stato recentemente affrontato in letteratura (Konopnicki 1995, Mendelzon 1996), adottando un approccio che, applicando principi propri dei linguaggi di interrogazione per basi di dati ad un contesto (il Web) visto come un enorme grafo di documenti collegati da link, permette di esprimere interrogazioni sia di struttura che di contenuto. I linguaggi proposti, essendo nella maggior parte dei casi di tipo SQL-like, sono dichiarativi e di tipo 'set-oriented', il che comporta che la valutazione di una interrogazione fornisce come risultato tutti i documenti WWW che la soddisfano. Oltre agli ovvii problemi di efficienza, cio` crea insoddisfazione negli utenti, per i quali spesso solo una minima parte dei (molti) dati ottenuti e' significativa rispetto alle proprie esigenze informative. Data la notevole rilevanza del problema, approcci piu` recenti hanno enfatizzato la necessita` di operare per rimuovere, o comunque cercare di ridurre, le cause alla base del problema stesso, cause che, data la novita` del contesto considerato, sono molte, variegate e complesse.

Il fatto di vedere le pagine HTML come oggetti essenzialmente non strutturati non considera che in molti casi (in particolare in un contesto Intranet, ma non solo) le pagine di un sito hanno una struttura interna articolata, e la conoscenza di questa struttura consente di rendere le interrogazioni piu' efficienti ed efficaci al tempo stesso. In questa direzione si sono mossi recenti lavori che hanno iniziato a definire un modello di dati per la descrizione di siti Web, in cui le pagine sono viste come oggetti con un identificatore (l'URL) e una serie di attributi, e un linguaggio basato su tale modello (Atzeni 1997). Una rappresentazione astratta delle informazioni dei siti WWW ottenuta mediante schemi basati su grafi e` alla base del linguaggio WG-log (Damiani 1997), un'evoluzione del linguaggio G-log (Paredaens 1995), definito presso l'Universita' di Anversa. WG-log introduce elementi lessicali tipici dei linguaggi di progettazione ipermediali e permette di specificare interrogazioni, in forma di grafi, che si possono riferire alla natura logica o navigazionale dei concetti e dei legami presenti nel sito.

Nel caso generale 'non strutturato', la semantica dei link che collegano pagine Web non e` nota, e cio' rende problematica sia la navigazione che la ricerca di informazioni. Per ovviare a questo problema la metodologia, e relativo sistema, presentati in (Agosti 1996) e` una buona base di partenza, in quanto in grado di costruire automaticamente basi di dati ipertestuali orientate agli oggetti secondo il modello EXPLICIT (Agosti 1995) e consultabili in ambito Web mediante navigazione ed interrogazione sul contenuto semantico. Per migliorare la qualita` del processo di reperimento dell'informazione e` anche possibile fare uso di tecniche di 'relevance feedback', che si sono dimostrate efficaci in 'information retrieval' nell'aumentare la proporzione di documenti pertinenti recuperati. Tali tecniche, tuttavia, ancora non sono state estese al caso ipertestuale.

Tra i paradigmi di interazione con strutture dati complesse, in particolare con oggetti multimediali, la grafica tridimensionale e la realta' virtuale sono state oggetto di particolare interesse per il loro grande potere espressivo. In ambito Internet, si possono utilizzare i mondi virtuali come metafore di accesso alle strutture informative presenti in WWW, attraverso la costruzione dinamica di oggetti tridimensionali che riproducono le relazioni tra informazioni esistenti, esprimendo anche eventuali vincoli di accesso (Celentano 1995).

Allo scopo di migliorare l'efficienza di esecuzione di un'interrogazione, e senza fare assunzioni sulla struttura interna delle pagine, e' possibile anche usare tecniche di 'pruning', applicabili in quei casi in cui l'utente non e` interessato ad un risultato completo, ma ad un suo sotto-insieme scelto non deterministicamente (es: "trova un documento che ha un riferimento al documento X"). L'uso di costrutti non deterministici nell'ambito di linguaggi logici per basi di dati relazionali e` stato oggetto di recenti ricerche che hanno dimostrato sia la loro rilevanza teorica che la loro utilita` nella soluzione di problemi di interesse pratico (Giannotti 1997).

La conoscenza specifica che un utente acquisisce navigando o eseguendo ricerche su Web e' oggi scarsamente riutilizzabile, essendo supportata, a livello client, da strumenti primitivi, quali i 'bookmarks', che non permettono un'organizzazione strutturata ed efficiente delle informazioni e che, anche se giudiziosamente organizzati (Maarek 1996), risultano poco informativi. Per ovviare a limiti di questo tipo, in (Ciaccia 1997) e' stato avviato uno studio mirante allo sviluppo di un ambiente integrato, denominato WaDer, che permetta, da un lato, di gestire localmente, mediante un approccio database, le informazioni di interesse per l'utente, dall'altro di permettere un efficace ed efficiente riutilizzo di tali informazioni in fase di ricerca. Alla base dell'approccio proposto sono il concetto di 'vista' definita sul WWW, e la possibilita' di definire relazioni di interesse tra tali viste e tra le viste e i dati locali.

Riferimenti

(Agosti 1995) M. Agosti, F. Crestani, M. Melucci. "Automatic authoring and construction of hypertext for Information Retrieval", ACM Multimedia Systems, 3(1), 15-24, 1995.

(Agosti 1996) M. Agosti, F. Crestani, M. Melucci. "Design and Implementation of a Tool for the Automatic Construction of Hypertexts for Information Retrieval", Information Processing & Management, 32(4),459-476, 1996.

(Atzeni 1997) P. Atzeni, G. Mecca, P. Merialdo. "To Weave the Web", In Proceedings of the 23rd International Conference on Very Large Databases (VLDB'97), 1997.

(Celentano 1995) A. Celentano. "Query and retrieval in multimedia databases: a new perspective", in SDAIR 1995, Symposium on Document Analysis and Information Retrieval", Las Vegas, Aprile 1995.

(Ciaccia 1997) P. Ciaccia. "WaDer, an Integrated Environment for Managing Information on the Web", CSITE-CNR Technical Report, 1997.

(Damiani 1997) E. Damiani, L. Tanca. "WG-log, a graph oriented language for the WEB" Proc. 2nd International Workshop on Logic Programming tools for Internet Applications"; http://clement.info.umoncton.ca~Ipnet proceedings97S4.

(Giannotti 1997) F. Giannotti, S. Greco, D. Sacca`, C. Zaniolo. "Programming with non-determinism", Annals of Mathematics and Artificial Intelligence, 1997.

(Konopnicki 1995) D. Konopnicki, O. Shmueli. "W3QS: A query system for the World Wide Web", In Proceedings of the 21rd International Conference on Very Large Databases (VLDB'95), 1995

(Maarek 1996) Y. S. Maarek, I. Z. Ben Shaul. "Organizing Bookmarks by Content" In Proceedings of the 5th International WWW Conference, 1996.

(Mendelzon 1996) A. O. Mendelzon, G. Mihaila, T. Milo. "Querying the World Wide Web", In Proceedings of the 1st International Conference on Parallel and Distributed Information Systems (PDIS'96), 1996.

(Paredaens 1995) J. Paredaens, P. Peelman, L. Tanca. "G-Log: a graph-based query language", IEEE Transactions on Knowledge and data Engineering", Giugno 1995.

TEMA 3: INTEGRAZIONE DI INFORMAZIONI ESTRATTE DA SITI WWW

L'integrazione di informazioni estratte da siti WWW richiede la soluzione di una serie di problemi piu' specifici, come illustrato nel seguito.

Esiste innanzitutto il problema della risoluzione di eterogeneita' semantiche e per la mediazione di contesto (Hull 1997). A tale riguardo, in (Reddy 1994), viene presentata una metodologia per l'unificazione di schemi eterogenei di basi di dati. La metodologia si basa sulla derivazione bottom-up di viste unificate a partire dalle descrizioni degli oggetti negli schemi di partenza e sulla rappresentazione esplicita delle conoscenze sulla semantica di tali oggetti sottoforma di proprieta' associate agli schemi. Architetture basate sulla mediazione consentono lo scambio di informazioni tra siti diversi, valutando le proprieta' di contesto associate alle informazioni ed effettuando le conversioni necessarie per `mitigare' le differenze tra contesti (Sciore 1994). Le competenze dell'Unita' Operativa di Brescia riguardano tecniche di integrazione e unificazione di viste globali di informazioni in sistemi distribuiti. L'attivita' di questo gruppo di ricerca e' stata rivolta sia ad attivita' di tipo teorico che di tipo prototipale e sperimentale. Lo studio teorico ha portato allo sviluppo di un modello per la rappresentazione di concetti di riferimento (Castano 1995, Castano 1997b) e di relazioni semantiche fra concetti all'interno di dizionari semantici organizzati per domini applicativi (Castano 1997a). Per quanto riguarda la sperimentazione, il modello di integrazione e' stato applicato all'analisi di schemi di sistemi informativi eterogenei e distribuiti nel dominio della Pubblica Amministrazione (Batini 1996).

Esiste poi il problema di integrare informazioni provenienti da fonti eterogenee. Questo problema e' oggetto di ricerche a livello internazionale e alcune soluzioni stanno emergendo, come, ad esempio, quelle proposte nell' ambito del progetto TSIMMIS, in corso di sviluppo presso il dipartimento di Computer Science dell'Universita` di Stanford (Ullman 1994, Papakonstantinou 1995). In tale progetto, gli strumenti di mediazione e interrogazione sono basati su una descrizione strutturale delle fonti di informazione di interesse. Le competenze dell'Unita' Operativa di Modena in questo ambito riguardano l'arricchimento di descrizioni strutturali con informazioni di tipo semantico, che prevede la descrizione delle sorgenti mediante un linguaggio dotato di semantica di mondo aperto che permette di descrivere classi di oggetti. Tale gruppo di ricerca svolge dal 1987 la sua attivita' di ricerca prevalentemente sulla tematica dell' accoppiamento di tecniche di Intelligenza Artificiale (IA) alle Basi di dati ad oggetti (OODB), al fine di sviluppare sistemi di basi di dati intelligenti. In particolare, sono state studiate le possibili estensioni dei formalismi, denominati Logiche descrittive (sviluppati a partire dal modello KL-ONE) e le tecniche di ragionamento ad essi associati per la loro caratteristica di fornire tecniche di ragionamento di complessita' computazionale accettabile per sistemi reali. L'attivita' di ricerca dell'Unita' Operativa e' stata rivolta sia ad attivita' di tipo teorico che di tipo prototipale e sperimentale. Nell'ambito della ottimizzazione semantica di interrogazioni e di controllo di consistenza su sistemi di gestione di basi di dati, l'attivita' teorica ha portato a notevoli risultati (Bergamaschi 1992, Bergamaschi 1997a, Bergamaschi 1997b). Inoltre, dal punto di vista sperimentale va segnalata la realizzazione di una versione del sistema ODB-Tools, che implementa i risultati teorici ottenuti (Beneventano 1997).

Attivita' connesse con il trattamento dell'incertezza e l'uso dei metadati nell'integrazione di dati spaziali eterogenei presenti su siti WWW stanno facendo la loro comparsa sia in progetti nazionali che internazionali. Tali attivita' sono destinate ad accrescersi nel futuro, come emerge, ad esempio, dalla lettura del documento preparato dall'UCGIS (University Consortium for Geographic Information System) (UCGIS 1996), ove si sostiene che il trattamento dell'incertezza e' una tra le prime dieci tematiche di ricerca a massima priorita' nel contesto dell'integrazione, interrogazione e manipolazione di dati spaziali. Anche nell'agenda di ricerca del progetto GISDATA, sponsorizzato dalla European Science Foundation (ESF), tale problematica ha rivestito un ruolo prioritario (Burrough 1996).

Esiste infine il problema dell' estrazione della semantica dalle informazioni contenute in basi di dati distribuite. Le proposte esistenti si basano sul contenuto del dizionario dei dati o sulle istanze della base di dati stessa. In particolare, recenti approcci per il riconoscimento di concetti simili in basi di dati distribuite propogono l'uso di reti neurali come strumento di classificazione a partire dalle caratteristiche degli attributi nella base dati (Li 1994). L'uso di reti neurali e' stato anche sperimentato per scopi di integrazione di viste di basi di dati (Ellmer 1995). Le competenze dell'Unita' Operativa di Ancona nel settore riguardano metodi di elaborazione del linguaggio naturale e applicazioni delle reti neurali di tipo non-supervisionato (Diamantini 1994, Diamantini 1995). Piu' specificamente al progetto, si sono studiati algoritmi neurali per la classificazione di schemi di basi di dati eterogenee e distribuite, al fine di riconoscere concetti semanticamente simili candidati all'unificazione (Castano 1996, Diamantini 1997). Tali approcci sono stati concepiti per dati di tipo strutturato e, per gli scopi del progetto, risulta necessaria la loro estensione allo studio delle relazioni semantiche per informazioni di tipo semi-strutturato o testuale in siti WWW distribuiti.

Riferimenti

(Batini 1996) C. Batini, S. Castano, V. De Antonellis, M.G. Fugini, B. Pernici. "Analysis of an Inventory of Information Systems in the Public Administration", Requirements Engineering Journal, Vol.1, no.1, 1996

(Castano 1997a) S. Castano, V. De Antonellis. "Semantic Dictionary Design for Database Interoperability", in Proc. of ICDE'97, Birmingham, 1997

(Castano 1997b) S. Castano, V. De Antonellis. "Engineering a Library of Reusable Conceptual Components", Information Software and Technology, No. 39, 1997

(Castano 1995) S. Castano, V. De Antonellis. "Reference Conceptual Architectures for Re-engineering Information Systems", Int. Journal of Cooperative Information Systems, Vol. 4, nos. 2&3, 1995.

(Hull 1997) R. Hull. "Managing Semantic Heterogeneity in Databases: A Theoretical Perspective", Tutorial presented to PODS'97, 1997.

(Reddy, 1994) M.P. Reddy, B.E. Prasad, P.G. Reddy, A. Gupta. "A Methodology for Integration of Heterogeneous Databases", IEEE Trans. on Knowledge and Data Engineering, Vol.6, No.6, December 1994.

(Sciore 1994) E. Sciore, M. Siegel, A. Rosenthal. "Using Semantic Values to Facilitate Interoperability Among Heterogeneous Information Systems", ACM Trans. on Database Systems, Vol.19, No.2, June 1994.

(Bergamaschi 1992) S. Bergamaschi, C. Sartori. "On taxonomic reasoning in conceptual design; ACM Transactions on Database System", Vol. 17, No. 3, Settembre 1992, pagg. 385-422.

(Beneventano 1997) Domenico Beneventano, Sonia Bergamaschi, Claudio Sartori e Maurizio Vincini. "ODB-QOptimizer: a tool for semantic query optimization in OODB", Int. Conference on Data Engineering ICDE97, Birmingham, UK, April 1997.

(Beneventano 1997) Domenico Beneventano, Sonia Bergamaschi, Stefano Lodi e Claudio Sartori. "Consistency Checking in Complex Object Database Schemata with Integrity Constraints" in corso di pubblicazione su IEEE Transaction on Data & Knowledge Engineering, 1997.

(Bergamaschi 1997) Sonia Bergamaschi, Claudio Sartori. "An Approach for the Extraction of Information from Heterogeneous Sources of Textual Data", 4th Workshop 'Knowledge Representations meets Databases', Atene , Agosto 1997.

(Ullman 1994) Ullman, and J. Widom. "The TSIMMIS Project: Integration of Heterogeneous Information Sources", in Proc. of IPSJ Conf., pp. 7-18, Tokyo, Japan, October 1994.

(Papakonstantinou 1995) Y. Papakonstantinou, H. Garcia-Molina and J. Widom, "Object Exchange Across Heterogeneous Information Sources", in Proc. of ICDE'95, pp. 251-260, Taipei, Taiwan, March 1995.

(Clementini 97a) E. Clementini, P. Di Felice. "Topological invariants for lines". IEEE Transactions on Knowledge and Data Engineering (to appear) (1997).

(Clementini 97b) E. Clementini, P. Di Felice, and D. Hernandez. "Qualitative representation of positional information". Artificial Intelligence (to appear) (1997).

(Clementini 97c) E. Clementini and P. Di Felice. "Approximate Topological Relations". International Journal of Approximate Reasoning 16: 173-204 (1997).

(Clementini 96) E. Clementini and P. Di Felice. "An Algebraic Model for Spatial Objects with Indeterminate Boundaries". in: P. A. Burrough and A. U. Frank (Ed.), Geographic Objects with Indeterminate Boundaries. GISDATA Series chapter 11, pp.155-169, Taylor & Francis, London (1996).

(UCGIS 96) University Consortium for Geographic Information Science (1996). "Research priorities for geographic information science". Cartography and Geographic Information Systems 23(3).

(Burrough 96) P. A. Burrough (1996). "Natural Objects with Indeterminate Boundaries". in: P. A. Burrough and A. U. Frank (Ed.), Geographic Objects with Indeterminate Boundaries. GISDATA Book Series pp. 3-28, Taylor & Francis, London.

(Castano 1996) S. Castano, C. Diamantini. "Classificazione di Schemi Entita'-Relazione basato su tecniche neurali", Proc. SEBD'96, S. Miniato, 1996.

(Diamantini 1997) C. Diamantini, M.Panti, "Riduzione della eterogeneita' degli schemi concettuali: un approccio non invasivo", Internal Report, Universita' di Ancona, 1997.

(Diamantini 1994) C. Diamantini, A. Spalvieri. "Vector Quantization for Minimum Error Probability", Proc. ICANN'94, Int. Conf. on Artificial Neural Networks, Sorrento 1994.

(Diamantini 1995) C. Diamantini, A. Spalvieri. "Pattern Classification by the Bayes Machine", Electronics Letters, Vol.31, N.24, Novembre 2995.

(Ellmer 1995) E. Ellmer et al., "Neural Network Technology to Support View Integration", Proc. OO-ER'95, Gold Coast 1995, Springer-Verlag.

(Li 1994) W.S. Li et al. "Semantic Integration in Heterogeneous Databases using Neural Networks", Proc. of VLDB'94, Santiago del Cile, 1994.

TEMA 4: ANALISI DELLE INFORMAZIONI ESTRATTE DAL WWW

Recentemente, il problema dell'analisi dei dati per il supporto alla decisioni e' stato largamente studiato nell'area delle basi di dati (Chaudhuri 97). Le principali tematiche affrontate sono la progettazione di data warehouse multidimensionali e lo sviluppo di linguaggi di interrogazione dei data warehouse che permettano di eseguire analisi di tipo complesso dei dati. Un aspetto comune ad entrambi gli aspetti e` la mancanza di un quadro metodologico ben consolidato in cui sia possibile affrontare la progettazione di applicazioni per l'analisi dei dati.

Per quanto riguarda la progettazione di data warehouse, e` in corso l'individuazione di modelli concettuali e logici adatti alla modellizzazione dei data warehouse, che siano in grado di descrivere gli aspetti multidimensionali che caratterizzano l'analisi dei dati. In passato si e` dedicata enfasi maggiore ai modelli logici e fisici (Agrawal 97, Lomet 90), a causa del loro ruolo primario per le prestazioni del sistema. Recentemente, al crescere della complessita` dei sistemi di data warehouse che vengono sviluppati, sta diventando evidente anche la necessita` di formalizzare la fase di progettazione concettuale dei sistemi (Gyssens 97), (McGuff 96). In particolare, in alcune recenti proposte, i modelli concettuali vengono mutuati dalla ricerca nella integrazione di basi di dati (Batini 86, Catarci 93), con l'aggiunta di opportuni costrutti per rappresentare dati aggregati, quali quelli studiati nell'ambito di basi di dati statistiche.

Una serie di problemi interessanti riguardano il livello di progettazione fisica del data warehouse, dato che nella maggior parte dei casi una parte rilevante del carico e' predefinita e quindi ben caratterizzabile. Si pensi da un lato alle applicazioni che immettono i dati nel warehouse, e dall'altro a quelle che da esso li estraggono, siano esse applicazioni OLAP lanciate periodicamente, oppure processi di estrazione verso warehouse di livello superiore. Inoltre dato il volume di dati occorre fare riferimento a piattaforme di elaborazione parallela, oggi tipicamente rappresentate da sistemi MPP con architettura shared nothing. Questo rende proponibile un approccio di progettazione fisica del warehouse che ottimizza le prestazioni in base al profilo del carico. Per impostare questo discorso si puo' fare riferimento a risultati riguardanti l'ottimizzazione di query in contesto parallelo (Graefe 93), e a risultati piu' recenti riguardo a modelli di prestazioni di sistemi paralleli per basi di dati (Salza 97).

I linguaggi di interrogazione possono essere suddivisi in due tipologie diverse a seconda del tipo di analisi eseguita: linguaggi per l'analisi di tipo multidimensionale (o OLAP) e linguaggi per data mining. I linguaggi per l'analisi multidimensionale proposti sono tipicamente estensioni di SQL, che rendano efficaci operazioni tipiche dell'analisi quali aggregazioni e classificazioni (Gray 96). In quest'ottica, un approccio piu' sistematico al problema in grado di analizzare proprieta' generali e` proposto in (Cabibbo 97).

La ricerca nel campo del data mining e` stata focalizzata prevalentemente sulla definizione di algoritmi efficienti per la risoluzione di problemi specifici, quali la classificazione di dati in gruppi disgiunti, la scoperta di associazioni, schemi ripetuti e similarita` in sequenze di dati ordinate (Agrawal 93, Fayyad 96). Quasi del tutto assente e` invece una trattazione di tipo generale del problema, che offra all'utente sia un linguaggio di tipo generale per esprimere le caratteristiche delle informazioni da estrarre, sia un insieme di strumenti efficaci e potenti per eseguire l'analisi che siano mirati alle caratteristiche dei dati da analizzare. Un approccio di tipo generale per la definizione di un ambiente di specifica e di estrazione di regole di associazione, basato sul linguaggio proposto in (Meo 96), e` descritto preliminarmente in (Baralis 97).

Riferimenti.

(Lomet 90) D. Lomet, B. Salzberg. "The Hb-Tree: a multidimensional indexing method with good guaranteed performance" ACM Trans. On Database Systems, vol. 15, n. 44, pp. 625-658, 1990.

(Gyssens 97) M. Gyssens, L.V.S. Larkshmanan. "A Foundation for Multi-Dimensional Databases". In Proc. of the 23rd VLDB Conference, Athens, Greece, 1997.

(McGuff 96) F. McGuff. "Data modeling for data warehouses". October 1996. http://members.aol.com/fmcguff/dwmodel/dwmodel.htm

(Chaudhuri 97) S. Chaudhuri, U. Dayal. "An overview of Data Warehousing, and OLAP Technology". SIGMOD Record, vol. 26, n. 1, pag. 65-74, 1997.

(Agrawal 97) R. Agrawal, A. Gupta, and S. Sarawagi. "Modeling multidimensional databases". In Thirteenth IEEE International Conference on Data Engineering, pages 232-243, 1997.

(Gray 96) J. Gray, A. Bosworth, A. Layman, and H. Pirahesh. "Data Cube: a relational aggregation operator generalizing group-by, cross-tab, and sub-totals". In Twelfth IEEE International Conference on Data Engineering, pages 152-159, 1996.

(Cabibbo 97) L. Cabibbo, R. Torlone. "Querying Multidimensional Databases". In Sixth International Workshop on Database Programming Languages (DBPL6), Lecture Notes in Computer Science, Springer--Verlag, 1997.

(Atzeni 97) P. Atzeni, R. Torlone. "MDM: A Multiple-Data-Model Tool for the Management of Heterogeneous Database Schemes". In ACM SIGMOD International Conference on Management of Data, Tucson, Arizona, pag. 528-531, 1997.

(Castano 97a) S. Castano, V. De Antonellis "Semantic Dictionary Design for Database Interoperability" in Proc. IEEE Int. Conf. on Data Engineering, ICDE'97, Birmingham, 1997

(Castano 97b) S. Castano, V. De Antonellis "A multi-perspective framework for the analysis of legacy information systems". in Proc. Int. Conf. on Advanced Information Systems Engineering, CAiSE'97, Barcelona, 1997

(Lamperti 97) G. Lamperti, P. Pogliano. "Event-based reasoning for short circuit diagnosis in power transmission networks" In Proceedings of the Fifteenth International Joint Conference on Artificial Intelligence - IJCAI-97, Nagoya, Japan, 23-29 August, 1997.

(Baroni 97) P. Baroni, G. Lamperti, P. Pogliano, G. Tornielli, M. Zanella. "Automata-based reasoning for short circuit diagnosis in power transmission networks". In Proceedings of the Twelfth International Conference on Applications of Artificial Intelligence in Engineering - AIENG'97, Capri, Italy, 7-9 July, 1997.

(Bellavia 95) G. Bellavia, D. Maio, S. Rizzi. "An SQL extension supporting user viewpoints". Proceedings of the 6th International Conference on Database and Expert Systems Applications, Londra, pp. 334-343, settembre 1995.

(Benzi 96) F. Benzi, D. Maio, S. Rizzi. "Visionary: a visual query language based on the user viewpoint approach". Proceedings of the Third International Workshop on Interfaces to Databases, Edimburgo, luglio 1996.

(Agrawal 93) R. Agrawal, T. Imielinsky, A. Swami. "Database Mining: A Performance Perspective" IEEE Transaction on Knowledge and Data Engineering, 1993.

(Fayyad 96) U. Fayyad, G. Piatetsky-Shapiro, P. Smith. "From Data Mining to Knowledge Discovery: an Overview, In Advances in Knowledge Discovery and Data Mining" U. Fayyad, G. Piatetsky-Shapiro, P. Smith, and R. Uthurusamy Eds, AAAI/MIT Press, Cambridge, Mass., 1996

(Meo 96) R. Meo, G. Psaila, S. Ceri "A New SQL-like Operator for Mining Association Rules" 22nd International Conference on Very Large Data Bases, 3-6 Settembre, 1996, Bombay, INDIA.

(Baralis 97) E. Baralis, S. Ceri, R. Meo, G. Psaila, M. Richeldi, P.Risimini, "AMORE: an Integrated Environment for Database Mining" Convegno sui Sistemi Evoluti di Basi Dati, 25-28 Giugno, 1997, Verona, Italia.

(Batini 86) C. Batini, M. Lenzerini, S. Navathe. "A Comparative Analysis of Methodologies for Database Schema Integration". ACM Computing Surveys Vol. 18, N. 4, 1986.

(Catarci 93) T. Catarci, M. Lenzerini. "Representing and Using Interschema Knowledge in Cooperative Information Systems". Journal of Intelligent and Cooperative Information Systems, Vol.2, N.4, 1993.

(Graefe 93) G. Graefe. "Query evaluation techniques for large databases". ACM Computing Surveys, 25(2):73--170, 1993.

(Salza 97) S. Salza, M. Renzetti. "A Modeling Tool for Workload Analysis and Performance Tuning of Parallel Database Applications". Proc. ADBIS'97, St. Petersburg, Sept. 1997.

TEMA 5: VISUALIZZAZIONE DI INFORMAZIONI PROVENIENTI DAL WWW

L' importanza dell'accesso a grandi quantita' di dati e' direttamente proporzionale alla capacita' di estrarre da essi informazioni utili. L'utente che dopo una ricerca sul WWW ha ritrovato certi dati deve essere messo in grado di scoprire facilmente la presenza o meno di fenomeni rilevanti, che meritino di essere approfonditi con ulteriori elaborazioni ed accesso ad altre fonti. Un limite dei sistemi di analisi dati esistenti e' proprio la loro scarsa apertura verso l'utente, che non ha modo di guidare ed indirizzare il processo di analisi in maniera interattiva, ma lo subisce passivamente. Un ulteriore problema e' rappresentato dalla mancanza di un ambiente unico, in cui diverse tecniche di analisi siano integrate in maniera efficace e facilmente comprensibile. Recenti ricerche mostrano che, dal punto di vista dell'utente, la tecnica piu' efficace per individuare particolarita' rilevanti o fenomeni interessanti nella distribuzione di grandi quantita' di dati e' la visualizzazione. In particolare, e' fondamentale disporre di vari tipi di visualizzazioni, che permettano di esaminare lo stesso insieme di dati da differenti angolazioni, evidenziando diverse caratteristiche. I bisogni degli utenti e i loro desideri devono essere sempre tenuti presenti nello sviluppo di sistemi e siti per il Web. Gli approcci scelti devono consentire agli utenti di interagire in modo semplice ed efficiente.

L'interazione con l'informazione sul Web parte usualmente con una navigazione (browsing) o una ricerca piu' specifica (searching), continua poi con la selezione e l'assimilazione dell'informazione, termina con la generazione di nuova informazione, e ricomincia nuovamente. Per rendere piu' efficace il processo di ritrovamento e di assimilazione bisogna rappresentare le informazioni in una forma adatta alle capacita' percettive (soprattutto visuali) degli utenti e ai requisiti specifici del problema. E' quindi necessario identificare appropriate forme di visualizzazione, e produrre utili line guida per il progetto di pagine WWW. Navigare (browsing) lungo la rete significa andare da un documento a un altro seguendo i collegamenti (hyperlink) tra essi. Talvolta il viaggio e' piu' importante del raggiungimento della destinazione, nel senso che l'utente ottiene informazione utile semplicemente esplorando l'iperspazio. Ovviamente gli utenti vogliono sapere ogni momento dove sono e come sono arrivati la', altrimenti si possono sentire disorientati e confusi. Una soluzione a tale problema consiste nel fornire una vista globale dello spazio dell'informazione che essi hanno attraversato. La disponibilta' di queste viste globali favorisce la percezione e la comprensione. L'unita' di Bari, insieme all'unita' di Roma "La Sapienza", si propone di effettuare un'analisi approfondita di tecniche di rappresentazione visuali idonee sia per viste globali dei dati che per viste di dettaglio alle quali i vari utenti possono essere interessati.

Il problema della generazione di visualizzazioni significative per l'utente e' particolarmente sentito, come dimostrano le numerose pubblicazioni disponibili in letteratura. Per citare i contributi piu' recenti, basta riferirsi ai lavori (Tweedie 97, Pitkow 97), e ai riferimenti in essi contenuti. Tutorials e special issues sull'argomento sono stati presentati in congressi e riviste importanti (si veda ad esempio (Card 97, Gershon 96, Catarci 96)). In particolare, i due gruppi proponenti la ricerca vantano anni di esperienza nell'uso di tecniche di visualizzazione in interfacce per basi di dati, e buona parte di tale ricerca e' stata svolta in collaborazione (Catarci 93, Santucci 94, Catarci 95a, Catarci 95b, Catarci 96a, Catarci 96b, Santucci 96, Catarci 97). La ricerca proposta e' dunque la naturale evoluzione di ricerche in corso, estendendo gli studi sulle interfacce visuali per basi di dati a interfacce per il WWW. Tiziana Catarci, Maria Francesca Costabile e Giuseppe Santucci sono promotori, organizzatori e curatori degli atti dei workshops internationali su Advanced Visual Interfaces, che si tengono ogni due anni a partire dal 1992 (AVI 92, AVI 94, AVI 96). Hanno inoltre lavorato nel Working Group della CEE dal titolo "Foundamentals of 3D Visualizations".

Riferimenti:

(Tweedie 97) L. Tweedie. "Characterizing Interactive Externalizations", Proc. CHI'97, Atlanta, 22-27 March 1997, ACM Press, (375-382).

(Pitkow 97) J. Pitkow, P. Pirolli. "Life, Death, and Lawfulness on the Electronic Frontier", Proc. CHI'97, Atlanta, 22-27 March 1997, ACM Press, (383-390).

(Card 97) S. Card, S. G. Eick, N. Gershon: "Information Visualization", Tutorial n.30 presented at CHI'97, Atlanta, 22-27 March 1997.

(Gershon 96) N. Gershon, J. R. Brown: "Special Report on Computer Graphics and Visualizations in the Global Information Infrastructure", IEEE Computer Graphics and Applications, vol. 16, 1996, (60-75).

(Catarci 96) T. Catarci, I. F. Cruz (Eds.): "Special Issue on Information Visualization", ACM SIGMOD Record, Vol. 25, N. 4, 1996.

(Catarci 93) T. Catarci, S-K Chang, M. F. Costabile, S. Levialdi, G. Santucci: "A Multiparadigmatic Visual Environment for Adaptive Access to Databases", Proceedings Conference on Human Factors in Computing Systems, INTERCHI'93, Amsterdam, Aprile 1993, ACM Press, (7-8).

(Santucci 94) G. Santucci, F. Palmisano: "A Dynamic Form Based Data Viewer for Semantic Query Languages", Proceedings 2nd International Workshop on User Interfaces to Databases, Luglio 1994.

(Catarci 95a) T. Catarci, M.F. Costabile (eds.):"Special Issue on Visual Query Systems",Journal of Visual Languages and Computing , Vol. 6, N. 1, 1995.

(Catarci 95b) T. Catarci, M.F. Costabile, M. Matera: "Visual Metaphors for Interacting with Databases", ACM-SIGCHI Boulletin, Vol. 27, N. 2, 1995, (15-17).

(Catarci 96a) T Catarci, S-K Chang, M.F. Costabile, S. Levialdi e G. Santucci: "A Graph-based Framework for Multiparadigmatic Visual Access to Databases", IEEE Transactions on Knowledge and Data Engineering, Vol. 8, N. 3, 1996, (455-475).

(Catarci 96b) T. Catarci, M.F. Costabile: "Special Issue on Visual Query Systems - II Part", Journal of Visual Languages and Computing , Vol. 7, N. 3, 1996.

(Santucci 96) G. Santucci, L. Tarantino: "To Table or not to Table: a Hypertabular Answer", Special Issue on Information Visualization, ACM SIGMOD Record, Vol. 25, N. 4, 1996.

(Catarci 97) T. Catarci, M.F. Costabile, S. Levialdi, C. Batini: "Visual Query Systems for Databases: A Survey", Journal of Visual Languages and Computing, Vol 8, n. 2, 1997, (215-260).

(AVI 92) T. Catarci, M. F. Costabile, S. Levialdi (Eds.): Advanced Visual Interfaces, World Scientific Publishing House, Singapore, 1992.

(AVI 94) T. Catarci, M. F. Costabile, S. Levialdi, G. Santucci (Editors): Advanced Visual Interfaces AVI'94, ACM Press, New York, 1994.

(AVI 96) T. Catarci, M. F. Costabile, S. Levialdi , G. Santucci (Editors): Advanced Visual Interfaces AVI'96, ACM Press, New York, 1996.

TEMA 6: METODOLOGIE DI PROGETTAZIONE DI SITI WWW

Varie metodologie (Garzotto 1993, Isakowitz 1995, Garzotto 1996) sono state recentemente presentate nel contesto della progettazione di applicazioni ipermediali. Queste metodologie tendono a dividere l'attivita' di progettazione in una serie di fasi specifiche: progetto concettuale dei dati, progetto della navigazione e progetto dell'interfaccia. Parallelamente, sono state presentate metodologie di progettazione di basi di dati evolute, che integrano al loro interno oggetti e regole, e sono quindi capaci di offrire ai loro utenti una visione molto ricca e articolata delle conoscenze relative alle applicazioni (Ceri 1997).

L'obiettivo della ricerca e' quello di estendere queste metodologie in varie direzioni. Per cominciare, con la definizione di opportuni modelli per la descrizione concettuale e logica di ipertesti Web, nello spirito delle metodologie di progetto per basi di dati (Atzeni 1996). Tali modelli verranno usati per descrivere l'organizzazione delle informazioni nel sito. Contemporaneamente, la metodologia dovra' consentire di progettare anche la base di dati in cui le informazioni contenute nel sito saranno conservate, e sara' supportata dall'utilizzo di opportuni strumenti per la generazione automatica delle pagine HTML. Sara' possibile progettare basi di dati ricche sul piano semantico, tramite la presenza di oggetti e regole deduttive o di produzione, per poi usare queste caratteristiche per realizzare funzionalita' innovative del Web (in particolare, affrontando la problematica dei cosiddetti ``Web intelligenti''). Enfasi particolare verra' rivolta alla fase di studio di fattibilita', per individuare le differenze ed analogie fra sistemi informativi tradizionali e quelli basati sul paradigma Internet/intranet (Bernard 1996).

In questo contesto, e' stata avviata la definizione delle funzionalita' di uno strumento per la generazione automatica delle pagine a partire da una base di dati - il sistema Penelope, (Atzeni 1997), e la progettazione e realizzazione iniziale di AutoWeb (1996-1997), un sistema per la definizione congiunta di siti Web e basi di dati, che verra' sviluppato nel corso del progetto. E' stato inoltre iniziato lo studio dei criteri metodologici per il progetto di siti distribuiti (Poncia 1997), anche con riferimento al contesto intranet .

Per quanto riguarda le basi di dati temporali (Tansel 1993), che rappresentano un campo di ricerca nel cui ambito e' stata ad oggi sviluppata un'ampia infrastruttura per la gestione di informazione tempo-variante (modelli dei dati, linguaggi di interrogazione, indici, ecc.), l'interesse e' stato finora focalizzato su dati ben strutturati (relazionali e o-o), mentre sono stati scarsamente studiati dati testuali o documenti multimediali non strutturati. A questo proposito, in ambito Web, esiste una riconosciuta esigenza di poter gestire versioni di documenti in un contesto di "authoring" distribuito (Slein, 1997), e la necessita' d'uso di un asse dei tempi in dati multimediali. A questo proposito, l'unita' proponente ha maturato negli anni una forte competenza (ad ampio spettro) nel settore, collaborando anche ad importanti iniziative internazionali (Jensen 1994, Snodgrass 1995).

Riferimenti

(Atzeni 1996) P. Atzeni, S. Ceri, S. Paraboschi, R. Torlone. "Basi di Dati" Mc-Graw Hill, 1996.

(Atzeni 1997) P. Atzeni, G. Mecca, P. Merialdo. "To Weave the Web", In Proceedings of the 23rd International Conference on Very Large Databases (VLDB'97), 1997.

(Bernard 1996) R. Bernard. "The Corporate Intranet", Wiley, 1996.

(Ceri 1997) S. Ceri, P. Fraternali. "Designing Database Applications with Objects and rules: the IDEA Methodology", (579pp), Addison-Wesley Longman, April 1997.

(Garzotto 1993) F. Garzotto, P. Paolini, D. Schwabe. "HDM -- A model based approach to hypertext application design", ACM Transactions on Information Systems, January 1993.

(Garzotto 1996) F. Garzotto, S. Fraisse, M. Nanard, T. Isakowitz (eds.) "Hypermedia Design", Springer-Verlag, 1996.

(Isakowitz 1995) T. Isakowits, E. Stohr, P. Balasubramanian. "RMM: A methodology for structured hypermedia design", Communications of the ACM, August 1995.

(Jensen 1994) C.S. Jensen, J. Clifford, R. Elmasri, S.K. Gadia, P. Hayes, S. Jajodia (eds.), C. Dyreson, F. Grandi, W. Kaefer, N. Kline, N. Lorentzos, Y. Mitsopoulos, A. Montanari, D. Nonen, E. Peressi, B. Pernici, J.F. Roddick, N.L. Sarda, M.R. Scalas, A. Segev, R.T. Snodgrass, M.D. Soo, A. Tansel, P. Tiberio, G. Wiederhold. "A Consensus Glossary of Temporal Database Concepts", ACM SIGMOD Record, Vol. 23, N. 1, 1994.

(Poncia 1997) G. Poncia, B. Pernici. "A methodology for the design of distributed Web systems", In International Conference on Advanced Information Systems Engineering (CAiSE'97), 1997.

(Slein 1997) J.A. Slein, F. Vitali, E.J. Whitehead, D.G. Durand. "Requirements for Distributed Authoring and Versioning on the World Wide Web", ACM Standard View, 1997 (to appear).

(Snodgrass 1995) R.T. Snodgrass (ed.), I. Ahn, G. Ariav, D. Batory, J. Clifford, C.E. Dyreson, R. Elmasri, F. Grandi, C.S. Jensen, W. Kaefer, N. Kline, K. Kulkarni, T.Y. Cliff Leung, N. Lorentzos, R. Ramakrishnan, J.F. Roddick, A. Segev, M.D. Soo, S.M. Sripada. "The TSQL2 Temporal Query Language", Kluwer Academic Publishers, Boston, Massachussets, 1995.

(Tansel 1993) A. Tansel, J. Clifford, V. Gadia, S. Jajodia, A. Segev, R.T. Snodgrass (eds.). "Temporal Databases: Theory, Design and Implementation", Benjamin/Cummings Publishing Company, Redwood City, California, 1993.

TEMA 7: SICUREZZA E CONTROLLO DEGLI ACCESSI IN SITI WWW

Il rapido diffondersi dell'uso di WWW come strumento di distribuzione e condivisione di informazioni in numerose organizzazioni, sia in ambito industriale che amministrativo e sociale, ha reso la sicurezza un problema cruciale. Applicazioni quali applicazioni EDI (Electronic Data Interchange) e commercio elettronico stanno rendendo ancora piu' pressante il problema della sicurezza.

Un approccio sistematico al problema della sicurezza in WEB implica l'adozione di diverse misure che includono crittografia dei dati trasmessi tramite rete, tecniche di autenticazione e certificazione delle entita' coinvolte in uno scambio di informazioni tramite rete, meccanismi di controllo degli accessi per pemettere accessi selettivi a pagine WWW. Mentre, tuttavia, le problematiche relative alla crittografia, autenticazione e certificazione sono state investigate a fondo e sono state recentemente estese per uso in ambito WWW (Anderson 95, Lampson 93, Neuman 94), le problematiche relative al controllo degli accessi in questo ambito sono state scarsamente investigate.

Gli approcci proposti in genere hanno scarsa flessibilita', in quanto non supportano autorizzazioni a diversi livelli di granularita' e non permettono la revoca on-line delle autorizzazioni (Kahan 95). Un modello che invece supporta diversi livelli di granularita' e' stato recentemente proposto (Samarati 96); tuttavia questo modello non supporta la revoca off-line, mentre e' importante supportare sia revoca on-line che off-line. Questo modello inoltre non supporta una serie di funzionalita' che includono autorizzazioni temporali, meccanismi di credenziali, e tecniche per l'anonimita' negli accessi. E' infine importante puntualizzare che il problema del controllo degli accessi e' stato ampiamente investigato nell'ambito dei sistemi operativi e dei sistemi di basi di dati (Castano 95); gli approcci proposti in questi ambiti sono tuttavia non direttamente utilizzabili in ambito WWW.

Riferimenti

(Anderson 95) Anderson S., Garvin R. "Sessioneer: flexible session level authentication with off the shelf servers and clients", Proc. 3rd WWW Conf., Apr. 1995, pp.1047--1053, http:// www.igd.fhg.de/www/www95/papers/77/sessioneer2.html.

(Lampson 93) Lampson B.W. "Authentication in Distributed Systems", Distributed Systems, S. Mullender ed., Addison-Wesley, 1993. (Neuman 94) Neuman B.C., Ts'o T. "Kerberos: an Authentication Service for Computer Networks", IEEE Communications, Vol. 32, No. 9, Sep. 1994.

(Kahan 95) Kahan J. "A Distributed Authorization Model for WWW", Proc. INET'95 Conf., May 1995, http://www.isoc.org/HMP/PAPER/107.

(Samarati 96) Samarati P., Bertino E., Jajodia S. "An Authorization Model for a Distributed Hypertext System", IEEE Transactions on Knowledge and Data Engineering, Vol.8, No.4, Aug. 1996.

(Castano 95) Castano S., Fugini M.G., Martella G., Samarati P., "Database Security", Addison-Wesley, 1995.



10. Descrizione del Programma di Ricerca:

Fase 1:
Durata mesi: 6   Costo previsto: 593,10 (milioni)

Descrizione:

TEMA 1: APPLICAZIONI PER BASI DI DATI SU INTERNET E INTRANET

Nello sviluppo di modelli di gestione di basi di dati in grado di supportare in modo consistente le transazioni distribuite sui diversi nodi di una rete Internet o Intranet, le metodologie da seguire dipendono fortemente dall'area applicativa e dai relativi vincoli di consistenza.

In particolare si studiera' come integrare in un unico Data Base Distribuito una collezione di Data Base locali eterogenei, distribuiti in una rete di ampie dimensioni, utilizzando il paradigma degli agenti mobili e verranno affrontate le problematiche di gestione di Basi di Dati Real-Time Distribuite su Intranet: la ricerca mira alla specifica di un Data Base Repository distribuito in grado di coordinare e gestire le attivita' di singoli Management Information Base distribuiti su un'Intranet.

La ricerca nell'ambito PA riguardera' lo sviluppo di modelli per la rappresentazione delle procedure amministrative basati su viste differenti della realta' in esame (tramite cui analizzare il flusso di controllo, la struttura, l'organizzazione e le risorse. Si studieranno quindi le modalita' di realizzazione di Intranet per Enti della PA, e le modalita' di collegamento fra queste Intranet per fornire l'accesso a cittadini, enti e imprese a un insieme di servizi integrati sul territorio (per esempio servizi di Anagrafi Integrate). Verranno inoltre studiate problematiche relative alla distribuzione dei dati in piu' siti in questo contesto. Nell'ambito della formazione, si studieranno le problematiche relative alla realizzazione di un supporto formativo per la PA basato su basi di dati e interfacciato su Web.

Verra' effettuata una analisi preliminare delle caratteristiche comuni ai servizi DBMS in rete, definizione del ruolo dei vari sistemi coinvolti (WEB server, DBMS server, WEB client, programmi applicativi) e definizione dell'architettura di un sistema per la creazione e l'esecuzione di servizi DBMS in rete.

Per quanto riguarda l'integrazione di basi di dati locali, obiettivo del primo anno e' studiare una metodologia per l'integrazione di una collezione di Data Base locali eterogenei (sia relazionali che object oriented), distribuiti in rete, in un unico Data Base Distribuito. Prevediamo a tal fine di sviluppare una metodologia di progetto object-oriented, basata su una architettura ad agenti mobili, capace di gestire un nuovo modello di transazioni distribuite non piu' basato su Remote Procedure Call e su uno schema rigidamente client/server. In particolare nel primo semestre verranno studiate le problematiche relative all'integrazione di Basi di Dati eterogenee e le modalita' di utilizzo degli agenti mobili per la progettazione in ambiente distribuito. Relativamente alla gestione di basidi dai real-time su Internet, nel primo anno studieremo un'architettura ed un ambiente operativo tali da supportare transazioni real-time distribuite in ambiente Intranet, rispettandone i vincoli di consistenza spaziale, logica e temporale. In particolare nel primo semestre intendiamo studiare come i vincoli di un'applicazione real-time si traducano in vincoli sui dati e sulle transazioni del Data Base real-time distribuito che la supporta.

Nel primo anno verra' inoltre studiato l'adattamento del paradigma collaborativo del modello ad agenti alla esecuzione di transazioni distribuite in una rete di data base eterogenei.

TEMA 2: ESTRAZIONE DI INFORMAZIONI DISTRIBUITE SUL WWW

La prima fase sara` inizialmente dedicata all'approfondimento dello studio di modelli per la descrizione dell'organizzazione dei dati sul Web, a partire da una revisione critica dei sistemi noti in letteratura (ad es. WebSQL, W3QS e UnQL). Il lavoro proseguira` quindi in termini propositivi, mirando alla definizione di strumenti adeguati a catturare il contenuto informativo dei documenti Web. Cio` sara` attuato seguendo direzioni tra loro complementari e sinergiche, come evidenziato anche al punto 8, al fine di fornire un contributo adeguato in funzione della specifica tipologia dei documenti considerati. Nel caso di documenti 'ben strutturati' si procedera` alla definizione di opportuni strumenti per la scrittura di 'wrapper', i quali hanno lo scopo di permettere una visione uniforme dei documenti, aderente al modello dei dati di riferimento. Per il linguaggio WG-log si definiranno le architetture dello 'Schema Robot' e del 'Query Manager'. Il primo e` un programma che gestisce lo schema di un sito con struttura nota e fornisce un'interfaccia basata su parole chiave che caratterizzano il sito stesso. Il secondo e' un modulo di gestione delle interrogazioni, residente sul sito interessato, che elabora query visuali.

Nel caso di assenza di omogeneita` nella struttura si sviluppera` un modello dei dati di riferimento per lo sviluppo di un sistema (WaDer) che permetta la definizione e la conseguente gestione di 'viste' su Web, e delle relazioni semantiche tra tali viste e informazione localmente residente e organizzata in un database. Sara' poi definito un linguaggio di interrogazione non procedurale basato su tale modello. Aspetti legati alla valutazione non-deterministica delle interrogazioni, in questa fase riguarderanno l'analisi di vari costrutti non-deterministici proposti in letteratura quali, ad esempio, il costrutto 'Witness' ed il costrutto 'Choice'. Nel caso di documenti di grandi dimensioni, si definira` una metodologia basata su tecniche di estrazione di frammenti, aventi un contenuto informativo omogeneo e dimensione 'ottimale', allo scopo di ridurre il 'rumore' rappresentato dalla massa di informazioni non pertinenti contenute nei documenti di grande dimensione. Nel caso di informazioni multimediali, si intende infine studiare la possibilita' di utilizzare i mondi virtuali per un accesso efficace al WWW.

TEMA 3: INTEGRAZIONE DI INFORMAZIONI ESTRATTE DA SITI WWW

Obiettivi del primo semestre sono lo studio delle proposte presenti in letteratura e la definizione preliminare di modelli e criteri per l'estrazione e l'integrazione di informazioni eterogenee accessibili da WWW. In particolare, a partire dall'analisi delle soluzioni di estrazione/integrazione di dati strutturati presenti in letteratura, verranno intraprese le seguenti attivita':

1. Definizione preliminare delle possibili estensioni del modello di estrazione/integrazione sviluppato in ambito basi di dati, per poter considerare informazioni semi-strutturate.

2. Analisi delle possibili estensioni della logica descrittiva OLCD (Object Languages with Complements allowing Descriptive cycles) per rispondere alle problematiche di estrazione/integrazione.

3. Definizione di metadati idonei ad esprimere le peculiarita' di dataset spaziali disponibili sui siti WWW, per facilitare la selezione del dataset piu' appropriato per le operazioni di analisi spaziale d'interesse.

4. Analisi di metodi formali derivati dall'area dell'elaborazione del linguaggio naturale, per l'analisi delle proprieta' dei dati a fini di integrazione.

TEMA 4: ANALISI DELLE INFORMAZIONI ESTRATTE DAL WWW

Obiettivo di questa fase e` lo studio delle proposte presenti in letteratura e la definizione preliminare di un modello dei dati e di linguaggi di analisi per le informazioni estratte dal Web.

Partendo dall'analisi di quanto gia' esistente in letteratura si intende individuare quali siano le informazioni rilevanti ai fini della progettazione di un data warehouse. Sulla base di quanto identificato si vogliono poi definire, in forma preliminare, i concetti che devono essere inseriti nel progetto concettuale, la sintassi e i simboli grafici che permettano di descrivere in modo efficiente i suddetti concetti.

Si studieranno i modelli utilizzati a livello logico per la rappresentazione dei dati in un data warehouse. Si definira` un formalismo che consenta sia la descrizione dei dati sia la rappresentazione della corrispondenza tra dati e sorgenti informative. Si proporranno modelli per la caratterizzazione del carico di un data warehouse su piattaforma parallela.

Si intendono studiare le proposte esistenti di linguaggi di manipolazione per data warehouse. Si definira` un modello logico per rappresentare aspetti dimensionionali di un data warehouse su Web. Su questo modello sara` definito un linguaggio astratto per l'analisi dei dati.

Si esamineranno e classificheranno le diverse tipologie di metodi di estrazione di conoscenza e si studieranno le proposte di linguaggi per l'estrazione di conoscenza da basi di dati presenti in letteratura. Si definira` un modello logico per i dati estratti dal Web, che sara` usato come riferimento per la definizione di un linguaggio di tipo generale per l'estrazione di conoscenza.

Si affronteranno in modo approfondito gli approcci al problema generale di estrazione ed analisi di conoscenza e di viste di informazioni eterogenee, sviluppati da altri gruppi di ricerca in ambito internazionale. Si dara` una definizione preliminare di criteri e metodi per l'estrazione/analisi, basati su tecniche di clustering e knowledge discovery.

TEMA 5: VISUALIZZAZIONE DI INFORMAZIONI PROVENIENTI DAL WWW

Il progetto di ricerca prevede una iniziale attivita' di approfondimento dello stato dell'arte nel settore della visualizzazione di grandi quantita' di dati. L'attivita' di analisi verra condotta ponendo particolare attenzione alla possibilita' di specializzare gli approcci proposti ad applicazioni su WWW. Successivamente, sulla base di quanto ottenuto verranno analizzati e definiti, in forma preliminare, alcuni modelli possibili per la definizione formale delle strutture di visualizzazione che verranno utilizzate nell'analisi visuale di grandi quantita' di dati. I modelli in questione dovranno, inoltre, prevedere sia la possibilita' di descrivere i meccanismi con cui implementare l'adattabilita' dell'interfaccia utente sia permettere la definizione formale del dialogo con l'utente stesso.

TEMA 6: METODOLOGIE DI PROGETTAZIONE DI SITI WWW

Nel corso del primo semestre, verranno definiti i modelli di dati (concettuale e logico) per la descrizione di siti Web; l'utilizzo di modelli del genere consentira' di progettare lo schema di un sito, mettendo in evidenza elementi di regolarita' assai utili nell'interazione, quali, ad esempio, tipologie di pagine Web e relazioni logiche e collegamenti tra tipi di pagine. Sulla base di questi modelli, verra' sviluppata una metodologia di progettazione integrata fra Web e basi di dati; la metodologia avra' l'obiettivo di produrre siti con struttura regolare, in modo da migliorare l'interazione dell'utente con il sito, e facilitare l'attivita' di manutenzione da parte del progettista. La metodologia definita verra' infine sperimentata nel progetto di siti Web reali.

Verra' inoltre studiata l'applicabilita' delle tecniche sviluppate al contesto intranet. Lo studio si basera', dal punto di vista teorico, sull'individuazione delle differenze ed analogie fra sistemi informativi (intra)aziendali tradizionali e quelli basati sul paradigma intranet/internet, e, dal punto di vista empirico, sull'individuazione e analisi di opportunita', problemi incontrati e soluzioni adottate dalle aziende nel costituire siti e sistemi informativi tipo Intranet, al fine di definire tipologie e valutare la generalizzabilita' di opportunita'/problemi/soluzioni.

Per quanto riguarda l'introduzione di funzionalita' temporali, verra' avviato lo studio dell'integrazione della dimensione del tempo di transazione - che concerne l'evoluzione dei dati all'interno del sistema di gestione - nelle funzionalita' del Web. Questo consentira' la gestione, in maniera automatica e trasparente all'utente, di versioni successive di risorse Web cosi' come prodotte da modifiche e ristrutturazioni. Verranno studiati gli aspetti teorici di tale integrazione, inclusa l'estensione temporale dei protocolli di negoziazione in uso (HTTP).

TEMA 7: SICUREZZA E CONTROLLO DEGLI ACCESSI IN SITI WWW

La prima fase prevede per questo tema:

1. la definizione del modello di autorizzazione a pagine WWW con le seguenti caratteristiche: meccanismi di revoca on-line e off-line; domini logici di autorizzazione;

2. la definizione dell'architettura di un meccanismo di controllo degli accessi basato sul modello precedente.


Risultati parziali attesi:

TEMA 1

- articoli: almeno due rapporti su moduli, linguaggi per il WEB, tipizzazione di oggetti con ruoli senza tipi generativi;

- rapporto sui requisiti di applicazioni per la PA su una rete Intranet sui temi integrazione di basi di dati, distribuzione dei dati, preparazione e distribuzione di materiale per la formazione;

- Classificazione delle metodologie e tecniche di supporto alla mobilita' del codice;

- Definizione di paradigmi e frameworks per la progettazione di applicazioni network centric;

- rapporto tecnico sullo stato dell'arte riguardo all'accesso a basi di dati in rete goegrafica;

- rapporto tecnico sull'architettura di un sistema per la creazione e l'esecuzione di servizi DBMS in rete;

- rapporto tecnico: studio di una metodologia ad agenti mobili per l'integrazione di basi di dati eterogenee in Internet;

- rapporto tecnico: analisi della problematica delle transazioni real-time distribuite ed identificazione dei loro vincoli di consistenza spaziale, logica e temporale;

- rapprto tecnico: modello ad agenti alla esecuzione di transazioni distribuite in una rete di data base eterogenei.

TEMA 2

- rapporto contenente la descrizione del modello di dati per siti strutturati;

- rapporto contenente la sintassi e la semantica del linguaggio per la scrittura dei wrapper;

- rapporto sulla metodologia per l'estrazione di frammenti da documenti di grandi dimensioni;

- rapporto contenente l'analisi dei linguaggi di interrogazione per il WWW;

- rapporto sulla prima versione del modello dei dati e del linguaggio di interrogazione di WaDer;

- rapporto con la definizione del lessico, della sintassi e della semantica del linguaggio WG-log;

- rapporto sulla definizione della struttura degli Schema Robot e del Query Manager;

- rapporto sull'analisi delle tecniche di rappresentazione di dati multimediali attraverso la metafora dei mondi virtuali.

TEMA 3

Per ciascuna delle attivita' indicate nella descrizione della fase per questo tema verra' prodotto un Rapporto Tecnico sullo stato dell'arte analizzato con indicazione di soluzioni preliminari alle problematiche di interesse.

TEMA 4

- rapporto tecnico che descriva i concetti che devono essere inseriti nel progetto concettuale, la sintassi e i simboli grafici che permettano di descrivere in modo efficiente i suddetti concetti;

- documento sullo stato dell'arte nel settore del data warehousing, contenente anche una proposta preliminare per un contesto di datawarehose distribuita accessibile da Web;

- rapporto tecnico che descriva lo stato dell'arte per i linguaggi di manipolazione per data warehouse;

- rapporto tecnico che descriva il modello logico di riferimento per i dati estratti da Web;

- rapporto tecnico che descriva le diverse tipologie di metodi di estrazione di conoscenza;

- Rapporto tecnico sullo stato dell'arte analizzato con indicazione preliminare di soluzioni proposte alle problematiche di interesse.

TEMA 5

- documento sullo stato dell'arte sulla visualizzazione di grandi quantita' di dati e sui problemi di usabilita' di sistemi informativi su rete;

- documento contenente una prima descrizione dei modelli formali che verranno utilizzati per gestire la visualizzazione e l'interazione con l'utente.

TEMA 6

- documento di descrizione dei modelli di dati;

- documento di descrizione della metodologia di progetto di siti Web;

- sperimentazione della metodologia nel progetto di siti in vari settori;

- algoritmi di gestione di versioni temporali;

- documento di descrizione di protocolli estesi con funzionalita' temporali.

TEMA 7

- un rapporto tecnico che descrive il modello di autorizzazione;

- un rapporto tecnico con la specifica dell'architettura del sistema di controllo degli accessi.


Unita' di ricerca impegnate:
Tutte quelle coinvolte nel progetto

Fase 2:
Durata mesi: 6   Costo previsto: 593,10 (milioni)

Descrizione:

TEMA 1: APPLICAZIONI PER BASI DI DATI SU INTERNET E INTRANET

Nel secondo semestre i risultati del primo semestre saranno la base per specificare alcuni prototipi di applicazioni su basi di dati per Internet e Intranet. Nell'ambito della ricerca su sistemi per le Pubbliche Amministrazioni, si intende sviluppare un primo prototipo per la simulazione di un processo amministrativo, e verranno specificate le caratteristiche delle strutture di comunicazione con gli Enti integrati, secondo le definizioni dell'architettura della rete Unitaria progettata dall'AIPA, che prevede la definizione di porte delegate e porte applicative sulla rete.

Nell'ambito della ricerca sui linguaggi per applicazioni di basi di dati per Internet e Intranet, si realizzera' un primo prototipo dei meccanismi di comunicazione.

Per la ricerca sull'integrazione di Basi di Eterogenee, la metodologia sviluppata nel primo semestre viene applicata per specificare un modello transazionale ad agenti mobili.

Nell'ambito della ricerca su Basi di Dati real-time distribuite, vengono delineati i moduli funzionali di un'architettura per la gestione di transazioni real-time distribuite. A tal fine si intende seguire un approccio object-oriented coerente con lo standard CORBA.

TEMA 2: ESTRAZIONE DI INFORMAZIONI DISTRIBUITE SUL WWW

Durante la seconda fase del progetto, oltre al proseguimento dell'attivita` di ricerca su aspetti teorici, sara` avviato lo studio di soluzioni architetturali software e si svilupperanno le prime implementazioni prototipali, allo scopo di avere un riscontro immediato della bonta` delle soluzioni adottate e poter proseguire nelle fasi successive con dei riferimenti precisi anche a livello sistemistico. In particolare, il linguaggio per la scrittura dei wrapper verra` implementato, e quindi si definira` sintassi e semantica del linguaggio di interrogazione che opera su tali wrapper. In questa fase verra` anche definita l'architettura del prototipo di sistema per tale linguaggio. Si definira` inoltre l'architettura generale del sistema basato su WG-log, e si produrra` un primo prototipo di tale sistema. Si studieranno le query 'interessanti', cioe` quelle piu` frequenti, per poter progettare algoritmi di accesso piu' efficaci per questi particolari tipi di query.

Nel contesto non-strutturato, si definira` l'architettura software per un sistema in grado di supportare interrogazioni che correlino il contenuto dei documenti WWW con dati localmente residenti, e si realizzera` un primo prototipo del sistema. Lo studio sugli aspetti di non-determinismo, in questa fase si concretizzera` nella definizione di un linguaggio di interrogazione e nella progettazione di un sistema prototipale che supporti tale linguaggio. Nel caso di documenti 'frammentati', come descritto nella fase 1, si studieranno nuovi metodi di costruzione automatica di basi di dati ipertestuali (in cui i nodi sono documenti o frammenti tra loro collegati mediante dei 'link' che evidenziano le relazioni semantiche esistenti tra i contenuti informativi) e si sviluppera` una prima versione di un prototipo in grado di operare tale costruzione. Dal punto di vista dell'accesso alle informazioni multimediali, si progettera` un sistema di rappresentazione di strutture di dati multimediali che permetta di costruire e risolvere interrogazioni con la metafora dell'interazione immersiva.

TEMA 3: INTEGRAZIONE DI INFORMAZIONI ESTRATTE DA SITI WWW

Obiettivo del secondo semestre e' la definizione di tecniche e architetture di riferimento per l'estrazione, la ristrutturazione e l'integrazione di informazioni eterogenee accessibili da WWW. A partire dai risultati del primo semestre, verranno intraprese le seguenti attivita':

1. Definizione di architetture basate su dizionari semantici per la ristrutturazione e l'integrazione di informazioni e conoscenza eterogenee.

2. Definizione dell'architettura del sistema di estrazione ed integrazione di informazioni basato su tecniche di logica descrittiva.

3. Definizione di modelli per il trattamento dell'incertezza per consentire l'integrazione/manipolazione di differenti dataset spaziali nell'ambito di un medesimo sistema di gestione di basi di dati spaziali.

4. Definizione dell'architettura di un estrattore di informazioni basato su descrizione strutturale delle viste di informazioni in siti diversi.

TEMA 4: ANALISI DELLE INFORMAZIONI ESTRATTE DAL WWW

Obiettivo di questa fase e` la definizione di un architettura di riferimento per la gestione di un data warehouse su Web.

Verranno studiate le possibili strategie di analisi del sistema informativo su cui viene costruito il data warehouse. La tecnica utilizzata nell'analisi del sistema informativo determina anche il modo in cui viene costruito il modello concettuale, ossia il processo di raffinamento che porta ad inserire progressivamente nel progetto tutte le informazioni rilevanti.

Si definira` un'architettura per l'estrazione e la migrazione di dati da Web, e per la loro memorizzazione in un data warehouse. Inoltre, si studieranno modelli per l'analisi delle prestazioni di data warehouse su piattaforma parallela.

Si studieranno le proprieta' del linguaggio per l'analisi dei dati con valutazione della sua potenza espressiva. Si studieranno inoltre tecniche per l'ottimizzazione di interrogazioni su basi di dati multidimensionali nell'ambito di un'architettura per la gestione di un data warehouse su Web.

Si definiranno gli algoritmi per la realizzazione degli operatori del linguaggio di estrazione proposto. Inoltre, si studieranno le proprieta` degli operatori di estrazione e si valuteranno possibili tecniche di ottimizzazione delle operazioni di estrazione specifiche per data warehouse su Web.

Si definiranno moduli di architettura dedicati ad analisi di conoscenza e di viste di informazioni eterogenee accessibili da Web. Si definiranno inoltre moduli di architettura che consentano la gestione di conoscenza e di viste di informazioni eterogenee, quali ad esempio, dizionari semantici, sistemi di regole, ontologie.

TEMA 5: VISUALIZZAZIONE DI INFORMAZIONI PROVENIENTI DAL WWW

Conclusa la fase di ricognizione, l'attivita' di ricerca si concentrera' sull'analisi e la definizione di una architettura hardware e software di riferimento in cui sara' prevista l'integrazione del modulo di visualizzazione dei dati con i moduli di raccolta degli stessi.

Contemporaneamente, i modelli formali individuati precedentemente verranno raffinati e validati tramite la loro sperimentazione su un esempio di riferimento. In questa fase, inoltre, verranno integrati i contributi teorici provenienti dalle varie unita' coinvolte nel progetto giungendo cosi' alla definizione di un ambiente formale che permetta di modellare le principali caratteristiche necessarie allo sviluppo dell'interfaccia utente. Saranno inoltre studiate le possibilita' di adattamento dell'interfaccia all'utente, e l'utilizzo di tecniche di apprendimento automatico per l'analisi delle sequenze delle azioni dell'utente al fine di identificare comportamenti ricorrenti o azioni correlate.

TEMA 6: METODOLOGIE DI PROGETTAZIONE DI SITI WWW

Nel corso del secondo semestre, verranno studiati gli strumenti a supporto della metodologia; tali strumenti dovranno consentire, tra le altre cose, la generazione automatica delle pagine HTML a partire dal contenuto della basi di dati; questo da una parte permette al progettista di concentrarsi sulle scelte fondamentali di progetto e di disinteressarsi dei dettagli relativi alla generazione delle pagine; dall'altra, garantisce la consistenza del sito anche in presenza di aggiornamenti e riorganizzazioni. A questo fine, verra' definita la sintassi e la semantica del linguaggio Penelope per la generazione automatica delle pagine HTML.

Contemporaneamente, la metodologia verra' estesa alla progettazione di siti Web distribuiti, in modo da prevedere una fase di raccolta dei requisiti relativi ai potenziali utenti del sito e alla loro dislocazione. Questo tipo di metodologia trova particolare campo di applicazione in sistemi intranet, nei quali la tipologia di utenti, la loro dislocazione e le caratteristiche potenziali dei siti sono piu' facilmente disponibili.

Infine, si procedera' all'implementazione della dimensione del tempo di transazione nelle funzionalita' del Web, attraverso la realizzazione di un prototipo di server Web con supporto di versioni di risorse Web secondo il tempo di transazione. Saranno anche studiate e realizzate le estensioni richieste ad un client Web per rendere disponibile una navigazione temporale lungo il tempo di transazione. Ci si propone effettuare la sperimentazione su un server estendibile quale Jigsaw e di utilizzare programmazione Java per l'estensione (anche nell' interfaccia utente) dei browser.

TEMA 7: SICUREZZA E CONTROLLO DEGLI ACCESSI IN SITI WWW

La seconda fase prevede per questo tema:

1. l'implementazione di un primo prototipo del sistema di controllo degli accessi;

2. estensione del modello con autorizzazioni temporali ed autorizzazioni dipendenti dalla storia degli accessi;

3. estensione dell'architettura per il supporto delle funzionalita' di cui al punto 2.


Risultati parziali attesi:

TEMA 1

- realizzazione: meccanismi di comunicazione tra il linguaggio per basi di dati ad oggetti Fibonacci e componenti esterne.

- specifica di prototipi di strutture di comunicazione con gli Enti integrati (porte delegate e porte applicative secondo terminologia A.I.P.A.)

- prototipo iniziale per il supporto al progetto di iter delle pratiche amministrative con la schedulazione delle risorse assegnate nell'ambito dell'organizzazione.

- definizione di uno strumento di supporto al progetto di applicazioni network centric.

- librerie e frameworks basati su codice mobile che facilitino lo sviluppo di applicazioni network centric.

- progetto di un'architettura generale di supporto ad applicazioni distribuite basate sull'approccio ad eventi.

- Sviluppo e collaudo di un prototipo, in linguaggio Java, per la creazione e l'esecuzione di servizi DBMS in rete.

- rapporto tecnico: specifica di un modello di transazioni distribuite basato su agenti mobili.

-rapporto tecnico: specifica dei moduli di un'architettura distribuita, object-oriented e coerente con lo standard CORBA, in grado di supportare transazioni real-time distribuite su un'Intranet.

- rapporto tecnico e base di conoscenza del dominio su un sistema informativo comune a enti pubblici basata su sistema negoziale aagenti

TEMA 2

- primo prototipo del linguaggio per la scrittura dei wrapper

- rapporto contenente la sintassi e la semantica del linguaggio di interrogazione

- definizione dell'architettura del prototipo del linguaggio di interrogazione

- prima versione del prototipo per la costruzione automatica di basi di dati ipertestuali a partire da frammenti

- rapporto tecnico contenente la definizione del linguaggio di interrogazione non-deterministico

- rapporto tecnico contenente i requisiti ed il progetto di un prototipo del sistema per interrogazioni non-deterministiche

- rapporto sull'architettura software di WaDer

- primo prototipo del sistema WaDer

- rapporto sull'architettura del sistema basato su WG-log

- studio di algoritmi efficienti di interrogazione per particolari classi di query WG-log

- implementazione di un primo prototipo del sistema WG-log

- rapporto sul progetto di un sistema di rappresentazione di dati multimediali per l'interrogazione attraverso la realta` virtuale

TEMA 3

Per ciascuna delle attivita' descritte per questo tema in questa fase verra' prodotto un Rapporto Tecnico sull'architettura individuata con specifica dei moduli componenti.

TEMA 4

- rapporto tecnico che descriva le possibili strategie di costruzione del progetto concettuale

- documento che descrive l'architettura proposta, e la analizza in termini di rappresentazione del carico e caratterizzazione delle prestazioni

- alcuni moduli di un prototipo di uno strumento modellistico per l'analisi delle prestazioni di applicazioni di data warehousing su piattaforma parallela

- rapporto tecnico che descrive il linguaggio proposto e possibili tecniche di ottimizzazione delle interrogazioni

- rapporto tecnico che descrive gli algoritmi per la realizzazione degli operatori di estrazione della conoscenza proposti

- rapporto tecnico sull'architettura di riferimento con specifica dei moduli componenti individuati per la gestione di conoscenza e viste di informazioni eterogenee

TEMA 5

- documento contenente la descrizione dell'architettura del sistema;

- documento contenente la definizione delle strutture di rappresentazione del modello usato per la progettazione dell'interfaccia utente, con particolare riferimento all'adattivita' dell'interfaccia.

TEMA 6

- documento di descrizione della sintassi e della semantica del linguaggio Penelope per la generazione delle pagine HTML (RM3);

- documento di descrizione della metodologia di progetto di siti distribuiti (MI);

- sperimentazione della metodologia di progetto di siti distribuiti (MI);

- prototipo di server Web con supporto del tempo di transazione (BO);

- prototipo di client Web con supporto del tempo di transazione (BO).

TEMA 7

- un prototipo di sistema di controllo degli accessi;

- un rapporto tecnico che descrive l'implementazione del sistema di controllo degli accessi;

- un rapporto tecnico che descrive il modello di autorizzazione esteso con autorizzazioni temporali ed autorizzazioni dipendenti dalla storia degli accessi.


Unita' di ricerca impegnate:
Tutte quelle coinvolte nel progetto.

Fase 3:
Durata mesi: 6   Costo previsto: 593,10 (milioni)

Descrizione:

TEMA 1: APPLICAZIONI PER BASI DI DATI SU INTERNET E INTRANET

Nell'ambito delle applicazioni per la PA anche le problematiche di formazione possono acquistare interesse per gli utenti della rete che accedono al patrimonio informativo sia dagli sportelli polifunzionali che via Internet. Verranno studiate le specifiche di un sistema per il supporto alla formazione nella PA. I risultati ottenuti con i prototipi iniziali verranno usati per raffinare il modello dei processi amministrativi e per specificare un modulo per la gestione delle risorse.

Relativamente alla ricerca sulle basi di dati real-time, il secondo anno sara' rivolto allo studio di modelli di transazioni distribuite che, nell'architettura precedentemente delineata, siano in grado di rispettare i vincoli temporali locali dei singoli Management Information Base e quelli globali del Data Base Repository. In particolare nel terzo semestre l'architettura viene completata con lo sviluppo di un opportuno modello transazionale.

Per quanto riguarda la ricerca sull'integrazione di Basi di dati tramite agenti mobili, nel terzo semestre verra' fornita una prima implementazione di un ambiente ad agenti mobili per l'integrazione di basi di dati distribuite eterogenee. Si prevede di usare a tal fine la piattaforma sviluppata da IBM su Java.

TEMA 2: ESTRAZIONE DI INFORMAZIONI DISTRIBUITE SUL WWW

In questa fase l'accento dell'attivita` di ricerca si sposta su aspetti di esecuzione efficiente delle interrogazioni e di miglioramento dell'efficacia del processo di reperimento delle informazioni. Nello specifico, per i linguaggi di interrogazione sviluppati nelle fasi precedenti verranno analizzate le problematiche di ottimizzazione relative, e fornite implementazioni e sperimentazioni relative.

In questa fase, tali linguaggi saranno anche estesi ad includere costrutti di aggregazione (MIN, MAX, ecc.) e gestione esplicita di informazione 'cached'. La metodologia per la costruzione automatica di ipertesti sara` estesa prevedendo meccanismi di 'relevance feedback', che forniscono all'utente la possibilita' di esprimere, sui documenti presentati, dei giudizi di pertinenza. Scopo di tale estensione e' quindi pervenire a definire una rete di documenti collegati tra loro in modo da essere aderenti alle esigenze informative dell'utente. In questa fase, alcune delle sedi del progetto si doteranno di schemi WG-log dei propri siti, rendendoli accessibili al prototipo di Schema Robot; gli utenti avranno quindi la possibilita` di interrogare mediante WG-log i siti WWW interessati. In tal modo si avviera` una fase di sperimentazione che permettera` di produrre, nelle fasi successive, versioni sempre piu' significative del prototipo, in termini di efficienza e di efficacia.

TEMA 3: INTEGRAZIONE DI INFORMAZIONI ESTRATTE DA SITI WWW

Obiettivo di questa fase e' lo sviluppo di strumenti di supporto per l'estrazione e l'integrazione di informazioni eterogenee, basati sulle tecniche e sulle architetture ottenute come risultato della fase precedente. Si individuano le seguenti attivita':

1. Definizione di una metodologia di integrazione di informazioni eterogenee basata su risoluzione di eterogeneita' e unificazione delle stesse.

2. Definizione delle estensioni della logica descrittiva OLCD (Object Languages with Complements allowing Descriptive cycles) al fine di definire un linguaggio per la generazione di mediatori, con specifica funzionale di mediatori basati sull'architettura definita nella Fase 2 e sulla logica estesa sviluppata.

3. Definizione di strumenti di supporto ai modelli per il trattamento dell'incertezza per l'integrazione/manipolazione di differenti dataset spaziali definiti nella Fase 2.

4. Strumenti per l'estrazione di informazioni basata sulle operazioni e sul contesto di utilizzo delle informazioni e integrazione delle informazioni estratte con tecniche neurali.

TEMA 4: ANALISI DELLE INFORMAZIONI ESTRATTE DAL WWW

Obiettivo di questa fase e` la definizione di una metodologia di progetto della data warehouse e degli algoritmi di estrazione dei dati.

Si intendono definire regole e tecniche che permettano di automatizzare la progettazione. In particolare si fara` riferimento alle tecniche per costruire in modo automatico o semi automatico lo schema concettuale a partire dalla struttura delle basi di dati su cui operera' il data warehouse: nel caso di un sistema informativo aziendale tale struttura potra' essere rappresentata da schemi E/R, mentre, nel caso in cui l'estrazione dei dati sia fatta dal Web, la struttura di partenza coincidera' con lo schema ipertestuale.

Si definira` una metodologia per l'individuazione di dati rilevanti per un'applicazione e per la loro migrazione da sorgenti Web al data warehouse. La metodologia prevede specifici passi per la rappresentazione delle interrelazioni tra dati del data warehouse e sorgenti informative. Si definiranno modelli per l'analisi dei tempi di risposta di interrogazioni su piattaforma parallela.

Si sviluppera` un linguaggio pratico basato sul linguaggio astratto studiato. Si definira` inoltre una metodologia per il progetto di basi di dati multidimensionali, che sara` sperimentata in alcune applicazioni reali.

Si definira` una metodologia di specifica delle operazioni di estrazione. Si realizzeranno gli operatori di estrazione mediante opportuni algoritmi e se ne verifichera` sperimentalmente l'efficienza.

Si definiranno un approccio metodologico e strumenti per l'analisi e il raffinamento di conoscenza e viste di informazioni eterogenee. Inoltre, si definira` un linguaggio di interrogazione orientato all'estrazione di conoscenza.

TEMA 5: VISUALIZZAZIONE DI INFORMAZIONI PROVENIENTI DAL WWW

Sulla base dei risultati teorici ottenuti nel primo anno, si procedera' in questa fase alla implementazione di un primo prototipo del sistema. Lo sviluppo del prototipo, che si avvarra' solo parzialmente dell'utilizzo di fondi propri, avverra' integrando i contributi specifici delle varie unita' coinvolte nel progetto. Nella sua prima versione il prototipo prevedera' la gestione delle funzionalita' principali, ovvero gestione di un semplice modello utente con relativa adattabilita', dell'interfaccia, visualizzazione e manipolazione dei dati provenienti dal WWW. Il prototipo, coerentemente con le scelte architetturali delineate nella fase 3, sara' realizzato in modo da poter essere facilmente utilizzato tramite WWW. Si procedera' inoltre all'analisi delle tipologie di dati e di utenti per una specifica applicazione presa in esame da altre unita' operative, ad esempio quella relativa alla pubblica amministrazione, in modo da definire i modelli necessari per garantire l'adattivita' dell'interfaccia.

TEMA 6: METODOLOGIE DI PROGETTAZIONE DI SITI WWW

Nel corso del terzo semestre, verranno definite le architetture e realizzati i primi prototipi degli strumenti di ausilio alla progettazione (Autoweb, Penelope) integrati con la metodologia. Verra' anche affrontato il problema dell'inserimento delle metodologie nel contesto della Pubblica Amministrazione, focalizzandosi inizialmente sullo studio dell'impatto dell'uso di Internet/intranet nell'organizzazione del sistema informativo interno.

Verra' inoltre avviato lo studio dell'integrazione della dimensione del tempo di validita' nelle funzionalita' del Web. Questo consentira' la definizione e codifica di documenti Web intrinsecamente temporali, contenenti informazione esplicitamente storicizzata dall'autore per consentire una navigazione all'utente temporalmente selettiva. Verranno studiati gli aspetti teorici di tale integrazione, inclusa l'estensione temporale dei linguaggi di "markup" in uso (HTML), in grado di consentire il "timestamping" di singoli oggetti all'interno di un documento.

TEMA 7: SICUREZZA E CONTROLLO DEGLI ACCESSI IN SITI WWW

La terza fase prevede:

1. sperimentazione e validazione del prototipo del sistema di controllo degli accessi e valutazione delle prestazioni;

2. definizione di meccanismi di credenziali;

3. estensione dell'architettura del sistema di controllo degli accessi con meccanismi di credenziali.


Risultati parziali attesi:

TEMA 1

- articoli: almeno due rapporti sui meccanismi per la riflessione, per permettere la negoziazione tra componenti e sui sistemi di tipi che permettano la comunicazione di oggetti con ruoli sulla rete;

- rapporto su modalita' di accesso a servizi in rete Internet della PA mediante uno sportello polifunzionale; dettaglio sui servizi Intranet rivolti alla formazione

- strumento per il progetto delle applicazioni network centric.

- infrastruttura di supporto per sistemi distribuiti ad eventi.

- prototipo: realizzazione di un ambiente ad agenti mobili in grado di supportare la gestione di transazioni di basi di dati eterogenee distribuite in Internet.

- rapporto tecnico:specifica di un modello transazionale real-time object-based per l'architettura definita nel 2o semestre.

- Realizzazione di un primo prototipo funzionante del gestore del protocollo negoziale da usare come test bed.

TEMA 2

- definizione di opportune strutture di dati ed algoritmi allo scopo di diminuire i tempi di risposta del sistema;

- prima implementazione del prototipo del linguaggio di interrogazione;

- rapporto tecnico sulla metodologia combinata di estrazione di frammenti e relevance feedback;

- rapporto tecnico contenente la definizione del linguaggio non-deterministico esteso con aggregati;

- prototipo di un sistema che implementi il linguaggio di interrogazione non-deterministico;

- rapporto sulle tecniche di ottimizzazione e sul modello esteso del sistema WaDer;

- rapporto sulla definizione di opportune strutture di dati ed algoritmi allo scopo di diminuire i tempi di risposta del sistema;

- sperimentazione e validazione del prototipo del sistema WG-log.

TEMA 3

Per gli strumenti illustrati nella descrizione delle attivita' per questa fase, verra' prodotto un corrispondente Rapporto Tecnico di specifica funzionale.

TEMA 4

- rapporto tecnico che descriva tecniche per la costruzione automatica o semi-automatica dello schema concettuale di un data warehouse

- prototipo di un tool per la stesura automatizzata del progetto concettuale

- prototipo di uno strumento di supporto alla metodologia di progetto di applicazioni per l'estrazione e la gestione di dati provienienti da Web

- rapporto tecnico che descriva la metodologia per il progetto di basi di dati multidimensionali

- alcuni moduli di un prototipo che realizzano i costrutti del linguaggio proposto

- rapporto tecnico che che descriva la metodologia di specifica delle operazioni di estrazione di conoscenza

- prototipo di un sistema che permetta di eseguire le operazioni di estrazione proposte

- rapporto tecnico di descrizione della metodologia e specifica funzionale degli strumenti di supporto

TEMA 5

- documento contenente la descrizione dei modelli utilizzati dall'interfaccia adattiva, realizzati sulla base dell'analisi e della classificazione di dati e utenti per una specifica applicazione;

- prototipo di primo livello dell'interfaccia utente.

TEMA 6

- prototipo dello strumento di supporto AutoWeb e sua istallazione su sito Web;

- prototipo dello strumento Penelope per la generazione automatica delle pagine HTML e sua istallazione su sito Web;

- studio delle problematiche poste dall'utilizzo delle metodologie di costruzione del Web, specie nelle primissime fasi di progetto, nel contesto della Pubblica Amministrazione in collaborazione con Enti Pubblici;

- algoritmi di gestione di versioni temporali;

- estensione temporale del linguaggio HTML per consentire timestamping di documenti.

TEMA 7

- un rapporto che descrive i risultati ottenuti dalla sperimentazione del prototipo e dalla valutazione delle prestazioni;

- un rapporto che descrive il meccanismo di credenziali;

- un rapporto che descrive le estensioni all'architettura del sistema di controllo degli accessi con i meccanismi di credenziali.


Unita' di ricerca impegnate:
Tutte quelle coinvolte nel progetto.

Fase 4:
Durata mesi: 6   Costo previsto: 593,10 (milioni)

Descrizione:

TEMA 1: APPLICAZIONI PER BASI DI DATI SU INTERNET E INTRANET

Nel quarto semestre verranno realizzati e completati i prototipi di sistemi progettati nelle fasi precedenti.

TEMA 2: ESTRAZIONE DI INFORMAZIONI DISTRIBUITE SUL WWW

Nell'ultima fase del progetto le attivita` si concentreranno prevalentemente sulla sperimentazione dei prototipi e dei linguaggi sviluppati, in particolare nello sviluppo di applicazioni 'target' su reti Internet e Intranet, allo scopo di fornire piena visibilita` dei risultati del progetto. Parimenti, si definiranno e realizzeranno strumenti di supporto e interfacce grafiche per i sistemi sviluppatii (es: interfacce amichevoli per la specifica delle query). Verra` inoltre progettato e realizzato un prototipo per la costruzione automatica di basi di dati ipertestuali, applicando i risultati ottenuti nella fase precedente. Aspetti di 'rilevanza' dei risultati delle interrogazioni saranno anche inclusi nel linguaggio di interrogazione per documenti non strutturati, integrando elementi in grado di permettere un ordinamento dei risultati e, in fase di esecuzione, il 'pruning' di cammini ritenuti non significativi.

TEMA 3: INTEGRAZIONE DI INFORMAZIONI ESTRATTE DA SITI WWW

Obiettivo di questa fase e' lo sviluppo di applicazioni prototipali utilizzando gli strumenti e i metodi definiti nelle precedenti fasi del progetto. In particolare, si prevedono le seguenti attivita':

1. Sviluppo di un'applicazione prototipale di dizionario semantico per l'integrazione di informazioni eterogenee.

2. Realizzazione di un prototipo software del generatore di mediatori specificato nella Fase 3.

3. Applicazione dei metadati proposti e sperimentazione del modello per il trattamento dell'incertezza proposto nell'estrazione di dataset spaziali di grosse dimensioni presenti su siti WWW.

4. Sviluppo di un prototipo per la riduzione delle eterogeneita' semantiche tra informazioni in siti distribuiti.

TEMA 4: ANALISI DELLE INFORMAZIONI ESTRATTE DAL WWW

Obiettivo di questa fase e` la realizzazione di un prototipo e lo sviluppo di un'applicazione prototipale utilizzando la metodologia e gli strumenti definiti nel progetto.

Si studieranno le tecniche e le regole per passare dal progetto concettuale al progetto logico in modo automatico o semi automatico. Ovviamente i risultati ottenuti sono dipendenti dal modello logico adottato; pur essendo comunemente riconosciuto che i sistemi di DW si basano su un modello multidimensionale esistono piu' forme di implementazione (Schema a stella, Sistema multidimensionale puro, etc.) ognuna delle quali dara' luogo a implicazioni diverse.

Si sperimentera` l'approccio proposto nell'ambito di un'applicazione di riferimento, per quanto riguarda gli aspetti di progetto e dimensionamento dei data warehouse e dei moduli di estrazione dei dati da Web.

Si sviluppera` un prototipo per la manipolazione di basi di dati multidimensionali e se ne sperimenteranno le funzionalita'. Si svilupperanno alcuni strumenti automatici per il supporto alla progettazione di basi di dati multidimensionali su Web.

Si sviluppera` un prototipo per l'analisi dei dati estrati da Web. Si verificheranno la metodologia proposta e le funzionalita` offerte mediante lo sviluppo di un'applicazione per l'estrazione di conoscenza in ambito industriale o bancario.

Si realizzeranno un ambiente di strumenti di supporto alla metodologia di analisi di conoscenza e di viste di informazioni eterogenee accessibili da Web proposta.

TEMA 5: VISUALIZZAZIONE DI INFORMAZIONI PROVENIENTI DAL WWW

Il prototipo prodotto nella terza fase verra' poi integrato con i moduli produttori dei dati, sviluppati da altre unita', giungendo alla realizzazione di un prototipo evoluto in cui siano presenti i principali aspetti del sistema, dall'estrazione dei dati dal WWW alla loro successiva visualizzazione e manipolazione. L'interfaccia utente sara', inoltre, oggetto di uno studio teso a misurarne la effettiva usabilita'.

TEMA 6: METODOLOGIE DI PROGETTAZIONE DI SITI WWW

Nel corso del quarto semestre verranno consolidati i prototipi realizzati nel semestre precedente; i prototipi verranno inoltre sperimentati nel contesto di siti distribuiti. Verra' inoltre affrontato lo studio dei paradigmi di interrogazione e ricerca che traggono vantaggio dalla presenza di una progettazione del sito Web (in coordinamento con il TEMA 2). Infatti, un approccio metodologico strutturato, aumentando la regolarita' delle strutture all'interno del sito, consente di rispondere in modo efficace a interrogazioni circa il contenuto del sito Web. A questo fine, verranno definiti opportuni linguaggi per la specifica di interrogazioni e l'estrazione dei dati dai siti progettati utilizzando la metodologia. Verranno inoltre descritti i risultati dell'esperienza di uso di soluzioni Internet/intranet nel contesto della Pubblica Amministrazione.

Verra' infine implementata la dimensione del tempo di validita' nelle funzionalita' del Web. Saranno applicati i risultati teorici ottenuti nel semestre precedente, realizzando un prototipo di client Web con supporto di versioni di risorse secondo il tempo di validita'. Saranno inoltre studiate e realizzate le estensioni richieste ad un client Web per rendere disponibile una navigazione temporale lungo il tempo di validita'. Saranno presi in considerazione problemi di compatibilita' con gli standard ed i prodotti commerciali in uso. Ci si propone effettuare la sperimentazione su un client estendibile quale Jigsaw e di utilizzare programmazione Java per le estensioni (anche qui nell' interfaccia utente) richieste ai browser.

TEMA 7: SICUREZZA E CONTROLLO DEGLI ACCESSI IN SITI WWW

La quarta fase prevede: (i) implementazione di un secondo prototipo che estende il prototipo sviluppato durante la seconda fase con i meccanismi di credenziali; (ii) definizione di tecniche per assicurare l'anonimita' degli accessi: (iii) estensione dell'architettura del sistema di controllo degli accessi con tecniche per assicurare l'anonimita'.


Risultati parziali attesi:

TEMA 1

- realizzazione e sperimentazione di uno dei meccanismi studiati nei rapporti prodotti al termine del primo anno.

- prototipo di un sistema di smistamento di richieste a sportello polifunzionale della PA sui sistemi connessi

- versione definitiva del prototipo per il supporto al progetto di iter delle pratiche amministrative con la schedulazione delle risorse assegnate nell'ambito dell'organizzazione.

- supporto al lavoro cooperativo su scala geografica.

- applicazione di supporto al commercio elettronico (in un settore commerciale da definire).

- seconda versione dei prototipi sviluppati nel semestre precedente per il supporto alla progettazione di siti WWW

- pubblicazione dei dati relativi alla sperimentazione della metodologia di progettazione di siti WWW e all'uso dei prototipi;

- definizione e implementazione di strumenti per l'interrogazione dei siti progettati utilizzando la metodologia;

- seconda versione del prototipo dell'ambiente ad agenti mobili per l'integrazione di Basi di Dati sviluppato nel semestre precedente.

- rapporto tecnico: proposta di algoritmi di scheduling di transazioni real-time distribuite.

- definizione del pianificatore e sperimentazione, in un ambiente "di produzione", del modello ad agenti per l'esecuzione di transazioni distribuite in una rete di data base eterogenei.

- rapporto conclusivo: sviluppi futuri della ricerca e applicabilita' dei risultati.

TEMA 2

- sperimentazione e validazione del prototipo

- implementazione di strumenti di supporto alla scrittura delle query

- rapporto conclusivo: sviluppi futuri della ricerca e applicabilita' dei risultati

- prototipo finale operante in ambito Web

- rapporto tecnico contenente i risultati della fase di sperimentazione nonche` alcune delle applicazioni sviluppate.

- rapporto finale sul sistema WaDer

- prototipo finale di WaDer, completo di interfaccia grafica amichevole

- implementazione di un secondo prototipo del sistema WG-log

- implementazione di un prototipo di sistema per l'interrogazione di siti WWW attraverso la metafora della realta` virtuale

- rapporto conclusivo: sviluppi futuri della ricerca e sua applicabilita`

TEMA 3

Verra' sviluppato un prototipo software per ciascuna attivita' decritte per questo tema in questa fase.

TEMA 4

- rapporto tecnico finale sulle metodologie di progettazione di data warehouse

- prototipo realizzato in precedenza, arricchito con le primitive studiate nell'ultimo semestre

- rapporto tecnico finale sulle tecniche di analisi delle prestazioni di data warehouse

- prototipo per l'analisi delle prestazioni

- rapporto tecnico finale su linguaggi di analisi dei dati per data warehouse su Web

- prototipo per l'analisi multidimensionale dei dati estratti da Web

- prototipo per l'analisi dei dati estratti da Web mediante tecniche di data mining

- prototipo software degli strumenti di supporto alla metodologia di analisi di conoscenza e di viste di informazioni eterogenee accessibili da Web

TEMA 5

- applicazione prototipale del sistema;

- documento contenente la descrizione dei risultati ottenuti tramite gli studi di usabilita'.

TEMA 6

- seconda versione del prototipo di Autoweb sviluppato nel semestre precedente;

- seconda versione del prototipo del linguaggio Penelope sviluppato nel semestre precedente;

- pubblicazione dei dati relativi alla sperimentazione della metodologia e all'uso dei prototipi;

- definizione e implementazione di strumenti per l'interrogazione dei siti progettati utilizzando la metodologia;

- prototipo di client Web con supporto di versioni secondo il tempo di validita';

- rapporto conclusivo: sviluppi futuri della ricerca e applicabilita' dei risultati.

TEMA 7

- un prototipo di sistema di controllo degli accessi con meccanismi di credenziali;

- un rapporto che descrive le tecniche per assicurare l'anonimita';

- un rapporto che descrive le estensioni all'architettura del sistema di controllo degli accessi con le tecniche per assicurare l'anonimita'.


Unita' di ricerca impegnate:
Tutte quelle coinvolte nel progetto.


11. Grado di avanzamento raggiungibile con fondi "propri":

Il grado di avanzamento raggiungibile con fondi propri riguarda principalmente lo studio dei principi alla base della proposta (documentati mediante rapporti tecnici) e nello sviluppo di alcuni prototipi a funzionalita` ridotta. In particolare, per ciascun tema, i prodotti che si prevede di ottenere con i fondi propri sono i seguenti.

TEMA 1: APPLICAZIONI PER BASI DI DATI SU INTERNET E INTRANET

- rapporto su linguaggi per Web;

- rapporto sui requisiti di applicazioni per la PA su una rete Intranet;

- rapporto tecnico su un modello di specifica degli iter delle pratiche amministrative;

- classificazione delle metodologie e tecniche di supporto alla mobilita' del codice;

- definizione di paradigmi e frameworks per la progettazione di applicazioni network centric;

- rapporto tecnico: studio delle caratteristiche degli agenti mobili per l'integrazione di basi di dati in Internet;

- rapporto tecnico: studio della problematica della gestione di transazioni real-time distribuite su un'Intranet: analisi dei vincoli spaziali, logici e temporali delle transazioni real-time distribuite e identificazione dei moduli funzionali che caratterizzano un Data base repository distribuito, facendo riferimento esclusivamente ad un ambiente applicativo di real_time process control;

- studio preliminare sulla distribuzione di servizi;

- rapporto tecnico su rappresentazione della conoscenza rilevante in un solo specifico dominio applicativo;

- specifica di prototipi di strutture di comunicazione con gli Enti integrati (porte delegate e porte applicative secondo terminologia A.I.P.A.);

- rapporto su modalita' di accesso a servizi in rete Internet della PA mediante uno sportello polifunzionale; dettaglio sui servizi Intranet rivolti alla formazione;

- prototipo di uno strumento di simulazione/emulazione degli iter delle pratiche amministrative (senza la schedulazione delle risorse);

- progettazione di uno strumento di supporto al progetto di applicazioni network centric;

- rapporto sulla comunicazione di oggetti con ruoli sulla rete;

- rapporto tecnico: specifica di un modello ad agenti mobili per la gestione di transazioni distribuite su Basi di Dati Eterogenee;

- rapporto tecnico: studio di algoritmi di scheduling di transazioni real-time distribuite;

- progettazione dell'architettura di distribuzione di servizi;

- rapproto tecnico su metodi di elicitazione e strutture di rappresentazione necessarie al modello negoziale + base di conoscenza del dominio;

TEMA 2: ESTRAZIONE DI INFORMAZIONI DISTRIBUITE SUL WWW

- rapporto sulla descrizione del modello di dati;

- rapporto sulla sintassi e la semantica del linguaggio per la scrittura dei wrapper;

- rapporto sulla sintassi e la semantica del linguaggio di interrogazione;

- rapporto sulla metodologia per l'estrazione di frammenti da documenti;

- prima versione del prototipo per la costruzione automatica della base di dati ipertestuale a partire da frammenti;

- rapporto sulla metodologia per la combinazione di 'relevance feedback' e costruzione automatica di basi di dati ipertestuali;

- rapporto di analisi dei linguaggi di interrogazione per il WWW;

- rapporto sulla definizione del linguaggio non deterministico (senza aggregati);

- realizzazione di un semplice prototipo che implementi alcune delle funzioni piu` significative del linguaggio definito nella fase 2;

- rapporto sulla prima versione del modello dei dati e del linguaggio di interrogazione di WaDer;

- rapporto sull'architettura software di WaDer e sull'ottimizzazione delle interrogazioni;

- prototipo semplificato del sistema WaDer;

- rapporto con la definizione del lessico, della sintassi e della semantica del linguaggio WG-log;

- rapporto sulla definizione della struttura degli Schema Robot e del Query Manager;

- rapporto sul progetto di un sistema per l'interrogazione di siti WWW attraverso la metafora della realta` virtuale;

- implementazione e sperimentazione di un primo prototipo del sistema WG-log (con funzionalita` ridotte).

TEMA 3: INTEGRAZIONE DI INFORMAZIONI ESTRATTE DA SITI WWW

- Rapporto Tecnico relativo alla definizione preliminare delle possibili estensioni del modello di estrazione/integrazione sviluppato in ambito basi di dati, per poter considerare informazioni semi-strutturate.

- rapporto Tecnico relativo alla definizione di architetture basate su dizionari semantici per la ristrutturazione e l'integrazione di informazioni e conoscenza eterogenee.

- rapporto Tecnico relativo all'analisi delle possibili estensioni della logica descrittiva OLCD (Object Languages with Complements allowing Descriptive cycles) per rispondere alle problematiche di estrazione/integrazione.

- rapporto Tecnico relativo alla definizione dell'architettura del sistema di estrazione ed integrazione di informazioni basato su tecniche di logica descrittiva.

- rapporto Tecnico relativo alla definizione di metadati idonei ad esprimere le peculiarita' di dataset spaziali disponibili sui siti WWW, per facilitare la selezione del dataset piu' appropriato per le operazioni di analisi spaziale d'interesse.

- rapporto Tecnico relativo alla definizione di modelli per il trattamento dell'incertezza per consentire l'integrazione/manipolazione di differenti dataset spaziali nell'ambito di un medesimo sistema di gestione di basi di dati spaziali.

- rapporto Tecnico relativo all'impiego di metodi formali derivati dall'area dell'elaborazione del linguaggio naturale, per l'analisi delle proprieta' dei dati a fini di integrazione;

- rapporto Tecnico relativo all'architettura di strumenti per l'estrazione di informazioni basata sulle operazioni e sul contesto di utilizzo delle informazioni e integrazione delle informazioni estratte con tecniche neurali.

TEMA 4: ANALISI DELLE INFORMAZIONI ESTRATTE DAL WWW

- rapporto tecnico che descriva i concetti che devono essere inseriti nel progetto concettuale, la sintassi e i simboli grafici che permettano di descrivere in modo efficiente i suddetti concetti

- documento sullo stato dell'arte nel settore del data warehousing, contenente anche una proposta preliminare per un contesto di datawarehose distribuita accessibile da Web

- rapporto tecnico che descriva lo stato dell'arte per i linguaggi di manipolazione per data warehouse

- rapporto tecnico che descriva il modello logico di riferimento per i dati estratti da Web

- rapporto tecnico che descriva le diverse tipologie di metodi di estrazione di conoscenza

- rapporto tecnico sullo stato dell'arte analizzato con indicazione preliminare di soluzioni proposte alle problematiche di interesse

- rapporto tecnico che descriva le possibili strategie di costruzione del progetto concettuale

- documento che descrive l'architettura proposta, e la analizza in termini di rappresentazione del carico e caratterizzazione delle prestazioni

- rapporto tecnico che descrive il linguaggio proposto e possibili tecniche di ottimizzazione delle interrogazioni

- rapporto tecnico che descrive gli algoritmi per la realizzazione degli operatori di estrazione della conoscenza proposti

- rapporto tecnico sull'architettura di riferimento con specifica dei moduli componenti individuati per la gestione di conoscenza e viste di informazioni eterogenee

- rapporto tecnico che descriva tecniche per la costruzione automatica o semi-automatica dello schema concettuale di un data warehouse

- versione semplificata del prototipo di un tool per la stesura automatizzata del progetto concettuale

- versione semplificata del prototipo di uno strumento di supporto alla metodologia di progetto di applicazioni per l'estrazione e la gestione di dati provienienti da Web

- rapporto tecnico che descriva la metodologia per il progetto di basi di dati multidimensionali

- versione semplificata del prototipo che realizza i costrutti del linguaggio proposto

- rapporto tecnico che che descriva la metodologia di specifica delle operazioni di estrazione di conoscenza

- versione semplificata del prototipo di un sistema che permetta di eseguire le operazioni di estrazione proposte

- rapporto tecnico di descrizione della metodologia e specifica funzionale degli strumenti di supporto

- rapporto tecnico finale sulle metodologie di progettazione di data warehouse

- rapporto tecnico finale sulle tecniche di analisi delle prestazioni di data warehouse

- rapporto tecnico finale su linguaggi di analisi dei dati per data warehouse su Web.

TEMA 5: VISUALIZZAZIONE DI INFORMAZIONI PROVENIENTI DAL WWW

- documento sullo stato dell'arte sulla visualizzazione di grandi quantita' di dati e sui problemi di usabilita' di sistemi informativi su rete;

- documento contenente una prima descrizione dei modelli formali che verranno utilizzati per gestire la visualizzazione e l'interazione con l'utente;

- documento contenente la descrizione dell'architettura del sistema;

- documento contenente la definizione delle strutture di rappresentazione del modello usato per la progettazione dell'interfaccia utente, con particolare riferimento all'adattivita' dell'interfaccia;

- documento contenente la descrizione dei modelli utilizzati dall'interfaccia adattiva, realizzati sulla base dell'analisi e della classificazione di dati e utenti per una specifica applicazione;

- prototipo di primo livello dell'interfaccia utente.

TEMA 6: METODOLOGIE DI PROGETTAZIONE DI SITI WWW

- documento di descrizione dei modelli di dati;

- documento di descrizione della metodologia;

- documento di descrizione della metodologia di progetto di siti distribuiti;

- documento di descrizione delle estensioni di formati e protocolli;

TEMA 7: SICUREZZA E CONTROLLO DEGLI ACCESSI IN SITI WWW

- documento descrivente un modello semplificato di autorizzazione a pagine WWW senza tutte le funzionalita' avanzate;

- implementazione di un prototipo del modello semplificato.



12. Pubblicazioni scientifiche piu' significative del Coordinatore del Programma di Ricerca
(massimo 5, le piu' recenti e pertinenti il programma):
P. Atzeni, G. Mecca, P. Merialdo “To Weave the Web”, Very Large Databases (VLDB'97), 1997
P. Atzeni, L. Cabibbo, G. Mecca “IsaLog: A Deductive Language with Negation for Complex Object Databases with Hierarchies”, Data and Knowledge Engineering, 1997.
P. Atzeni, G. Mecca, P. Merialdo “Semistructured and Structured Data in the Web: Going Back and Forth”, SIGMOD Record, To Appear, December 1997.
P. Atzeni, A. Masci, G. Mecca, P. Merialdo, E. Tabet. Ulixes: Building Relational Views over the Web. IEEE Data Engineering, 1997.
P. Atzeni, R. Torlone “Efficient Database Updates with Independent Schemes”, SIAM Journal on Computing, To Appear, 1997.


13. Criteri suggeriti per la valutazione globale e delle singole fasi:
Per ciascuna fase sono state indicate le attivita' previste per ciascuno dei temi su cui il progetto e' articolato e i relativi prodotti. Pertanto, la valutazione potra' essere fatta esaminando (per esempio con il contributo di revisori specializzati, probabilmente internazionali) la qualita' dei rapporti tecnici redatti e dei prototipi realizzati.


14. Elenco delle Unità di Ricerca - verrà compilata automaticamente dal sistema una tabella nella quale compaiono le seguenti voci:

Responsabile scientifico Qual. Università Dipart./ Istituto Importo disponibile Cofin. richiesto Spesa prevista per voce A Spesa prevista per voce B Spesa prevista per voce GA
1 (14) AGOSTI MARISTELLA  PA  PADOVA  Dipartimento di Elettronica e Informatica  28.000  42.000  0.000  70.000  0.000
2 (10) ALBANO ANTONIO  PO  PISA  Informatica  30.000  42.000  10.000  62.000  0.000
3 (1) ATZENI PAOLO  PO  IIIa Università  Dip Informatica e Automazione  68.000  100.000  0.000  168.000  0.000
4 (15) BARALIS ELENA  RU  Politecnico TORINO  Automatica e Informatica  40.000  56.000  0.000  96.000  0.000
5 (2) BERGAMASCHI MONARI SONIA  PA  MODENA  Dipartimento di Scienze dell'Ingegneria  48.000  71.900  0.000  119.900  0.000
6 (6) BERTINO ELISA  PO  MILANO  Scienze dell'Informazione  30.000  100.000  66.000  134.000  0.000
7 (7) CIACCIA PAOLO  PA  BOLOGNA  Dip. Elettronica, Informatica e Sistemistica DEIS  51.000  129.000  50.000  166.000  0.000
8 (13) COSTABILE MARIA  PA  BARI  Informatica  27.000  43.000  10.000  62.000  0.000
9 (16) DE ANTONELLIS VALERIA  PO  BRESCIA  DIPARTIMENTO DI ELETTRONICA PER L'AUTOMAZIONE  0.000  42.000  15.000  55.000  0.000
10 (4) DI FELICE PAOLINO  PA  L'AQUILA  Dip. Ingegneria Elettrica  22.500  65.100  0.000  108.500  0.000
11 (11) DI LEVA ANTONIO  PA  TORINO  INFORMATICA  16.000  50.200  0.000  84.000  0.000
12 (12) DI STEFANO ANTONELLA  PA  CATANIA  Istituto di Informatica e Telecomunicazioni  11.200  57.600  0.000  96.000  0.000
13 (17) PANTI MAURIZIO  PA  ANCONA  ISTITUTO DI INFORMATICA  8.000  28.000  0.000  48.000  0.000
14 (9) PERNICI BARBARA  PO  Politecnico MILANO  Elettronica e Informazione  144.000  288.000  80.000  400.000  0.000
15 (3) SACCA' DOMENICO  PO  della CALABRIA (COSENZA)  DEIS  77.000  115.000  15.000  172.000  5.000
16 (5) SALZA SILVIO  PA  ROMA La Sapienza  Dipartimento di Informatica e Sistemistica  50.000  70.000  15.000  105.000  0.000
17 (8) TANCA LETIZIA  PO  VERONA  IST. POLICATTEDRA DELLA FAC. DI SCIENZE  17.000  78.000  50.000  80.000  0.000


15. Importo richiesto per il coordinamento del Programma: 30


16. Costo complessivo del Programma di Ricerca
Compilato automaticamente dal sistema, sommando le voci corrispondenti di tutte le Unità di ricerca afferenti il programma.

Costo complessivo
comprensivo del coordinamento
2372.40
di cui:
VoceImporto
Materiale inventariabile - (Voce A) 311.00
Funzionamento e spese generali - (Voce B) 2026.40
Grandi attrezzature - (Voce GA) 5.00

Risorse disponibili all'atto della domanda(RD) 667.70
Risorse acquisibili (RA) 296.00
Risorse totali (RD+RA) 963.700
Cofinanziamanto complessivo 1377.800


17 Costo minimo per garantire
la possibilità di verifica dei risultati:
1523.00 (dal sistema, quale somma delle indicazioni dei vari Modelli B)
1553 (dal Coordinatore del Programma)


Si ricorda che la somma di risorse disponibili (o acquisibili) deve essere almeno pari al 40% per programmi Interuniversitari e al 60% per programmi Intrauniversitari del costo totale del programma.

(per la copia da depositare presso l'Ateneo e per l'assenso alla divulgazione via Internet delle informazioni riguardanti i programmi finanziati; legge del 31.12.96 n. 675 sulla "Tutela dei dati personali")


Firma ................................... Data e ora 25/7/97 14:47:52 (dal sistema alla chiusura della domanda)