Ricerca Scientifica 1998

Ministero dell'Universita' e della Ricerca Scientifica e Tecnologica Dipartimento Affari Economici

Coordinatore PAOLO ATZENI

Titolo del Programma METODOLOGIE E TECNOLOGIE PER LA GESTIONE DI DATI E PROCESSI SU RETI INTERNET E INTRANET

Costo del Progetto 2.372.400.000

Quota Cofinanziamento Murst 914.000.000

Quota Cofinanziamento Ateneo 881.685.000 (RD+RA certificate )

Fondi complessivi utilizzati nel
nel primo anno 521.452.324 (calcolato dal sistema)

Spese di coordinamento 9.473.000

Durata 24 mesi

1.Obiettivo della Ricerca

Il progetto, cui e' stato dato il nome sintetico INTERDATA, si pone l'obiettivo di
affrontare sistematicamente le problematiche connesse con la gestione, attraverso il
World Wide Web, di grandi moli di dati e delle relative applicazioni.

Il progetto e' stato articolato sui seguenti sette temi (per ciascuno dei quali
viene elencato il titolo, il docente che svolge il ruolo di coordinatore e le
unita' partecipanti):

Tema 1: Applicazioni per basi di dati su Internet e Intranet
(Coordinatore: Barbara Pernici; unità partecipanti: Politecnico di Milano,
Università di Ancona, Catania, Modena, Torino, Pisa)

Tema 2: Estrazione di informazioni distribuite su WWW
(Coordinatore: Paolo Ciaccia; unità partecipanti: Università di Roma Tre,
Bologna, Padova, Verona e della Calabria)

Tema 3: Integrazione di informazioni estratte dal WWW (Coordinatore: Valeria De
Antonellis; Unità Partecipanti: Università di Ancona, Brescia, L'Aquila, Modena)

Tema 4: Analisi delle informazioni estratte dal WWW
(Coordinatore: Elena Baralis; unità partecipanti: Politecnico di Torino,
Università di Roma Tre, Roma La Sapienza, Bologna, Brescia)

Tema 5: Visualizzazione di informazioni provenienti dal WWW
(Coordinatore: Maria Costabile; unità partecipanti: Università di Roma La
Sapienza e Bari)

Tema 6: Metodologie di progettazione di siti WWW
(Coordinatore: Giansalvatore Mecca; unità partecipanti: Politecnico di Milano,
Università di Roma Tre e Bologna)

Tema 7: Sicurezza e controllo degli accessi in siti WWW
(Coordinatore: Elisa Bertino; unità partecipante: Università di Milano)

Si illustrano brevemente nel seguito gli obiettivi previsti nel primo anno per
ciascuno dei temi.

TEMA 1. Applicazioni per basi di dati su Internet e Intranet

Obiettivo del tema è la specifica e la realizzazione di applicazioni per basi di dati su
Internet e Intranet per la gestione di processi aziendali e la specifica di applicazioni
distribuite su reti Internet, con specifico riferimento ai seguenti aspetti: l'accesso
via Intranet/Internet a dati e applicativi condivisi; il progetto di workflow di
applicazioni distribuite, specifica di sicurezza dati e processi; le applicazioni a
codice mobile; i linguaggi di programmazione per basi di dati e Web; gli aspetti di
re-ingegnerizzazione di dati e applicativi, le tecniche di progettazione e
programmazione di basi di dati e siti Web con relative transazioni.

TEMA 2: Estrazione di informazioni distribuite su WWW

L'obiettivo del primo anno era definire modelli e linguaggi per gestire,
nello stile proprio delle basi di dati, sia informazioni presenti su siti
"strutturati" (in cui è cioè possibile riscontrare omogeneità nella
struttura delle pagine tale da permettere una definizione di "schema"), sia
per casi più generali di assenza di struttura rilevante.
In questo caso l'obiettivo era migliorare l'attività di ricerca e il
processo di estrazione avvalendosi di informazione locale, di tecniche di
"frammentazione" di documenti eterogenei, e della possibilità di operare
in modo non deterministico. Si intendevano inoltre fornire soluzioni
architetturali software e sviluppare i primi prototipi.

TEMA 3: Integrazione di informazioni estratte dal WWW

La possibilità di disporre di grandi quantità di informazioni estratte da siti
WWW evidenzia la necessità di definire viste globali delle informazioni
provenienti da sorgenti distribuite ed eterogenee, per fornire una
rappresentazione integrata dei dati rilevanti per una specifica applicazione e
costituire una base di riferimento per interrogazioni dell'utente.

Obiettivi del primo anno di ricerca sono stati relativi allo sviluppo di:

1. Metodologie di integrazione di informazioni, basate sull'utilizzo di tecniche e strumenti di unificazione per mediare eterogeneità semantiche.

2. Modelli e linguaggi per la generazione di metadati e mediatori per il trattamento di dati strutturati, semi-strutturati e dataset spaziali.

3. Tecniche di elaborazione di informazioni per il trattamento di proprietà dei
dati, dell'inferenza di proprietà, e per il trattamento dell'incertezza nei
dati spaziali.

TEMA 4: Analisi delle informazioni estratte dal WWW

A causa della mole rilevante di dati che può essere estratta dal Web
si rendono necessarie elaborazioni successive che permettano
sia di individuare informazioni rilevanti per specifiche applicazioni,
sia di fornire un supporto efficace alle decisioni da intraprendere.

Obiettivi del primo anno di ricerca sono stati la definizione di

1. metodologie di progettazione di data warehouse per la generazione di
un modello concettuale multidimensionale

2. linguaggi e algoritmi per l'analisi dei dati sia per elaborazioni
di tipo multidimensionale, sia facendo uso di tecniche di "data mining" e
estrazione di conoscenza

3. tecniche di analisi delle prestazioni per verificare l'efficienza
delle operazioni di analisi dei dati

TEMA 5: Visualizzazione di informazioni provenienti dal WWW

Obiettivo del tema e' l'identificazione di appropriate forme di
visualizzazione di dati su WWW che permettano all'utente di esaminare lo
stesso insieme di dati da differenti angolazioni, evidenziando diverse
caratteristiche, in modo da fornirgli un supporto nel processo di analisi
dei dati stessi.

In particolare nel primo anno si prevedeva l'approfondimento dello stato
dell'arte nel settore della visualizzazione di grandi quantità di dati e
la definizione dei modelli per la specifica formale delle strutture di
visualizzazione da utilizzare nell'analisi visuale di grandi quantità di
dati. Era inoltre previsto di studiare le possibilità di adattività
dell'interfaccia e la gestione del modello utente mediante l'utilizzo di
tecniche di apprendimento automatico per l'analisi delle sequenze di azioni
dell'utente.

TEMA 6: Metodologie di progettazione di siti WWW

Nel corso del primo anno, l'obiettivo e' stato quello di studiare i modelli di
dati (concettuale e logico) per la descrizione di siti Web, in modo da
sviluppare una metodologia di progettazione integrata fra Web e basi di dati.

Ulteriore obiettivo e' stato quello di studiare strumenti e linguaggi per la
generazione automatica delle pagine HTML a partire dal contenuto della basi di
dati.

Una ulteriore direzione di ricerca ha infine riguardato l'introduzione di
funzionalità temporali all'interno della generazione di siti, con
l'integrazione della dimensione del tempo di transazione nelle funzionalità del
Web.

TEMA 7: Sicurezza e controllo degli accessi in siti WWW

L'obiettivo dell'attivita' di ricerca dl primo anno e' stato lo
sviluppo di un modello di autorizzazioni di controllo degli accessi
a pagine WWW, di tipo discrezionario con la possibilita' di
garantire e revocare autorizzazioni a singoli utenti ed a gruppi di
utenti.

2.Risultati della ricerca

2.1Risultati della ricerca

Nel corso del primo anno le attività sono state svolte secondo la
pianificazione prevista, con il completamento dei prodotti indicati nella
proposta. Per ragioni di spazio, i prodotti non sono elencati qui, ma nelle
relazioni delle singole unità. I prodotti sono comunque citati in questa
relazione, con i rispettivi codici identificanti e con l'indicazione delle
unità responsabili. La lista completa dei prodotti, organizzata per temi è
disponibile sul sito Web del progetto (http://www.dia.uniroma3.it/interdata/)
che offre anche altre informazioni sul progetto stesso, quali i ricercatori
coinvolti, la lista delle pubblicazioni e tutti i rapporti tecnici, offerti in
formato elettronico. Nel corso del primo anno, vengono riportate dalle unita'
47 pubblicazioni su riviste internazionali e 107 in atti di convegni
internazionali con revisione.

Le attivita' del progetto sono state svolte secondo l'organizzazione per temi,
ciascuno con il proprio coordinatore. Nell'ambito di ogni tema sono state
svolte giornate di studio dedicate ad approfondimenti specifici. Inoltre, sono
state svolte due riunioni plenarie, una all'avvio del progetto, nel febbraio
1998, una seconda a conclusione del primo semestre, nel giugno 1998 ed e'
prevista una riunione plenaria per la discussione dei risultati del primo anno,
da tenersi nel marzo 1999.

I risultati ottenuti nel primo anno vengono qui sintetizzati seguendo
l'articolazione in temi.

TEMA 1: Applicazioni per basi di dati su Internet e Intranet

Sono stati studiati i seguenti aspetti:

L'Unità di Pisa (rapporti T1-R07, T1-R08, T1-R09) ha ottenuto risultati sui
seguenti temi: (a) linguaggi di programmazione per basi di dati a oggetti e
Web, (b) teoria dei tipi per linguaggi a oggetti. Per quanto riguarda i
linguaggi di programmazione per basi di dati a oggetti e Web sono state
studiate le proprietà (i) di un sistema di tipi che permetta la comunicazione
di oggetti con ruoli su rete, (ii) di un meccanismo di oggetti virtuali per
modellare viste di basi di dati a oggetti, (iii) di un meccanismo di moduli per
organizzare basi di dati a oggetti, (iv) di un'estensione di linguaggi
persistenti con operatori per trattare dati memorizzati su Web e (v) di calcoli
fondazionali per lo spostamento autonomo di computazioni e dati sulla rete. Per
ciò che riguarda i sistemi di tipi che permettano la comunicazione di oggetti
con ruoli su rete, e' stata definita una prima versione di un sistema di tipi
con tali caratteristiche, basato in primo luogo sull'assenza di tipi generativi
che perdono di significato all'uscire dal contesto in cui sono stati definiti.

L'Unità di Pisa e l'Unità Politecnico di Milano hanno studiato rispettivamente:
· le proprietà dell'ambient calculus, che permette di realizzare applicazioni
con aspetti di correttezza dei programmi e di problematiche di sicurezza;
sistemi per la specifica di aspetti di privacy in sistemi informativi
distribuiti di tipo federato e nei workflow.

Attivita' svolta presso le Unità Politecnico di Milano, Università di Ancona e
Università di Torino (rapporti T1-R10, T1-R11) ha studiato le modalità di
realizzazione di Intranet per Enti della PA e le modalità di collegamento fra
queste in Intranet per fornire a cittadini, enti e imprese l'accesso a un
insieme di servizi integrati sul territorio. Per rendere servizi e informazioni
integrate dai vari Enti, si è scelto di integrare le funzionalità a due
livelli: un livello di Intranet dell'Ente, che collega basi di dati e Web
Server con informazioni sul funzionamento interno dell'Ente e un livello
Internet che collega le Intranet degli Enti e fornisce l'apertura del sistema
verso il mondo esterno. La ricerca del primo anno ha studiato le specifiche del
sistema integrato, detto Sistema Informativo Distribuito Globale (SIDG).

L'Università di Catania, quella di Modena, e il Politecnico di Milano (rapporto
T1-R01) hanno studiato la definizione della semantica dell'ambiente distribuito
transazionale basato sugli agenti mobili; l' integrazione di DBMS eterogenei;
aspetti di mobilità del codice basate su standard quali TINA e CORBA. Questi
standard rendono applicabili tecnologie e metodologie "object-oriented" e
"client-server" al contesto delle applicazioni per Internet/Intranet.

Si sono definiti un modello e un metodo che definiscono le proprietà di tre
ambiti principali: la tecnologia (linguaggi e sistemi), i paradigmi e le
applicazioni. Il gruppo di ricerca ha definito poi un metodo per la
classificazione e valutazione comparata dei concetti e delle tecnologie
emergenti nell'ambito della mobilità del codice. L'approccio basato su
architetture event-driven in ambiente di "network computing", utile per
applicazioni Intranet, è stato applicato a processi workflow per SIDG della PA.
L'applicazione iniziale dell'architettura event-driven ha riguardato anche
ambienti cooperativi di supporto al processo software (Politecnico Milano).

La ricerca ha proseguito con l'identificazione degli aspetti chiave nella
realizzazione di siti Web data-intensive. Questi siti hanno l'obiettivo di
utilizzare la tecnologia Web per fornire accesso a grandi quantità di dati,
strutturati e semistrutturati. Si è studiato l'aspetto di interoperabilità dei
sistemi informativi delle Amministrazioni Locali, concentrando l'attenzione
sulle esigenze che emergono nella definizione dei Piani di Inquadramento
Territoriale Regionali (Università di Ancona).

Si è definita una notazione per i servizi erogati da enti via Internet. La
notazione è dotata di varie proprietà (chiusura, trasformazione) che rendono
ben fondate le espressioni di composizione. E' stato sviluppato lo strumento
JACCESS nell'ambito dei DBMS relazionali (Università di Modena, rapporto
T1-R02).

È stato studiato un modello di programmazione distribuita basato sul paradigma
del Remote Programming. Sono stati studiati e valutati diversi framework per la
programmazione di applicazioni ad agenti mobili, quali Aglets, Mole, Odyssey,
Concordia e AgentTcl. Cio' ha evidenziato le problematiche software da
affrontare nella progettazione sia di un execution environment sia di un
ambiente di sviluppo per agenti mobili (Università di Catania, rapporti T1-R03,
T1-R04)

TEMA 2: Estrazione di informazioni distribuite su WWW

Sono stati elaborati modelli e prototipi per estrarre informazione da siti
mediante appositi "wrapper" che forniscono una vista delle pagine secondo il
modello dei dati adottato.

L'unità di Roma Tre (rapporti T2-R01, T2-R02, T2-R09 e prototipo T2-S011) ha
proposto il modello ADM, nel quale ogni pagina, istanza di uno schema di
pagina, e` un oggetto con identificatore univoco, l'URL, e attributi. Il
linguaggio Ulisse, di tipo "OQL-like", si basa sulla navigazione tra schemi di
pagina e fornisce una vista relazionale del risultato di una query. La
scrittura di wrapper e' agevolata da Editor (linguaggio procedurale) e da
Minerva, strumento che, a partire da una definizione dichiarativa della
struttura del documento, genera automaticamente il codice Editor per il
wrapper.

L'unità di Verona (rapporti T2-R06, T2-R07, T2-R17, T2-R18 e prototipo T2-S20)
ha studiato il modello WG-log, che rappresenta le informazioni di un sito
mediante schemi basati su grafi, permettendo di specificare query e viste come
grafi. Il Web Query System prevede degli Schema Robot per la gestione degli
schemi e la scelta dei siti di interesse, e dei Query Manager per la
risoluzione delle richieste ai siti, applicando algoritmi di accesso efficaci
per le query piu` frequenti. Il risultato delle query, formulate visualmente
mediante un Query Editor, e` visualizzato in forma ipermediale dal Presentation
Manager.

L'unità di Bologna (rapporti T2-R05 e T2-R15 e prototipo T2-S16) ha studiato il
modello WDM che e` una estensione di quello relazionale con costrutti per la
definizione di viste su Web e di collegamenti funzionali tra ordinarie
relazioni e tali viste. Il linguaggio WDQL, di tipo "SQL-like", permette di
specificare predicati navigazionali e di richiedere informazioni da piu` siti.
Cio` e` realizzato dal modulo Executor che interagisce con dei wrapper
sincronizzando le loro attivita` di estrazione. Una fase di riscrittura si
occupa dell'applicazione di euristiche di ottimizzazione.

Presso l'universita' della Calabria (rapporti T2-R04, T2-R13, T2-R14) e' stato
sviluppato un linguaggio che permette navigazioni che sfruttano conoscenze sul
dominio della ricerca e che permettono di limitare la dimensione di tale
dominio. Il linguaggio si basa su path query espresse come espressioni regolari
estese con un operatore di "unione ordinata" (per specificare preferenze) e un
operatore non deterministico (per selezionare un sottoinsieme della soluzione).
E` stato progettato un prototipo per la risoluzione delle interrogazioni,
definendo la struttura del motore di ricerca su Web.

L'unita' di Padova (rapporto T2-R03 e prototipo T2-S12) ha realizzato un motore
di ricerca, costituito da un robot e da un sistema di information retrieval,
che raccoglie, indicizza e classifica "frammenti" di documenti eterogenei di
grandi dimensioni. Esso risponde a interrogazioni non-strutturate presentando
in ordine di importanza i documenti Web piu` pertinenti sulla base delle
informazioni contenute nei frammenti piu` importanti. Collegamenti ipertestuali
sono generati automaticamente per integrare interrogazione e navigazione.

Infine, ancora da parte dell'unità di Verona (rapporti T2-R08 e T2-R19), e`
stata completata la prima versione del modello di rappresentazione di siti Web
strutturati attraverso metafore di realtà virtuale. Il modello si basa su una
descrizione dei documenti eseguita mediante il linguaggio XML.

TEMA 3: Integrazione di informazioni estratte dal WWW

Sono stati sviluppati modelli, metodi e prototipi per l'integrazione di
informazioni eterogenee. In particolare, l'Universita' di Brescia e
l'Universita' di Modena hanno lavorato in stretta collaborazione per la
definizione dell'architettura basata su mediatore di strumenti di integrazione.

Presso l'Universita' di Brescia (rapporti T3-R02, T3-R07, T3-R09 e prototipo
T3-S13), sono state studiate metodologie di integrazione di informazioni e sono
state proposte tecniche e strumenti di unificazione per mediare eterogeneita'
semantiche fra sorgenti eterogenee di dati. E' stata sviluppata l'architettura
del sistema ARTEMIS, rivolto a fornire supporto al processo di analisi e
integrazione di sorgenti eterogenee di dati strutturati e semistrutturati.
L'analisi delle sorgenti informative e' effettuata in base al concetto di
affinita' definito per consentire l'identificazione di elementi legati da
relazioni semantiche ed effettuare il loro clustering.

Presso l'Universita' di Modena (rapporti T3-R01, T3-R03, T3-R06, T3-R07, T3-R08
e prototipo T3-S12), sono stati studiati gli approcci al problema generale di
integrazione di informazioni eterogenee, analizzando le soluzioni di
integrazione di dati strutturati recentemente proposte in ambito commerciale
(data warehouse). E' stata sviluppata l'architettura di un sistema a mediatore
chiamato MOMIS per l'integrazione di sorgenti di dati testuali strutturati e
semistrutturati. Nel sistema e` stato introdotto un modello ed un linguaggio di
definizione comune, denominato ODL-I3, derivato dallo standard ODMG, ed esteso
per gli scopi di integrazione.

Il trattamento dell'incertezza nei dati spaziali per l'interoperabilità tra
applicazioni spaziali distribuite e' stato studiato presso l'Universita'
dell'Aquila (rapporti T3-R04 e T3-R10). E' stato definito un modello per
rappresentare l'incertezza nei dati spaziali, a superamento dei modelli che
considerano solo oggetti geometrici con contorno esatto, che sono
un'approssimazione di oggetti geografici reali, e rendono difficile
l'integrazione di dati di fonti diverse. Nel modello proposto si mantiene
un'informazione puntuale della fascia di incertezza su tutto il contorno
dell'oggetto tramite una ridefinizione delle entità di base del modello
geometrico che deve prevedere regioni, linee e punti con contorno allargato.

Presso l'Universita' di Ancona (rapporti T3-R05 e T3-R11) sono stati studiati
gli approcci al problema della classificazione di concetti, nell'ambito
dell'elaborazione del linguaggio naturale e nell'ambito della teoria
dell'informazione. E' stato definito un approccio basato sul concetto di
entropia per la definizione di gerarchie di concetti. E' stato studiato il
problema della definizione di criteri per la selezione, all'interno della
gerarchia, del/dei cluster al livello di specificita' ottimale per la
formulazione di interrogazioni da parte dell'utente.

TEMA 4: Analisi delle informazioni estratte dal WWW

Durante il primo anno l'attivita' di ricerca e' stata focalizzata sugli aspetti
seguenti:

L'unita' di Bologna ha studiato la progettazione concettuale di data warehouse.
E' stato messo a punto un modello concettuale per la rappresentazione dei
requisiti utente (rapporto T4-R01). I principali concetti modellati sono fatti,
misure, attributi, dimensioni e gerarchie. E' stato poi definito un linguaggio
per la codifica di interrogazioni, che permettera' la rappresentazione del
carico di lavoro ai fini della progettazione logica. Infine, e' stata proposta
una metodologia per la progettazione concettuale a partire dalla documentazione
del sistema operazionale (rapporto T4-R07).

L'unita' di Roma Tre ha approfondito (rapporto T4-R03) i linguaggi per
l'analisi multidimensionale dei dati. Sono stati studiati modelli di data
warehouse e linguaggi per la loro gestione. E' stato poi definito un modello
logico per la rappresentazione degli aspetti multidimensionali di un data
warehouse contenente dati estratti da Internet (rapporto T4-R04). Su questo
modello sono stati successivamente definiti alcuni linguaggi di interrogazione
basati su paradigmi diversi. Sono state studiate alcune proprieta' generali dei
linguaggio per l'analisi dei dati. E' stata infine definita l'architettura di
un prototipo per la manipolazione di un data warehouse che utilizza il modello
e i linguaggi proposti (rapporto T4-R09).

L'unita' del Politecnico di Torino ha studiato linguaggi e algoritmi per il
data mining. Sono state analizzate le diverse tipologie di metodi e linguaggi
per l'estrazione di conoscenza (rapporto T4-R04). Insieme alle unita' di
Bologna e di Roma Tre, e' stato definito un modello logico di riferimento
comune (rapporto T4-R05). A partire da questo modello, e' stata definita
un'estensione del linguaggio SQL per eseguire l'estrazione di regole di
associazione da data warehouse e sono stati definiti gli algoritmi per la
realizzazione degli operatori di tale linguaggio. E' stata definita
l'architettura di riferimento per un prototipo per l'estrazione di regole di
associazione a partire dal linguaggio proposto (rapporto T4-R10).

L'unita' di Brescia (rapporti T4-R06 e T4-R11) ha studiato algoritmi per
l'estrazione di conoscenza. E' stato formalizzata una macchina diagnostica per
sistemi attivi, orientata alla generazione di nuovi requisiti per la tecnologia
di estrazione della conoscenza ed alla sua validazione. E' stata specificata
una tecnica di estrazione sistematica di conoscenza diagnostica associativa dal
modello di un sistema attivo per i casi di dimensioni trattabili. Sono state
definite tecniche di compilazione della conoscenza relativa ai modelli dei
sistemi attivi che generano un insieme di regole diagnostiche caratteristiche
di un certo sistema.

L'unita' di Roma La Sapienza (rapporti T4-R02 e T4-R08, prodotto software
T4-S01) ha studiato la verifica delle prestazioni. Si e' lavorato alla
definizione di una architettura hardware e software di riferimento che prevede
l'integrazione del modulo di visualizzazione dei dati con i moduli di raccolta
e gestione degli stessi. Si e' inoltre impostata una metodologia di analisi dei
costi che tenga conto sia della componente di trasferimento dei dati, che dei
costi di accesso da parte delle applicazioni di analisi. Cio' suggerisce di
adottare un'architettura basata su una filosofia di 'function shipping',
mutuata dal contesto delle basi di dati distribuite e parallele.

TEMA 5: Visualizzazione di informazioni provenienti dal WWW

Sono coinvolte in questo tema le unita' di Bari e Roma "La Sapienza", che hanno
lavorato in forma strettamente coordinata.

E' stata effettuata (rapporto T5-R01) la rassegna dello stato dell'arte della
ricerca sulla visualizzazione di informazioni. E' stata quindi proposta una
soluzione originale di visualizzazione di dati su WWW: e' una tecnica per
visualizzare meta-informazione sul contenuto di una base di dati nel contesto
di una biblioteca elettronica.

Per migliorare l'usabilita' di interfacce WWW, e' stato avviato (rapporto
T5-R04) lo studio della possibilita' di renderla adattiva ai vari profili di
utenza individuabili. La gestione del modello utente in base al quale il
sistema si adatta allo specifico utente sfrutta tecniche di apprendimento
automatico.

Contemporaneamente e' stato affrontato il problema di associare automaticamente
ad una base di dati una rappresentazione visuale che sia corretta, completa ed
efficace rispetto ai bisogni dell'utente. In particolare, abbiamo 1) definito
una teoria generale per stabilire l'adeguatezza di una rappresentazione visuale
associata ad una base di dati, note le caratteristiche della base dati ed un
certo insieme di regole riguardanti la percezione dell'utente; 2) gettato le
basi per costruire un sistema, chiamato DARE: Drawing Adequate REpresentations,
basato su questa teoria. Il cuore di DARE e' costituito da una base di
conoscenza, contenente regole relative alla base di dati, alle visualizzazioni,
al legame tra dati e visualizzazioni, alla percezione dell'utente, e da
meccanismi di ragionamento definiti su di essa. La teoria generale e lo stato
di avanzamento del sistema DARE sono contenuti nei documenti T5-R02 e T5-R03.

TEMA 6: Metodologie di progettazione di siti WWW

Nel corso del primo anno le varie unita' di ricerca hanno approfondito diversi
aspetti del problema di progettazione di siti.

Presso l'unita' di Roma Tre (rapporto T6-R01) e' stata definita una metodologia
per il progetto di siti articolata nelle tre fasi fondamentali: progetto dei
dati, progetto della struttura ipertestuale, progetto della presentazione
grafica. Per quanto riguarda invece la descrizione della struttura
ipertestuale, e' stato utilizzato, come nel tema 2, il modello ADM, che
consente di descrivere efficacemente l'organizzazione dei dati in pagine Web.
La metodologia e' stata sperimentata nello sviluppo di vari siti reali
(rapporto T6-R05). A supporto della metodologia e' stato definita la sintassi e
la semantica di un sistema, chiamato Penelope (rapporto T6-R04), che permette
la generazione automatica di siti HTML (e XML) a partire dal contenuto della
base di dati. La semantica del linguaggio e' definita mediante gli operatori di
una semplice estensione dell'algebra relazionale nidificata.

Presso l'unita' del Politecnico di Milano (rapporti T6-R02 e T6-R06), la
ricerca ha inoltre portato alla estensione di un modello per la specifica
astratta, a livello concettuale, delle caratteristiche di un'applicazione Web,
bastato sui seguenti livelli: struttura, derivazione, composizione,
navigazione, presentazione e personalizzazione. Il livello di struttura
definisce le informazioni di base gestite dal sito. Il livello di derivazione
definisce come alcune informazioni possono essere calcolate a partire dalle
informazioni di base. Il livello di composizione, definisce le informazioni (di
base e derivate) che devono essere presenti nelle pagine. Il livello di
navigazione definisce la struttura ipertestuale del sito. Il livello di
presentazione specifica l'aspetto grafico delle pagine. Infine, il livello di
personalizzazione si occupa di definire la corrispondenza tra gli utenti e la
visione del sito, permettendo di specificare quali sono le pagine, le
navigazioni e l'aspetto grafico del sito che devono essere associati a ciascun
utente. La metodologia e' stata inoltre estesa per lo studio di tecniche di
personalizzazione dei siti progettati (rapport0 T6-R07).

Relativamente all'introduzione di funzionalita' temporali, l'unita' di Bologna
(rapporto T6-R03) ha proposto una semplificazione nel lavoro di estensione
temporale (e di implementazione di un prototipo, T6-S09), senza pero' perdere
nessuna delle funzionalita' specificate tra gli obiettivi.

TEMA 7: Sicurezza e controllo degli accessi in siti WWW

L'attivita' e' stata svolta dall'unita' dell'universita' di Milano e ha portato
alla produzione dei rapporti T7-R01 e T7-R02 e del prototipo T7-S03.

Sono stati affrontati i seguenti temi.

1) Sviluppo di un modello di autorizzazioni basato sul contenuto per librerie
digitali (DL) su Web. Il modello proposto permette la concessione di privilegi
in base alle caratteristiche e alle qualifiche dell'utente chiamate
credenziali, oltre che sugli utenti stessi, e basati sui concetti associati
agli oggetti oltre che agli oggetti stessi. In particolare il modello di
autorizzazione e' caratterizzato dalle seguenti funzionalita': (i)
Specifica flessibile di autorizzazioni basate sulle qualifiche e sulle
caratteristiche degli utenti ( incluse autorizzazioni positive e negative );
(ii) Controllo dell'accesso agli oggetti della DL sia dipendente che
indipendente dal contenuto; (iii) Granularità dell'autorizzazione che va da un
insieme di oggetti a specifiche porzioni di documenti. Il modello e' stato
sperimentato in un prototipo (riferito con il nome di DLAM) realizzato in base
ad un'architettura client-server.

2) Estensione del modello di cui al punto (1) con funzionalita' per il
supporto di PICS (Platform for Internet Content Selection, uno standard per
l'etichettatura di documenti distibuiti su web definito dal W3C, che consente
di classificare un documento in base sia ai concetti che esso contiene sia al
grado in cui tali concetti sono contenuti nel documento). In questo modo si ha
una specifica ancora più flessibile delle autorizzazioni.

3) Definizione di un meccanismo di classificazione automatica di dati
semi-strutturati. E' stato sviluppato un approccio che permette di classificare
automaticamente dati semi-strutturati, quali i dati tipici delle applicazioni
WWW, rispetto ad una gerarchia di tipi predefinita. Lo scopo di questa
classificazione e' di permettere l'applicazione di politiche di controllo degli
accessi espresse in termini di gerarchie di tipi predefinite.

2.2Problemi

Non si sono presentati problemi.

3.Rendiconto scientifico delle attività presso le sedi partecipanti

1]  Unità di       IIIa Universita' degli Studi di ROMA

     Responsabile PAOLO ATZENI

     Visualizza dati Unita'

2]  Unità di       Universita' degli Studi di MODENA

     Responsabile SONIA BERGAMASCHI MONARI

     Visualizza dati Unita'

3]  Unità di       Universita' degli Studi della CALABRIA

     Responsabile DOMENICO SACCA'

     Visualizza dati Unita'

4]  Unità di       Universita' degli Studi de L'AQUILA

     Responsabile PAOLINO DI FELICE

     Visualizza dati Unita'

5]  Unità di       Ia Universita' degli Studi di ROMA "La Sapienza"

     Responsabile SILVIO SALZA

     Visualizza dati Unita'

6]  Unità di       Universita' degli Studi di MILANO

     Responsabile ELISA BERTINO

     Visualizza dati Unita'

7]  Unità di       Universita' degli Studi di BOLOGNA

     Responsabile PAOLO CIACCIA

     Visualizza dati Unita'

8]  Unità di       Universita' degli Studi di VERONA

     Responsabile LETIZIA TANCA

     Visualizza dati Unita'

9]  Unità di       Politecnico di MILANO

     Responsabile BARBARA PERNICI

     Visualizza dati Unita'

10]  Unità di       Universita' degli Studi di PISA

     Responsabile ANTONIO ALBANO

     Visualizza dati Unita'

11]  Unità di       Universita' degli Studi di TORINO

     Responsabile ANTONIO DI LEVA

     Visualizza dati Unita'

12]  Unità di       Universita' degli Studi di CATANIA

     Responsabile ANTONELLA DI STEFANO

     Visualizza dati Unita'

13]  Unità di       Universita' degli Studi di BARI

     Responsabile MARIA COSTABILE

     Visualizza dati Unita'

14]  Unità di       Universita' degli Studi di PADOVA

     Responsabile MARISTELLA AGOSTI

     Visualizza dati Unita'

15]  Unità di       Politecnico di TORINO

     Responsabile ELENA BARALIS

     Visualizza dati Unita'

16]  Unità di       Universita' degli Studi di BRESCIA

     Responsabile VALERIA DE ANTONELLIS

     Visualizza dati Unita'

17]  Unità di       Universita' degli Studi di ANCONA

     Responsabile MAURIZIO PANTI

     Visualizza dati Unita'

4.Obiettivi per il secondo anno del programma

Gli obiettivi rimangono inalterati e possono essere indicati come il completamento di quelli indicati al punto 1.

Coordinatore	PAOLO ATZENI

Titolo del Programma	METODOLOGIE E TECNOLOGIE PER LA GESTIONE DI DATI E PROCESSI SU RETI INTERNET E INTRANET

Costo del Progetto	2.372.400.000

Quota Cofinanziamento Murst	914.000.000

Quota Cofinanziamento Ateneo	881.685.000 (RD+RA certificate )

Fondi complessivi utilizzati nel nel primo anno	521.452.324 (calcolato dal sistema)

Spese di coordinamento	9.473.000

Durata	24 mesi