Sous-sections

CWeb



Participants : Bernd Amann, Irini Fundulaki, Michel Scholl, Anne-Marie Vercoustre.

Mots clés : Hétérogénéité, intégration, ontologie, thésaurus, linéarisation de thésaurus .

La description de ressources Web est un thème fédérateur pour différentes disciplines comme la représentation de connaissances, les bases de données et les systèmes d'information distribués. Dans ce contexte, nous nous sommes intéressés aux problèmes de la représentation et de l'interrogation de méta-données.

Conception de Schéma de Description

Nous avons développé une nouvelle approche pour la création contrôlée de méta-données ou description de documents Web. Cette approche est fondée sur la réutilisation de structures sémantiques qu'on appelle généralement des ontologies et thésaurus. Nous avons montré qu'il est possible de créer et d'adapter des schémas de description à partir d'une ontologie (schéma conceptuel) et de différents thésaurus (hiérarchies et termes), qui peuvent être choisis par rapport aux besoins de l'utilisateur. Un tel schéma peut facilement être représenté sous forme d'un schéma base de données classique, mais également sous forme d'un schéma RDF[*][14,30]

Linéarisation de thésaurus

Un problème intéressant du point de vue base de données est l'optimisation de requêtes sur des hiérarchies de termes (thésaurus). L'idée est de coder les termes de thesaurus, de traduire des relations hiérarchiques entre termes en intervalles (fenêtres) dans un espace à une (plusieurs) dimension(s) et d'utiliser des index standards comme les arbres B+ (pour une dimension) et les arbres R (pour plusieurs dimensions) . Ainsi, un parcours d'arbre pour trouver, par exemple, tous les descendants d'un terme devient une requête intervalle sur les codes obtenus par la traduction [14].

Nous avons implanté et évalué différents codages dans un SGBD orienté-objet (O2) [44].

Prototype

Les idées ci-dessus ont été expérimentées au moyen d'un prototype implanté avec l'interface Java du SGBD orienté-objet O2. Nous avons construit un schéma pour la description de ressources culturelles à partir d'une ontologie du Comité International pour la Documentation du Conseil International des Musées (ICOM/CIDOC) et le thésaurus AAT (Art and Architecture Thesaurus) de l'institut Getty (J. Paul Getty Trust). Les descriptions sont stockées sous forme d'objets, ce qui permet une interrogation directe avec le langage de requêtes OQL de O2. Nous avons également développé une interface de programmation d'applications Web qui utilise le standard XML pour l'échange de données. Cette interface a été utilisée avec succès dans un autre projet.