previous up next contents
Précédent : Bases de données Remonter : Bases de données Suivant : L'Espace et le

Documents électroniques

Les documents électroniques représentent un large échantillon des données manipulées aujourd'hui : édition électronique, documentation, systèmes médicaux, etc. Ces documents sont généralement stockés dans des fichiers et manipulés par des systèmes de recherche d'information (SRI) et des systèmes hypertextes (SH), qui offrent des mécanimes d'accès efficaces mais d'assez bas niveau. Les SRI permettent des recherches rapides sur le contenu des documents grâce à des index plein-texte. Les systèmes hypertextes offrent aux utilisateurs la possibilité de naviguer dans le texte.

Ni les systèmes hypertextes, ni les systèmes de recherche d'information ne fournissent malheureusement les fonctionnalités de haut niveau que l'on trouve dans les systèmes de gestion de bases de données : tels la modélisation, les langages de requêtes conviviaux, les vues, la concurrence d'accès, etc. Il nous a paru primordial d'étudier l'intégration des documents dans les systèmes de bases de données (SGBD).

Nous avons montré l'année dernière la nécessité d'enrichir les modèles de bases de données afin de permettre le stockage des documents structurés. Nous avons également étendu le langage de requêtes OQL aux interrogations de types SRI et SH et montré comment ce langage pouvait être traduit algébriquement. Enfin, nous avons étudié la façon de faire correspondre documents stockés dans des fichiers et documents stockés dans des bases. Cette année, nous nous sommes intéressés plus particulièrement à l'implantation de ces différentes idées.

Nous avons implanté l'extension du langage OQL au-dessus du système O2. Nous avons travaillé à partir de l'interprète OQL actuellement commercialisé. Les modifications que nous avons apportées sont de deux types. D'une part, nous avons ajouté la notion d'union de types nécessaire à la représentation des documents, et qui peut être modélisée assez simplement mais qui nécessite des extensions conséquentes de l'interprète de requêtes afin de permettre un accès transparent au composant instancié d'une union. D'autre part, nous avons implanté les nouvelles fonctionnalités SRI du langage. Le langage permet maintenant une interrogation simple et complète des données, sans connaissance de leur structure. Ce type de langage n'existe dans aucun des SGBD commercialisés actuellement.

Parallèlement à cette implantation, une étude a été menée pour déterminer dans quelle mesure les techniques d'indexation plein-texte mises au point pour les SRI peuvent être appliquées dans le contexte des SGBD. Une architecture permettant d'assurer l'interopérabilité entre O2 et le SRI Wais a été implantée ([43]). Elle permet l'interrogation par mots-clés d'une base de données, une sorte de grep Unix. Nous étudions maintenant l'utilisation de l'index plein-texte pour l'optimisation des requêtes plus traditionnelles.

Enfin, nous avons développé des outils qui permettent de transformer une base de données en un document structuré stocké dans un fichier et vice-versa. Le prototype O2Writer [41] permet la génération automatique d'un document SGML à partir d'une base O2. Ce qui rend ce prototype différent des systèmes existants est sa capacité à travailler sur le schéma plutôt que sur les données mais surtout la possibilité qu'il offre de manipuler simplement et de stocker une représentation logique de la transformation BD vers SGML. Nous avons également développé un outil de traduction automatique d'un document SGML vers une base O2. Cet outil est une extension du traducteur de documents SGML développé par Euroclid.


previous up next contents
Précédent : Bases de données Remonter : Bases de données Suivant : L'Espace et le