Equipe : READ

previous up next contents
Précédent : Logiciels Remonter : Reconnaissance de l'Ecriture et Analyse Suivant : Actions régionales, nationales et internationales


   
Contrats industriels (nationaux, européens et internationaux)

 



Participant : Olivier Lescop.

Serveur de tables de matières : le projet TDM

Ce travail s'inscrit dans le cadre du projet Calliope en collaboration entre le centre de recherche de Xerox et l'INRIA. Calliope est un projet de bibliothèque électronique qui permet à des chercheurs d'accéder depuis leur station de travail à un ensemble de périodiques scientifiques physiquement stockés sur un site distant. Calliope développe le concept de télé-photocopie, c'est-à-dire la numérisation à la demande d'articles scientifiques et leur impression à distance. La sélection des articles se fait par les tables des matières fournies sous forme électronique par une entité tierce. Aussi importante que soit cette base de données de tables des matières, de nombreux périodiques n'y figurent pas et ne peuvent être intégrés à Calliope à moins de procéder à une resaisie manuelle toujours longue et fastidieuse. La solution retenue a été de disposer d'outils adaptés à la reconnaissance de ces tables des matières.

Le travail proposé consiste à numériser les tables de matières et à reconnaître automatiquement leurs articles. Le résultat est affiché sous forme d'un fichier HTML permettant, en cliquant sur les articles, d'ouvrir ceux-ci à la page indiquée. Le travail proprement dit consiste à localiser les articles dans la page, à extraire les différents champs de l'article de manière à pouvoir les utiliser comme clés d'accès (index) au contenu de l'article lui-même [[16]].

Analyse de bons de commandes

C'est un projet de collaboration avec la société ITESOFT concernant l'analyse des bordereaux de vente par correspondance ( VPC). Les sociétés de VPC traitent chaque année des millions de commandes. Aussi important que soit l'apport de l'informatique, la commande s'effectue encore au moyen d'un bon manuscrit. La saisie des données contenues sur les bons constituent une charge importante pour les sociétés de VPC. Les données à saisir sont de type imprimé et manuscrit. Pour l'attrait de la commande, l'information est souvent ``enfouie'' dans un halo d'annonces publicitaires qui compliquent le repérage des zones d'information utile. Etant actuellement trop contraint par le format physique des documents, le logiciel local FORMSCAN trouve des limites dans sa généralisation à d'autres types de formulaires. Aussi, la société ITESOFT souhaite orienter son produit vers un système plus général de traitement de classes de formulaires, fondé sur un modèle plus générique du contenu. L'équipe READ a été sollicitée pour faire des propositions dans ce sens.



 

previous up next contents
Précédent : Logiciels Remonter : Reconnaissance de l'Ecriture et Analyse Suivant : Actions régionales, nationales et internationales