Equipe : READ - Analyse et Compréhension de documents

Participants : Yolande Belaïd, Afef Kacem [correspondant], Meriem Zaoui [correspondant], François Parmentier, Patrick Nourrissier, Stéphane Escaich.

Mots clés : Dimension Fractale, Classification neuronale, Réseau de concepts, Architecture émergente .

Résumé :

Dans cette partie, nous nous sommes intéressés aux problèmes de la segmentation de documents hétérogènes ou multilingues et à la reconnaissance de documents textuels faiblement structurés, de type références bibliographiques ou sommaires de revues.

Dans le premier cas, nous avons proposé des méthodes d'extraction et de classification du contenu. En effet, quoiqu'on puisse le penser, le contenu d'un document est loin d'être homogène. Plusieurs composantes différentes forment le document, tels que du texte, des tableaux, des formules mathématiques, des figures, etc. N'ayant ni la même structure, ni la même typographie, ces composantes nécessitent d'être séparées afin d'être analysées plus efficacement par des systèmes dédiés.

Dans le second cas, nous avons poursuivi nos recherches sur la modélisation des structures logiques et physiques des documents et sur l'utilisation des modèles génériques en reconnaissance. L'absence de structures linguistiques fortes dans les deux types d'applications traitées nous a conduits à utiliser des systèmes de raisonnement fondés sur la recherche de mots-clés informants et leurs co-occurrences.

Géométrie fractale en segmentation de documents bilingues

Le but de ce travail, réalisé par Mériem Zaoui, est d'étudier une méthode générale de segmentation de documents bilingues (arabe et français) en séparant les mots de chaque langue. L'intérêt de ce travail est d'arriver à isoler automatiquement des langues différentes afin de pouvoir les reconnaître par des lecteurs optiques dédiés à ces langues. La méthode utilisée est fondée sur les principes de la géométrie fractale. Mandelbort définit la dimension fractale comme étant ``une valeur utilisée pour mesurer le degré d'irrégularité et de fragmentation d'un ensemble géométrique ou d'un objet naturel''. Nous avons pensé que la différence de morphologie entre les deux écritures peut être révélée à travers la dimension fractale de leur image. Une des méthodes les plus anciennes de calcul de la dimension fractale d'un ensemble contenu dans un espace de dimension 2 consiste à utiliser la dimension de Haussdorf qui se base sur le calcul à l'aide de disques de rayons distincts. Dans ce travail, pour des raisons de faisabilité, nous avons plutôt opté pour la dimension de Minkowski-Bouligrand qui en est un majorant.

Logique floue en analyse de documents mathématiques

Les formules mathématiques ont une structure bidimensionnelle qui reste difficile à extraire et à restituer par les lecteurs optiques. Aussi, dans le cadre de sa thèse, Afef Kacem propose une méthode de localisation de formules mathématiques. La méthode choisie est fondée sur l'étiquetage des symboles mathématiques et l'extension du contexte aux symboles voisins. A cause de la faiblesse des critères typographiques à ce niveau, on utilise la logique floue pour l'étiquetage. Des règles de voisinage structurel sont mises à profit pour propager la structure aux éléments proches tels les indices, les exposants, etc. et délimiter l'espace des formules. Cette extension reste partielle pour les formules isolées du texte dont la délimitation revient à une simple vérification de l'existence de quelques symboles clés.

Approches neuronales en classification de formulaires

L'objectif de ce travail est de définir une méthode d'extraction d'informations minimales à partir d'une image de document, mais suffisamment riches pour la reconnaissance de la structure logique. L'idée est de contourner l'emploi d'un modèle générique qui orienterait trop vite la reconnaissance vers une application spécifique. Il s'agit de chercher une méthode de pré-structuration applicable à l'ensemble le plus large possible de classes de documents. Le défi de ce travail réside dans le recensement des informations minimales qui conduisent au degré de structuration juste suffisant pour la reconnaissance. Le cadre choisi pour tester cette approche concerne le traitement des formulaires et des tableaux. Dans ces documents, les informations minimales sont essentiellement portées par les lignes et les agencements concomitants d'items [[13]].

Du fait du bruit et de la dégradation des lignes, la méthode d'extraction utilisée est de type global et s'appuie sur la transformée de Hough. La détermination de la pré-structure est réalisée d'abord par l'analyse du graphe d'intersection des lignes ; les items correspondent alors aux circuits minima. Ensuite, les items sont classés en fonction de leur contenu, puis structurés en lignes et colonnes selon l'alignement horizontal et vertical auquel ils adhèrent. Une fois les cellules détectées, le travail de classification se poursuit sur l'analyse du contenu en le séparant en classes. Dans le cadre de l'application citée, les classes font séparer les zones de pré-imprimé et les zones de montants [[13]].

Echange administratif

Ce travail rentre dans le cadre d'un projet national tunisien sur la modernisation de l'administration permettant l'amélioration des échanges et transferts électroniques d'informations. Il s'agit d'étudier la dématérialisation des imprimés administratifs et ce, non seulement du point de vue technique mais aussi juridique et financier. En particulier, il s'agit d'étudier les aspects normatifs liés aux imprimés administratifs, le droit de la preuve, la certification des échanges immatériels entre administrations et entre l'administration et ses usagers. Le travail de recherche de Mme Thouraya Guizani consiste, en s'appuyant sur une expérience de reconnaissance de déclaration de salaires de la Caisse Nationale de la Sécurité Sociale (CNSS), d'étudier un format d'échange de documents, par exemple sous forme de formulaire, entre toutes les caisses d'assurance dans le pays.

Reconnaissance des références bibliographiques

Pour des documents textuels où la structure logique est dominante, la modélisation de la structure a conduit à s'approcher davantage de la structure des phrases et à tenir compte des aspects langagiers du texte [[12],[11],[10]].

Dans le cadre du projet BASCET, François Parmentier a utilisé un réseau de concepts pour modéliser la connaissance sur la structure des références bibliographiques. Le modèle est défini à partir d'une base de références. Il est est plus orienté vers le raisonnement que vers l'analyse syntaxique. L'idée est d'éviter de disposer d'un modèle exhaustif de toutes les constructions possibles ainsi que d'être conditionné uniquement par la syntaxe des hypothèses. En quelque sorte, dans le modèle des notices, nous avions étudié le problème de l'identification de la structure en employant un raisonnement syntaxique. Ici, on cherche à étudier le raisonnement qui conduira à la reconnaissance.

François Parmentier s'est inspiré du modèle " Copycat ", défini par Hofstadter et Mitchell pour la recherche d'analogie entre chaînes de caractères. Le modèle dans Copycat est un réseau de concepts représentant de manière souple le micro-domaine étudié. Il s'apparente à une mémoire à long terme qui n'est pas statique comme dans GRAPHEIN, mais qui évolue dynamiquement au cours du temps grâce à la modification du " niveau d'activation " des concepts. Lorsque des instances d'un concept sont utilisées pour décrire une situation, son activation augmente et se propage aux concepts voisins. Puis, si l'activation n'est pas " entretenue " par d'autres instances, elle décroît peu à peu. D'autre part, les concepts sont accompagnés d'une " profondeur conceptuelle " qui correspond à leur niveau d'abstraction. Les profondeurs conceptuelles sont fixes et déterminent la vitesse à laquelle les concepts se désactivent : plus un concept est " profond " ou abstrait, et plus il reste activé longtemps. Cela signifie que lorsqu'on a repéré une instance d'un concept profond " contraire " dans une situation, on doit essayer de "creuser " dans cette direction davantage que pour un concept plus banal, comme successeur, car on est dans ce cas à proximité de la solution [[9]].