previous up next top index
Précédent : Recherche dans les séquences Remonter : Recherche dans les séquences Suivant : Séquences génétiques


Motifs

Dans l'étude des variantes de l'algorithme de Knuth-Morris-Pratt, nous avons prouvé l'existence de points de renouvellement fréquents : au moins un dans chaque fenêtre de la taille du motif. On en déduit la linéarité de la complexité de ces algorithmes et des propriétés de convergence presque sure ; les constantes de linéarité elles-mêmes ont été calculées dans de précédents travaux. Pour les algorithmes classiques du type Boyer-Moore, nous avons montré que le renouvellement est presque sûr. Il s'ensuit que le coût, sur l'ensemble des textes possibles, a une distribution gaussienne. Des calculs combinatoires, utilisant fortement les périodes du mot recherché permettent de caractériser la moyenne, la variance et la vitesse de convergence vers l'état stationnaire.

La complexité des évaluations de performances dans le cas markovien provient du nombre de cas différents à considérer. Nous définissons pour chaque problème des langages caractéristiques dont la contribution au coût total de l'algorithme est calculable. Ainsi, la constante de linéarité des variantes de Knuth-Morris-Pratt a été obtenue en agrégeant des états de l'automate associé. L'évaluation du nombre d'occurrences d'un motif donné dans un texte se ramène à des inversions de systèmes d'équations algébriques satisfaits par les séries génératrices et la généralisation au cas markovien est faite dans [54] sans augmenter la taille du système. Ce travail est en cours d'extension à la recherche approchée d'un motif.

Dans le domaine de la recherche multidimensionnelle, L. Rostami et M. Régnier ont appliqué leurs résultats théoriques sur les périodes en 2D pour implanter des algorithmes de recherche 2D. En effet, un motif périodique est engendré par un ensemble (minimal) de mots. Ceci permet d'utiliser en dimension 2 les procédures de recherche efficaces en 1D utilisant les périodes (duel, témoin, ...). Elles ont ainsi proposé un algorithme de recherche de témoins [33].

Les travaux de Ph. Jacquet ont permis de traiter en profondeur les lois limite de l'algorithme de compression de Lempel et Ziv lorsque la taille du texte à compresser croît. De ces résultats a découlé la caractérisation du facteur de redondance de l'algorithme de Lempel et Ziv par rapport à la compression entropique optimale, fermant par là même un problème ouvert depuis 1978 dans la communauté de la théorie de l'information. Ces résultats sont relatifs au modèle statistique dit de Bernoulli où chaque caractère possède une distribution indépendante des caractères qui le précèdent ou lui succèdent dans le texte. Notre objectif est de résoudre le problème de l'extension markovienne d'ici un ou deux ans avec les moyens dont nous disposons dans la boîte à outils de la théorie analytique de l'information.

Dans un domaine plus pratique, les algorithmes de compression de type Lempel et Ziv peuvent être étendus à des média autres que le texte, par exemple l'image et le son. Des expériences concluantes ont été menées sur des images fixes à l'université de Purdue, en liaison avec le projet ALGO. L'intérêt de l'approche à la Lempel et Ziv réside dans le fait que la décompression est très rapide (simple lecture en ligne d'un fichier) et ne nécessite que peu de ressources de calcul. Une application prometteuse est dans les techniques de communication Internet où on ne peut pas exiger du client trop de ressources instantanées pour la décompression en ligne. On reviendra sur cette problématique dans la section consacrée aux réseaux.



previous up next top index Précédent : Recherche dans les séquences Suivant : Séquences génétiques Remonter : Recherche dans les séquences