previous up next top index
Précédent : Arithmétique en très grande précision Remonter : Actions de recherche Suivant : Motifs


Recherche dans les séquences

Participants : Philippe Jacquet, Pierre Nicodème, Mireille Régnier

L'algorithmique des séquences ou objets textuels, couvre des domaines d'application variés (compression, images, biologie, ...). Ce sujet comprend d'abord des recherches algorithmiques : recherche d'un motif dans un texte, recherche multidimensionnelle, compression, ... On y analyse aussi l'aléa combinatoire qui est au coeur de ces problèmes. Tant du point de vue de la conception que de l'analyse, la structure des mots -- leurs périodes -- apparaît essentielle. Par exemple, tout algorithme raisonnable de recherche de motif est conçu pour exploiter certaines régularités [33] et on relie son domaine d'efficacité à des structures de langages particulières [45, 20]. Notre approche probabiliste a deux aspects. D'une part, des grands théorèmes probabilistes trouvent des applications naturelles dans l'étude des séquences. Plus précisément, nous avons mis en évidence différents types de processus de renouvellement, la loi limite étant généralement gaussienne ; le calcul effectif des paramètres de coût peut être très délicat et les outils combinatoires et analytiques permettent pour cette classe de problèmes les calculs effectifs des distributions. D'autre part, certaines applications (biologie, compression) se ramènent à des recherches de similarité, où des résultats statistiques sur les mots ou sous-séquences d'un texte sont nécessaires pour évaluer la pertinence des similarités mises à jour par les algorithmes.

D'un point de vue méthodologique, nous cherchons à développer une théorie analytique de l'information. La ``dépoissonisation analytique'' est un procédé de portée générale (inventé par Ph. Jacquet et M. Régnier) qui est sans analogue probabiliste direct, car il revient à considérer un processus de Poisson de taux complexe. L'année 1996 a vu une synthèse des théorèmes de dépoissonisation menée par P. Jacquet et Wojciech Szpankowski (université de Purdue). La dépoissonisation trouve de nombreuses applications en combinatoire statistique (arbres digitaux, par exemple). Fondée sur les intégrales de col, elle apparaît en aval des analyses de Mellin et permet d'apercevoir les bases d'une théorie analytique de l'information ; elle permet en effet des développements asymptotiques complets sur des paramètres comme l'entropie et la compressibilité d'un texte que les théoriciens de l'information avaient du mal à estimer auparavant. Nous développons aussi des outils de calcul pour le cas markovien [54, 16]. Les résultats s'appliquent à la compression et à la recherche de motifs exceptionnels dans les textes (DosDNA, prédiction de structures secondaires, ...). Ils permettent aussi d'établir les domaines d'efficacité des différents algorithmes de recherche de similarités dans des bases de données protéiques.





previous up next top index Précédent : Arithmétique en très grande précision Suivant : Motifs Remonter : Actions de recherche