Projet : ALGO

previous up next contents
Précédent : Calcul formel Remonter : Fondements scientifiques Suivant : Algorithmique et modélisation des réseaux


   
Algorithmiques des séquences



Participants : Frédéric Chyzak, Philippe Dumas, Philippe Flajolet, Pierre Nicodème, Mireille Régnier.

Mots clés : combinatoire des mots, séquences, recherche de motifs, génome .

Résumé :

L'objet des recherches sur les séquences est la conception de nouveaux algorithmes, l'obtention de la complexité moyenne de ces algorithmes et l'application à l'algorithmique de certains résultats statistiques. Plus généralement, nous développons une théorie analytique de l'information qui s'appuie sur la combinatoire, les probabilités et l'analyse.

  L'algorithmique des séquences ou objets textuels, couvre des domaines d'application variés (compression, images, biologie, ...). Ce sujet comprend d'abord des recherches algorithmiques. Il s'agit de trouver efficacement un motif ou un ensemble de motifs dans un texte. Cet ensemble peut en particulier être l'ensemble des mots voisins d'un mot donné, à un nombre d'erreurs près, où le type et le nombre d'erreurs autorisées sont déterminés par l'application. Dans certaines applications (biologie, compression de textes), on recherche des similarités, c'est-à-dire des mots, ou des ensembles de mots similaires souvent répétés. L'aléa combinatoire est au coeur de ces problèmes. D'une part, la structure des mots, leurs périodes, apparaît essentielle tant du point de vue de la conception que de l'analyse. Par exemple, tout algorithme raisonnable de recherche de motif est conçu pour exploiter certaines régularités et on relie son domaine d'efficacité à des structures de langages particulières. D'autre part, dans les recherches de similarité, des résultats statistiques sur les mots ou sous-séquences d'un texte sont nécessaires pour évaluer la pertinence des similarités mises à jour par les algorithmes.

D'un point de vue méthodologique, des théorèmes probabilistes trouvent des applications naturelles dans l'étude des séquences. Plus précisément, nous avons mis en évidence différents types de processus de renouvellement, la loi limite étant généralement gaussienne ; le calcul effectif des paramètres de coût peut être très délicat et les outils combinatoires et analytiques permettent pour cette classe de problèmes les calculs effectifs des distributions. Nous cherchons à développer une théorie analytique des séquences. La ``dépoissonisation analytique'' est un procédé de portée générale (inventé par P. Jacquet et M. Régnier, développé avec W. Szpankowski de l'Université de Purdue) sans analogue probabiliste direct, car il revient à considérer un processus de Poisson de taux complexe. Il trouve de nombreuses applications en combinatoire statistique car il permet des développements asymptotiques complets sur des paramètres comme l'entropie et la compressibilité d'un texte qu'il était difficile d'estimer auparavant. Parallèlement, nous développons des outils de calcul dans le modèle probabiliste markovien. La complexité des évaluations de performances dans le cas markovien provient du nombre de cas différents à considérer. Nous définissons pour chaque problème des langages caractéristiques dont la contribution au coût total de l'algorithme est calculable. Ceci équivaut à une agrégation des états de l'automate associé. Les résultats s'appliquent à la compression et à la recherche de motifs avec erreurs ou de motifs exceptionnels dans les textes (DosDNA, reconnaissance de gènes, etc.). Ils permettent aussi d'établir les domaines d'efficacité des différents algorithmes de recherche de similarités dans des bases de données protéiques.



previous up next contents
Précédent : Calcul formel Remonter : Fondements scientifiques Suivant : Algorithmique et modélisation des réseaux