Projet : ALGO

previous up next contents
Précédent : Calcul formel Remonter : Résultats nouveaux Suivant : Algorithmique et modélisation des réseaux


   
Algorithmiques des séquences



Participants : Frédéric Chyzak, Philippe Dumas, Philippe Flajolet, Pierre Nicodème, Mireille Régnier, Bruno Salvy.

 Dans l'étude des algorithmes classiques du type Boyer-Moore, H. Mahmoud et M. Régnier ont montré l'existence presque sûre de points de renouvellement. Il s'ensuit que le coût, sur l'ensemble des textes possibles, a une distribution gaussienne. L'existence de points de renouvellement s'observe aussi sur les algorithmes de type Knuth-Morris-Pratt [[19]]. La distribution gaussienne de coût en découle, sous un modèle markovien, dans un travail en cours.

M. Régnier a poursuivi ses recherches sur la statistique des mots dans un modèle markovien. Il s'agit de compter le nombre d'occurrences d'un motif donné ou d'un ensemble de motifs dans un texte sous des contraintes variées (distance minimale entre les mots, types de chevauchement autorisés, etc.). Dans [[20],[33],[21]], le comptage des motifs se ramène à l'évaluation des inversions de systèmes d'équations algébriques satisfaits par les séries génératrices. Une approche plus formelle, reliant les calculs de moyenne ou de variance à l'étude de langages particuliers est présentée dans [[34]]. Pour les tailles de séquences considérées, les formules obtenues dans [[33],[34]] sont calculables grâce au package Maple GFUN.

Une étude algorithmique et théorique des statistiques d'occurrences de motifs dans les protéines a été menée par Pierre Nicodème, chercheur post-doctorant dans le département de bioinformatique du DKFZ à Heidelberg, Bruno Salvy et Philippe Flajolet [[31]]. Les motifs considérés sont des expressions régulières. Un algorithme permet de calculer de manière exacte ou asymptotique espérance et variance du nombre d'occurrences de tout motif dans des textes de grande taille dont les lettres obéissent à une distribution de Markov. À part quelques cas de dégénérescence, la distribution limite est gaussienne. L'implantation correspondante a été réalisée par Pierre Nicodème en Maple.

Les calculs statistiques dans les séquences fournissent des formules exactes pour la probabilité d'occurrence d'un mot donné. Appliquées au DosDNA, petits motifs répétés qui sont la trace de l'instabilité génétique dans les séquences d'ADN, elles permettent de tester la signification statistique des répétitions. Une collaboration avec le Laboratoire de Génétique de l'Université de Versailles a conduit à une implémentation en C par E. Coward présentée dans sa thèse soutenue en Mars 98.

De nombreux autres problèmes d'énumération se posent en biologie moléculaire. Dans [[35]], la combinatoire de l'alignement des séquences et des structures secondaires est étudiée. Les recherches de similitudes entre les séquences sont algorithmiquement coûteuses. Différentes méthodes de filtrage ont été développées. Un travail conjoint de R. Smythe (Université de Washington) et M. Régnier étudie, en s'appuyant sur des résultats combinatoires, la distribution de la ``distance statistique'' sur des séquences aléatoires.



previous up next contents
Précédent : Calcul formel Remonter : Résultats nouveaux Suivant : Algorithmique et modélisation des réseaux