previous up next top index
Précédent : Motifs Remonter : Recherche dans les séquences Suivant : Algorithmique et modélisation des réseaux


Séquences génétiques

Les calculs statistiques évoqués ci-dessus fournissent des formules exactes pour la probabilité d'occurrence d'un mot donné. Appliquées au DosDNA, petits motifs répétés qui sont la trace de l'instabilité génétique dans les séquences d'ADN, elles permettent de tester la signification statistique des répétitions. En effet, pour les tailles de séquences considérées, ces formules sont calculables grâce au package MAPPLE gfun dû à B. Salvy et P. Zimmermann.

Une autre application est la prédiction de structures secondaires, déterminées par l'appariement de mots avec leurs images inverses. On définit un seuil de pertinence pour de tels appariements qui représente la longueur au dessus de laquelle un appariement n'est plus un simple effet du hasard statistique. Choisi comme point d'ancrage, un tel appariement permet une approche ``diviser pour régner'' qui a donné de bons résultats sur l'ARN 16S et 23S. La complexité de la prédiction dépend du nombre de structures qu'il est possible d'associer à une séquence donnée. Fariza Tahi, du projet VERSO et M. Régnier ont généralisé des travaux d'énumération dus à M. de Chaumont, X. Viennot et M. Waterman afin de prendre en compte des contraintes biologiques [34].

P. Nicodème poursuit son travail sur la recherche de similarités entre protéines. Il s'agit ici d'organiser les bases de données de séquences protéiques connues en regroupant les protéines partageant des fonctions biologiques proches. Il participe à l'INRA-Toulouse au développement de la base ProDom29 où les familles de protéines sont regroupées suivant leurs domaines fonctionnels. Une similarité entre protéines s'exprime via une fonction de score. Pour définir des seuils de pertinence, P. Nicodème utilise les formules de Karlin-Iglehart qui associent une pertinence probabiliste aux scores obtenus par les algorithmes de recherche de similarités tels Blast. Il a entrepris de regrouper les différents développements mathématiques permettant d'obtenir ces formules ; ce travail précisera en particulier les hypothèses nécessaires pour leur utilisation. Les constantes des formules appliquées à chaque domaine ont été calculées à partir de séquences aléatoires dans une collaboration avec Jean-Jacques Codani de l'action GéNOME et le logiciel de recherche de similarité BlastMultAl est maintenant opérationnel sur ProDom29. Il ressort du travail de comparaison avec d'autres méthodes que BlastMultAl est d'une sensibilité équivalente à celle des Profiles, et supérieure à celle obtenue avec les consensus. BlastMultAl ayant permis de trouver des similarités distantes nouvelles, cette méthode, qui est utilisable avec des familles contenant très peu de séquences, peut être considérée comme complémentaire des Profiles. On étudie une importante extension aux familles contenant des trous (insertions et suppressions autorisées). Les formules de Karlin-Iglehart precédemment citées ne s'appliquent pas ; on utilisera la méthode d'approximation de Poisson récemment proposée par Waterman et Vingron.

L'objet des recherches sur les séquences est ici non seulement l'obtention de la complexité moyenne des algorithmes, mais aussi l'application en retour à l'algorithmique de résultats probabilistes et énumératifs difficiles. Ceci s'insère dans un cadre plus général visant à développer une théorie analytique de l'information qui s'appuie sur la combinatoire, les probabilités et l'analyse.



previous up next top index Précédent : Motifs Suivant : Algorithmique et modélisation des réseaux Remonter : Recherche dans les séquences