previous up next contents
Précédent : Évaluation d'une file Remonter : Algorithmique Suivant : Algorithmique en théorie

Chaînes, séquences, compression, ADN

Participants : Philippe Jacquet, Pierre Nicodème, Mireille Régnier (Voir également le rapport d'activité de l'Action Génome).

La recherche de motifs dans des chaînes de caractères ou textes a donné lieu à des calculs de complexité et des développements algorithmiques. Les applications informatiques se situent notamment dans la compression et les images.

Les biologistes utilisent largement l'informatique pour rechercher des motifs spécifiques dans des séquences (les textes). Beaucoup de ces algorithmes tirent avantage des propriétés statistiques des motifs recherchés. Les mots sont un bon exemple de structure combinatoire décomposable, et des méthodes algébriques découlant des recherches méthodologiques du projet ont permis récemment d'obtenir la complexité moyenne de certains des principaux algorithmes de recherche de motifs. Dans ce domaine, M. Régnier poursuit des recherches sur la complexité moyenne en introduisant des outils probabilistes. L'absence d'un processus de renouvellement dans la classe des algorithmes de Boyer-Moore complique l'obtention de la complexité par les seules méthodes algébriques. Une collaboration avec H. Mahmoud et R. Smythe (Université George Washington) a permis d'achever l'étude de l'algorithme de Boyer-Moore-Horspool. W. Szpankowski et M. Régnier travaillent à la généralisation des outils de calcul effectif à des hypothèses markoviennes, les plus intéressantes pour les applications biologiques. Ils étudient notamment des paramètres utilisés dans de telles applications. Pour les algorithmes séquentiels, soit l'ensemble des variantes ``raisonnables'' du procédé de Morris-Pratt, ils ont montré l'existence a priori d'une constante de linéarité sous des hypothèses minimales (ergodicité et stationnarité) concernant les distributions des caractères des motifs et des textes [53]. Les résultats obtenus par Ph. Jacquet et W. Szpankowski sur l'analyse des arbres digitaux et de leurs distributions limites se relient à cette problématique. Ils ont permis de mettre en évidence des propriétés fines de l'algorithme de compression Lempel et Ziv, déjà évoquées.

Dans le domaine de la recherche multidimensionnelle, L. Rostami et M. Régnier ont appliqué leurs résultats théoriques [52] sur les périodes en 2 dimensions (2D) pour implanter des algorithmes de recherche dans ce cas. En effet, un motif périodique est engendré par un ensemble (minimal) de mots, selon une loi de répétition. Les méthodes de recherche efficace en dimension 1 utilisant les périodes (duel, témoin, ...) se généralisent ainsi à la dimension 2. L'implantation en cours de réalisation combine alors de manière simple les algorithmes optimisés en dimension 1.

En liaison avec Daniel Kahn, de l'Inra-Toulouse, Pierre Nicodème a développé BLASTPRODOM, une nouvelle méthode de recherche d'homologies entre une séquence protéique et un domaine protéique ; l'architecture logicielle utilisée est voisine de celle utilisée par le logiciel de recherches d'homologies BLAST. Les simulations effectuées montrent que les outils probabilistes développés par Samuel Karlin pour BLAST sont aussi applicables à BLASTPRODOM. Des simulations sont en cours pour évaluer les paramètres spécifiques à chaque domaine de la base de domaines PRODOM. La méthode de recherche d'homologies BLASTPRODOM sera ensuite mise à disposition des biologistes sur le serveur PRODOM de l'Inra-Toulouse.


previous up next contents
Précédent : Évaluation d'une file Remonter : Algorithmique Suivant : Algorithmique en théorie