EURECA - Algorithmes d'analyse de séquences

Précédent : Algorithmes en calcul Remonter : Algorithmes Suivant : Génération de structures

Algorithmes d'analyse de séquences

Participants : Vladimir Grébinski,Grégory Kucherov

Mots clefs : algorithme, automate à états finis, séquence génétique

Les articles [10,30] décrivant les travaux antérieurs sur les propriétés des langages de motifs sont parus en 1995. Ces travaux ont servi de base pour les recherches sur les algorithmes d'analyse de séquences que Grégory Kucherov a poursuivies cette année.

Le développement d'algorithmes efficaces sur les séquences (chaînes de caractères) est un sujet classique en informatique. Ces algorithmes sont universellement utilisés dans tous les domaines d'application clés : recherche d'information dans les bases de données, compression d'information (codage de textes ou de fichiers), recherche de similarités dans les séquences (apprentissage par ordinateur), etc. Aujourd'hui les recherches sur les algorithmes d'analyse de séquences reviennent au premier plan grâce à de nouveaux domaines d'applications particulièrement importants : le WWW et la biologie moléculaire. En ce qui concerne cette dernière, les algorithmes sur les séquences peuvent s'appliquer directement à l'analyse des molécules d'ADN ou protéines qui se présentent comme de très longues chaînes de caractères sur un alphabet fixe.

Grégory Kucherov en collaboration avec Michaël Rusinowitch (projet PROTHéO) ont développé un nouvel algorithme de recherche de motifs d'une forme générale dans une séquence. Plus précisément, l'algorithme recherche d'une façon simultanée plusieurs motifs où les sont des mots donnés et est un symbole spécial ( don't care symbol) qui peut être substitué par n'importe quel mot. La complexité de l'algorithme est , où |t| est la longueur du texte et |P| la somme des longueurs des motifs. L'algorithme est basé sur les automates finis et utilise la structure de données appelée DAWG ( Directed Acyclic Word Graph), par opposition aux algorithmes pour les problèmes proches qui utilisent d'autres structures de données. L'utilisation du DAWG a permis à l'algorithme d'avoir une propriété importante et originale, à savoir de modifier dynamiquement l'automate d'analyse de texte pendant son parcours. L'article décrivant cet algorithme a été présenté à la conférence Combinatorial Pattern Matching [31] qui est la conférence la plus réputée dans le domaine de fondements théoriques de l'analyse de séquences.

Par ailleurs, nous avons poursuivi nos efforts pour appliquer nos compétences en algorithmique d'analyse de séquences aux problèmes de biologie moléculaire. En 1994 nous avons établi une collaboration avec le Laboratoire d'Enzimologie et de Génie Génétique à Nancy. Dans le cadre de cette collaboration une étude autour du problème d'alignement de séquences biologiques a été faite par le stagiaire de DEA Yassine Mokhtari sous la direction de Grégory Kucherov. Le but de ce travail était d'améliorer les algorithmes d'alignement existants afin de pouvoir trouver des alignements ayant une plus grande signification biologique.

Précédent : Algorithmes en calcul Remonter : Algorithmes Suivant : Génération de structures