Participants : Vladimir Grébinski,Grégory Kucherov
Mots clefs : algorithme, automate à états finis, séquence génétique
Les articles [10,30] décrivant les travaux antérieurs sur les propriétés des langages de motifs sont parus en 1995. Ces travaux ont servi de base pour les recherches sur les algorithmes d'analyse de séquences que Grégory Kucherov a poursuivies cette année.
Le développement d'algorithmes efficaces sur les séquences (chaînes de caractères) est un sujet classique en informatique. Ces algorithmes sont universellement utilisés dans tous les domaines d'application clés : recherche d'information dans les bases de données, compression d'information (codage de textes ou de fichiers), recherche de similarités dans les séquences (apprentissage par ordinateur), etc. Aujourd'hui les recherches sur les algorithmes d'analyse de séquences reviennent au premier plan grâce à de nouveaux domaines d'applications particulièrement importants : le WWW et la biologie moléculaire. En ce qui concerne cette dernière, les algorithmes sur les séquences peuvent s'appliquer directement à l'analyse des molécules d'ADN ou protéines qui se présentent comme de très longues chaînes de caractères sur un alphabet fixe.
Grégory Kucherov en collaboration avec Michaël Rusinowitch
(projet PROTHéO) ont développé un nouvel algorithme de recherche
de motifs d'une forme générale dans une séquence. Plus
précisément, l'algorithme recherche d'une façon simultanée
plusieurs motifs
où
les
sont des mots
donnés et
est un
symbole spécial ( don't care symbol) qui peut être
substitué par n'importe quel mot. La complexité de l'algorithme
est
, où |t|
est la longueur du texte et |P| la somme des longueurs des
motifs. L'algorithme est basé sur les automates finis et utilise
la structure de données appelée DAWG ( Directed Acyclic Word
Graph), par opposition aux algorithmes pour les problèmes
proches qui utilisent d'autres structures de données.
L'utilisation du DAWG a permis à l'algorithme d'avoir une
propriété importante et originale, à savoir de modifier
dynamiquement l'automate d'analyse de texte pendant son parcours.
L'article décrivant cet algorithme a été présenté à la conférence
Combinatorial Pattern Matching [31] qui est la conférence la
plus réputée dans le domaine de fondements théoriques de
l'analyse de séquences.
Par ailleurs, nous avons poursuivi nos efforts pour appliquer
nos compétences en algorithmique d'analyse de séquences aux
problèmes de biologie moléculaire. En 1994 nous avons établi une
collaboration avec le Laboratoire d'Enzimologie et de Génie
Génétique à Nancy. Dans le cadre de cette collaboration une étude
autour du problème d'alignement de séquences biologiques a été
faite par le stagiaire de DEA Yassine Mokhtari sous la direction
de Grégory Kucherov
. Le but de ce travail était
d'améliorer les algorithmes d'alignement existants afin de
pouvoir trouver des alignements ayant une plus grande
signification biologique.