Participants : Jacques Nicolas, Robin Gras, Basaveneppa Tallur
Cette année a vu la conclusion de deux projets se rapportant à
ce thème.
Le projet inter PRC ``méthodes symboliques-numériques de
discrimination'' dans lequel nous étions responsables d'une étude
sur les couplages symboliques-numériques a rendu un rapport
synthétique sur l'état de l'art en discrimination
symbolique-numérique [59]. Nous
avons continué à traiter dans ce cadre le problème des formes
d'onde de Breiman avec le formalisme de l'espace des versions.
Les conclusions de notre étude ont montré l'inadaptation de la
méthode brute et l'apport de l'analyse des données au
prétraitement de ce problème.
Également initiée dans ce cadre, l'étude du problème de la
prédiction de la structure secondaire des protéines a fait
l'objet d'un stage de DEA et devrait être poursuivie dans le
cadre d'un nouveau projet PRC sur l'analyse des séquences.
Le projet GREG ``Classification et caractérisation de
séquences'' a conduit au développement d'un outil exploratoire de
grandes séquences biologiques baptisé FOREST (FOuineur de
Répétitions dans les Séquences Titanesques) [58]. FOREST est fondé sur le
développement de quatre grandes idées.
Il propose d'abord un dictionnaire utilisant une
représentation par arbre des suffixes des séquences, en
associant à chaque noeud de cet arbre un ensemble d'attributs
synthétisés ou hérités, calculés sur l'ensemble des
sous-séquences sous ce noeud ou sur le chemin d'accès à ce noeud.
Ces attributs permettent au biologiste de ``fouiner'' dans la
séquence avec en permanence une vue abstraite de ce qu'il peut
espérer trouver dans la section de l'arbre qu'il est en train
d'explorer.
La deuxième idée consiste à résumer l'information sélectionnée
lors de l'étape précédente à l'aide de vecteurs booléens
associés à la séquence, qui peuvent être ensuite facilement
visualisés comme des ``cartes'' linéaires, ainsi que cela est
fait en cartographie génétique, et combinés par des opérateurs
logiques. Ces vecteurs fournissent également le point d'entrée de
méthodes d'apprentissage ou d'analyse des données en repérant les
instances sur la séquence.
La troisième idée consiste à fournir une capacité de filtrage
biologiquement pertinente des résultats. Nous avons
particulièrement travaillé sur la notion de significativité
statistique du nombre d'occurrences d'un mot dans la
séquence.
En dernier point, nous avons proposé un algorithme de
redescription de séquence, permettant au biologiste d'utiliser un
nouveau vocabulaire faisant ressortir certaines caractéristiques
de la séquence. Concrètement, il s'agit d'effectuer une
segmentation optimale d'une grande séquence sur la base d'une
famille d'expressions régulières.
L'ensemble de ses notions a été appliqué à l'étude du Bacillus
subtilis (1.7M de bases) et testé avec succès sur un ensemble
de données totalisant plus de 3M de bases.
Le but de cet outil est d'effectuer une étude lexicographique des
grandes séquences afin de simplifier la découverte de structures
syntaxiques plus complexes dans celles-ci. Le problème de
l'apprentissage de la syntaxe, l'inférence grammaticale, a donné
lieu aux deux études décrites ci-après.