previous up next contents
Précédent : Apprentissage symbolique automatique Remonter : Apprentissage symbolique automatique Suivant : Inférence grammaticale

Discrimination dans les séquences

Participants : Jacques Nicolas, Robin Gras, Basaveneppa Tallur

Cette année a vu la conclusion de deux projets se rapportant à ce thème.

Le projet inter PRC ``méthodes symboliques-numériques de discrimination'' dans lequel nous étions responsables d'une étude sur les couplages symboliques-numériques a rendu un rapport synthétique sur l'état de l'art en discrimination symbolique-numérique [59]. Nous avons continué à traiter dans ce cadre le problème des formes d'onde de Breiman avec le formalisme de l'espace des versions. Les conclusions de notre étude ont montré l'inadaptation de la méthode brute et l'apport de l'analyse des données au prétraitement de ce problème.
Également initiée dans ce cadre, l'étude du problème de la prédiction de la structure secondaire des protéines a fait l'objet d'un stage de DEA et devrait être poursuivie dans le cadre d'un nouveau projet PRC sur l'analyse des séquences.

Le projet GREG ``Classification et caractérisation de séquences'' a conduit au développement d'un outil exploratoire de grandes séquences biologiques baptisé FOREST (FOuineur de Répétitions dans les Séquences Titanesques) [58]. FOREST est fondé sur le développement de quatre grandes idées.
Il propose d'abord un dictionnaire utilisant une représentation par arbre des suffixes des séquences, en associant à chaque noeud de cet arbre un ensemble d'attributs synthétisés ou hérités, calculés sur l'ensemble des sous-séquences sous ce noeud ou sur le chemin d'accès à ce noeud. Ces attributs permettent au biologiste de ``fouiner'' dans la séquence avec en permanence une vue abstraite de ce qu'il peut espérer trouver dans la section de l'arbre qu'il est en train d'explorer.
La deuxième idée consiste à résumer l'information sélectionnée lors de l'étape précédente à l'aide de vecteurs booléens associés à la séquence, qui peuvent être ensuite facilement visualisés comme des ``cartes'' linéaires, ainsi que cela est fait en cartographie génétique, et combinés par des opérateurs logiques. Ces vecteurs fournissent également le point d'entrée de méthodes d'apprentissage ou d'analyse des données en repérant les instances sur la séquence.
La troisième idée consiste à fournir une capacité de filtrage biologiquement pertinente des résultats. Nous avons particulièrement travaillé sur la notion de significativité statistique du nombre d'occurrences d'un mot dans la séquence.
En dernier point, nous avons proposé un algorithme de redescription de séquence, permettant au biologiste d'utiliser un nouveau vocabulaire faisant ressortir certaines caractéristiques de la séquence. Concrètement, il s'agit d'effectuer une segmentation optimale d'une grande séquence sur la base d'une famille d'expressions régulières.
L'ensemble de ses notions a été appliqué à l'étude du Bacillus subtilis (1.7M de bases) et testé avec succès sur un ensemble de données totalisant plus de 3M de bases.
Le but de cet outil est d'effectuer une étude lexicographique des grandes séquences afin de simplifier la découverte de structures syntaxiques plus complexes dans celles-ci. Le problème de l'apprentissage de la syntaxe, l'inférence grammaticale, a donné lieu aux deux études décrites ci-après.


previous up next contents
Précédent : Apprentissage symbolique automatique Remonter : Apprentissage symbolique automatique Suivant : Inférence grammaticale