![]()
Précédent : Apprentissage symbolique automatique
Remonter : Apprentissage symbolique automatique Suivant
: Inférence grammaticale
Participants : Jacques Nicolas, Robin Gras, Christine Sinoquet, Basaveneppa Tallur
Le but de notre étude est l'aide à l'analyse des grandes séquences telles qu'elles sont produites dans les projets de séquençage en biologie moléculaire. Nous nous sommes essentiellement intéressés à l'aspect lexical. La phase d'analyse syntaxique démarre avec une nouvelle thèse ayant pour sujet l'étude d'un formalisme grammatical basé sur la notion de variable de type chaîne.
Un problème fondamental dans l'analyse de ces séquences est la détection de répétitions de sous-mots, ou de palindromes à l'intérieur des séquences, qui vont donner des indications précieuses sur un lexique sous-jacent. Nous travaillons sur une représentation des séquences sous forme d'arbre des suffixes.
Les séquences biologiques que nous avons à analyser sont souvent présentées sous forme de morceaux de séquence non consécutifs (contigs). Nous avons adapté un algorithme de construction d'arbre de suffixes en gérant un caractère spécial comme séparateur de contigs [34].
Nous nous sommes aussi intéressés à l'étude de l'association entre motifs proches [32, 33]. Notre but est de rechercher des motifs plus complexes de type expression régulière correspondant à la détection de mécanismes biologiques impliquant des interactions distantes dans les séquences.
L'outil développé, FOREST (FOuineur de RÉpétitions dans les Séquences Titanesques) a été appliqué à l'étude du Bacillus subtilis et de Escherichia coli, séquences comportant plus de 3.2 millions de caractères. Ces tests ont montré que le traitement d'aussi grandes séquences était réaliste. Ils nous ont aussi permis de mieux comprendre les problèmes auxquels sont confrontés les biologistes lors de leurs études des grandes séquences grâce aux nombreux échanges qui ont été nécessaires pour définir les fonctionnalités de FOREST. Une association scientifique a été créée cette année, ABIO, pour favoriser le développement de ces échanges sur la région (site web http://www.irisa.fr/abio).
D'autre part, Jacques Nicolas anime un groupe de travail du PRC-GDR IA sur le thème de la discrimination dans les séquences. Une journée a été organisée abordant en particulier le problème de la prédiction de la structure secondaire des protéines. Un site web a été créé présentant les résultats de ce groupe : http://www.irisa.fr/prc_sequences. Dans le cadre d'un stage de DEA, une nouvelle méthode a été étudiée, reposant sur une recherche en faisceau de règles de discrimination suivie d'une recherche de segmentation optimale des séquences par programmation dynamique.