previous up next contents
Précédent : Analyse des données Remonter : Analyse des données Suivant : Arbres de décision

Classification de séquences génétiques

Participants : Israël-César Lerman, Roger Ngouenet, Jacques Nicolas, Philippe Peter, Basaveneppa Tallur

La classification des séquences protéiques constitue un thème applicatif majeur de notre activité, qui se fait en collaboration étroite avec J. Lebbe (Laboratoire de Phytologie Quantitative, Université Pierre et Marie Curie) et J.L Risler (Laboratoire de Génétique Moléculaire de Gif sur Yvette). Une telle séquence est formellement un mot sur un alphabet de taille 20, représentant les 20 acides aminés. Les séquences d'une même famille sont de longueur différente. Toutefois, leur conformité spatiale, si elle est accessible (mais le plus souvent ce n'est pas le cas), induit un alignement multiple. Ce qui suppose l'ajout dans les séquences représentant un effacement. De nombreuses méthodes d'alignement multiple existent. Dès lors, deux directions de recherche sont considérées.

La première suppose déjà acquis un alignement multiple et la seconde travaille directement sur les séquences initiales, de longueurs inégales, avec l'alphabet de 20 lettres. Dans ce cas, la donnée d'une matrice d'indices numériques d'association sur l'alphabet étendu (de 21 lettres), permet de représenter la description en un site, par un attribut graphe valué complet. A cet égard, la matrice AVL dans sa version quantité d'information que nous avons conçue (en partant de celle de type Dayhoff ou de celle des Henikoffs), a montré tout son intérêt dans la classification hiérarchique AVL (0.5). Cette classification est obtenue en inférant une matrice de dissimilarité informationnelle AVL, entre les mots qui constituent les séquences génétiques. Le traitement de cette matrice par un autre type de méthode permet, d'une part, de valider la démarche d'élaboration de la similarité et, d'autre part, d'étudier l'interaction avec un nouveau mode représentation, ici la MDS ! (Multi Dimensional Scaling).

Pour la comparaison de séquences non alignées et de longueurs différentes (sur un alphabet de 20 lettres), une approche de type fenêtre significative a été considérée. Rappelons qu'on prend une longueur fixe pour cette fenêtre qui glissera le long des deux séquences à comparer, pour sélectionner au moyen d'une recherche en faisceau l'ensemble des couples de fenêtres significatives par rapport à une hypothèse d'indépendance. Ces derniers vont pourvoir la valeur de la similarité entre séquences, à partir de l'une des matrices d'association entre acides aminés. Trois matrices ont été considérées : celle de Dayhoff, celle de Risler et celle AVL ci-dessus mentionnée.

Un des problèmes posés par ce type de comparaison est la complexité de calcul, directement liée à la longueur des séquences. Ce qu'il y a de nouvellement considéré, est la rétention pour chacune des séquences de zones détectées sur une notion de ``prédictivité locale'' introduite par J. Lebbe. En limitant à ces zones de recherche en faisceau, non seulement on diminue de façon appréciable la complexité de calcul ; mais aussi, on améliore en cohérence la qualité des résultats.

Qu'il s'agisse de la première approche ou de la seconde (respectivement, séquences alignées ou non) deux bases ont été considérées, concernant la famille des cytochromes C et celle des synthètases t-RNa.


previous up next contents
Précédent : Analyse des données Remonter : Analyse des données Suivant : Arbres de décision