![]()
Précédent : Arbres de décision et application Remonter
: Classification et approche symbolique-numérique
Suivant : Analyse de la comparaison de
Participants : Israël-César Lerman, Jacques Nicolas, Philippe Peter, Basaveneppa Tallur
La classification des séquences protéiques constitue un thème applicatif majeur de notre activité, qui se fait en collaboration étroite avec J. Lebbe (Laboratoire de phytologie quantitative, université Pierre et Marie Curie) et J.-L. Risler (Laboratoire génome et informatique, Versailles). Rappelons qu'une séquence protéique est formellement un mot sur un alphabet de taille 20, représentant les 20 acides aminés une 21ème lettre représentant un effacement. Deux directions de recherche sont considérées. La première suppose déjà acquis un alignement multiple et la seconde travaille directement sur les séquences initiales, de longueurs inégales, avec l'alphabet de 20 lettres.
Dans le cadre de la première approche, la donnée d'une matrice d'indices numériques d'association sur l'alphabet étendu (de 21 lettres) permet la description en un site, par un attribut graphe valué complet. À cet égard, la matrice AVL dans sa version quantité d'information que nous avons conçue (en partant de celle de type Dayhoff ou de celle des Henikoffs), a montré tout son intérêt dans la classification hiérarchique AVL (0.5). Cette classification est obtenue en inférant une matrice de dissimilarité informationnelle AVL, entre les mots qui constituent les séquences génétiques. Le traitement de cette matrice par un autre type de méthode permet, d'une part, de valider la démarche d'élaboration de la similarité et, d'autre part, d'étudier l'interaction avec un nouveau mode représentation, comme la MDS (Multi Dimensional Scaling). Il s'est également agit de la fameuse méthode de classification non hiérarchique Isodata, de réallocation-recentrage; mais où une classe se trouve représentée par son élément le plus central au sens de la dissimilarité définie (stage Erasmus de Carmen Garcia, Université de Saint Sébastien, Espagne).
Pour la comparaison de séquences non alignées et de longueurs différentes (sur un alphabet de 20 lettres), une approche de type fenêtre significative a été considérée : on prend une longueur fixe pour cette fenêtre qui glisse le long des deux séquences à comparer, pour sélectionner par une recherche en faisceau l'ensemble des couples de fenêtres significatives par rapport à une hypothèse d'indépendance. Ces derniers vont pourvoir la valeur de la similarité entre séquences, à partir d'une matrice d'association entre acides aminés. Trois matrices ont été considérées : celle de Dayhoff, celle de Risler et celle AVL ci-dessus mentionnée.
Un problème posé par ce type de comparaison est la complexité de calcul, directement liée à la longueur des séquences. Ce qui est alors considéré, est la rétention pour chacune des séquences de zones qui représentent des intervalles « maximalement prédictifs » au sens de J. Lebbe qui a introduit une méthode de segmentation de la séquence fondée sur une notion de « prédictivité locale ». En limitant à ces zones de recherche en faisceau, on diminue de façon appréciable la complexité du calcul et on améliore en cohérence la qualité des résultats. Toutefois, il a été constaté pour cette méthode, que les ligases sont difficiles à organiser en classes, en raison de leur grande variabilité en taille et en fonction. La classification s'est avérée beaucoup plus aisée pour la famille des cytochromes C. Cette dernière famille, ainsi que celle des synthétases t-RNa, ont été traitées par la première approche et après un alignement multiple obtenu à partir de considérations seulement structurelles (méthode de Sander et Shneider). Les résultats des classifications obtenues se sont avérés très cohérents et sensibles. Signalons également un début de collaboration avec l'action ACGT de l'Inria Rocquencourt, menée par J. Codani.