previous up next top index
Précédent : Classification et approche symbolique-numérique Remonter : Classification et approche symbolique-numérique Suivant : Classification de séquences génétiques


Arbres de décision et application à la prédiction de la structure secondaire d'une protéine

Participants : Israël-César Lerman, Joaquim Da Costa

La construction d'un arbre de décision se fait sur la base d'un ensemble d'apprentissage, au moyen d'un critère d'association entre attributs qualitatifs (exemples : entropie, tex2html_wrap_inline580 , Gini). D'où, notre intérêt pour cette technique qui cristallise aussi bien les efforts méthodologiques en analyse des données qu'en apprentissage. Nous y avons introduit une nouvelle famille de coefficients étudiés dans le contexte de la classification des variables qualitatives ou relationnelles. La conception de ces derniers permet de tenir compte d'une sémantique sous-jacente à l'ensemble des valeurs de la variable prédictive (ou à prédire). Nous avons choisi de construire des arbres binaires qui sont d'interprétation et d'implantation plus aisées.

En la matière, la référence par rapport à laquelle nous nous sommes situés est la célèbre méthode de construction Cart de Breiman, Friedman, Olshen et Stone. Dans notre approche, nous ne sommes pas limités par le nombre de classes à prédire ; il sera de 3 pour l'application choisie (les trois structures secondaires d'une protéine).

Compte tenu de la nature de nos données (151 séquences protéiques, totalisant 30 000 résidus) et de leur description, nous avons été confrontés au problème général des variables qualitatives prédictives à très grand nombre de modalités (mots de 4 lettres dans un alphabet qui en compte 10). Notre contribution majeure a été une réduction très importante de complexité, permettant de se ramener, de façon statistiquement signifiante, à une vingtaine d'attributs binaires (via une procédure conjointe de factorisation de l'ensemble des valeurs de classification par la méthode AVL.

Le programme ARCADE (AR bre de C lA ssification et de DE cision) intègre à la méthode Cart les apports mentionnés ci-dessus.

Le pourcentage de bonne prédiction, résidu par résidu, à la base de données est de 66 %. Les protéines appartenant à la base fournie par Nathalie Collo'ch de l'université de Paris 6 sont mutuellement non homologues. Les méthodes, dont les performances sont supérieures en termes de bonne classification prédictive, font appel à des protéines connues, homologues à celle à prédire; mais n'appartenant pas à la base. Ces travaux ont donné lieu à la thèse de Joaquim Pinto Da Costa (juillet 1996).



previous up next top index Précédent : Classification et approche symbolique-numérique Suivant : Classification de séquences génétiques Remonter : Classification et approche symbolique-numérique