Participants : Israël-César Lerman, Joaquim Da Costa
La construction d'un arbre de décision se fait sur la base
d'un ensemble d'apprentissage, au moyen d'un critère
d'association entre attributs qualitatifs (exemples : entropie,
, Gini). D'où, notre
intérêt pour cette technique qui cristallise aussi bien les
efforts méthodologiques en analyse des données qu'en
apprentissage. Nous y avons introduit une nouvelle famille de
coefficients que nous avons étudiés dans le contexte de la
classification des variables qualitatives ou relationnelles. La
conception de ce derniers permet de tenir compte d'une sémantique
sous-jacente à l'ensemble des valeurs de la variable.
Nous avons repris la célèbre méthode CART en considérant le cas des arbres binaires. Le nombre de classes à prédire, qui est de trois ici (les trois structures secondaires), n'est pas limité. Compte tenu de la nature de nos données (il s'agit en l'occurrence de 151 séquences protéiques, totalisant 30 000 résidus) et de leur description, nous avons été confrontés au problème général des variables qualitatives prédictives à très grand nombre de modalités. Il s'agissait dans notre cas de mots de 4 lettres dans un alphabet qui en compte 10. C'est une procédure conjointe de factorisation de l'ensemble des valeurs de classification par la méthode AVL, qui nous a ramené de façon statistiquement signifiante, à une vingtaine d'attributs binaires. C'est une méthode de réduction très importante de la complexité, qui constitue notre contribution majeure dans ce travail.
Tout cela aboutit au programme ARCADE (ARbre de ClAssification et de DEcision).
Le pourcentage de bonne prédiction, résidu par résidu, c'est à dire, ne tenant nul compte de l'environnement de la position prédite, au niveau de la structure secondaire, est de 66 % sur la base de données, évoquée ci-dessus, qui nous a été fournie par Nathalie Collo'ch de l'université de Paris 6. Ce résultat place la méthode parmi les plus performantes. Notre objectif dans l'avenir est de tenir compte de l'environnement de la position prédite pour augmenter le niveau de notre prédiction.