Précédent : Construction de taxonomies à partir
Remonter : Résultats nouveaux Suivant :
Construction de bases de
connaissances
Participant : Gilles Bisson.
En pratique, la classification conceptuelle d'un ensemble d'individus peut s'opérer, soit de manière descendante, en spécialisant les classes, soit de manière ascendante, en les généralisant. Les variantes descendantes sont algorithmiquement coûteuses. Pour résoudre ce problème, des méthodes incrémentales de classification ont été développées dans le cadre de la ``formation de concepts''. Elles permettent l'évolution de la hiérarchie au travers d'opérateurs de restructuration des noeuds (fusion, éclatement). Une critique que l'on peut formuler envers les méthodes descendantes concerne la faible explicabilité (au sens cognitif) des résultats. Dans les algorithmes de Classification Ascendante Hiérarchique (CAH), le processus de construction repose sur le regroupement itératif des classes. Du point de vue de l'explicabilité, les méthodes ascendantes sont intéressantes. En outre, la complexité algorithmique du processus de classification reste raisonnable car le nombre de classes à traiter est faible. Par contre, elles induisent la construction d'une hiérarchie binaire qui amène à une segmentation arbitraire des données.
Nous proposons un algorithme de classification ascendant basé sur un mécanisme identique à celui de la CAH, mais qui intègre, comme dans la formation de concepts, des opérateurs de construction autres que la simple agrégation; ainsi, on couple les avantages des approches ascendante et descendante. Notre méthode de classification induit deux problèmes de recherche intéressants. D'une part, il faut introduire des opérateurs pertinents, la pertinence pouvant être étudiée sur un plan purement quantitatif ou bien cognitif. D'autre part, comme dans toute recherche par gradient, il faut définir des critères de contrôle des opérateurs. Sur ce dernier point, nous avons introduit un critère de sélection des individus basé sur le ``degré d'inclusion'', qui est de granularité plus fine que la ``distance'' telle qu'elle est utilisée en classification et en analyse de données. À terme, notre objectif est de concevoir un atelier générique dans lequel on pourra intégrer dynamiquement de nouveaux opérateurs et critères de contrôle.