Projet : IS2

previous up next contents
Précédent : Évaluation de modèles Remonter : Résultats nouveaux Suivant : Modèles de fiabilité industrielle


Sous-sections


   
Choix de modèles en classification et en discrimination

Sélection de modèles en classification



Participants : Christophe Biernacki, Gilles Celeux, Gérard Govaert[*].

Nous considérons le choix de modèle en classification dans le cadre de l'analyse de mélanges (cf. 3.1.1). Deux problèmes se posent choisir un modèle de mélange pertinent et choisir un nombre de classes K informatif. Dans le cadre des mélanges gaussiens, nous avons proposé un grand nombre de modèles (28) fondés sur la décomposition spectrale des matrices variances de chaque composant, pouvant produire des classes de taillle, de volume, de forme et d'oriantation différentes que nous identifions par le maximum de vraisemblance [[2]]. Mais il reste à choisir parmi ses 28 modèles un modèle pertinent associé à un bon nombre de classes. Nous avons proposé et expérimenté différents critères pour résoudre ce problème.

Coude de la vraisemblance.

Le choix du nombre de classes s'appuie souvent sur la détection visuelle d'un coude dans la courbe du maximum de vraisemblance en fonction du nombre de classes. Ce choix repose sur l'hypothèse naturelle que le maximum de vraisemblance, fonction croissante du nombre de classes, croît moins rapidement dès que le bon nombre de classes est dépassé. C. Biernacki a conçu une notion de précision sur les données pour traduire cette notion de coude. Cette précision peut bien sûr être celle de l'instrument de mesure mais aussi et surtout peut correspondre à l'ordre de grandeur suffisant pour l'expert de l'étude, ce qui est une grandeur assez naturelle à déterminer. Plusieurs expériences ont montré l'intérêt de cette approche [[10]], [[18]].

Comparaison de critères par simulations de Monte-Carlo.

C. Biernacki et G. Govaert ont réalisé de nombreuses simulations de Monte-Carlo pour comparer la performance de plusieurs critères pour choisir parmi les 28 modèles gaussiens, à nombre de classes K fixé. Il s'agit des critères d'information comme le critère AIC, du critère bayésien BIC, des critères de classification fondés sur l'entropie de la classification floue qui pénalisent les classes peu séparées (critère NEC[CS96]) et les critères de vraisemblance classifiante étudiés par C. Biernacki dans sa thèse. À ces critères, ils ont ajouté le taux d'erreur mesuré par validation croisée pour mener des comparaisons analogues dans le cadre de l'analyse discriminante. Pour la classification, les critères d'information et BIC donnent de meilleurs résultats que les critères d'entropie. En discrimination, le critère de validation croisée a un bon comportement mais les critères d'information et BIC donnent aussi de bons résultats avec beaucoup moins de calculs. Il est à noter néanmoins que le critère de validation croisée peut être calculé assez rapidement pour certains des modèles grâce à des formules de mise à jour des règles de classement. La validation croisée a aussi l'avantage d'être plus robuste pour des classes non gaussiennes.

Amélioration du critère NEC.

Le critère NEC est un bon critère, en général très parcimonieux, mais il était incapable de trancher de manière satisfaisante entre K = 1 et K > 1. En analysant ce critère en regard du critère de la vraisemblance classifiante, nous avons étendu le critère NEC à cette situation en posant par convention NEC(1) = 1, ce qui revient à comparer les vraisemblances classifiantes des deux situations (K = 1 vs. K > 1). L'efficacité de cette modification du critère d'entropie NEC a été montrée sur des exemples de mélanges gaussiens et de Bernoulli[[9]].

Vraisemblance classifiante intégrée.

Le critère BIC, approximation de la vraisemblance intégrée, est sans doute le critère le plus populaire pour évaluer le nombre de classes d'un mélange. Pourtant, il présente deux défauts nets. D'un point de vue théorique, les conditions techniques qui justifient l'approximation BIC de la vraisemblance intégrée ne sont pas vérifiées pour les mélanges de loi. D'un point de vue pratique, ce critère s'avère peu robuste car trop sensible à la violation des hypothèses du modèle de mélange. Aussi, nous avons conçu un critère, dénommé ICL (Integrated Classification Likelihood), qui se présente comme une approximation, théoriquement valide, de la vraisemblance des données complétées. Pour compléter les données manquantes, nous affectons les points observés aux classes inconnues par un opérateur du maximum a posteriori. Des expérimentations sur des données réelles et simulées illustrent le bon comportement du critère ICL. Il s'avère notamment que ICL est beaucoup moins sensible que BIC à un ajustement médiocre du modèle de mélange aux données. Pour résumer, on peut préférer ICL à BIC si le but premier est d'obtenir une classification pertinente des données, BIC restant préférable, si le but est plutôt l'estimation de densités [[30]].

Combinaison de modèles en analyse discriminante



Participants : Isabel Brito, Gilles Celeux, Ana Maria Sousa Ferreira[*].

De la même manière qu'en classification, Bensmail et Celeux [BC96] ont considéré 14 modèles d'analyse discriminante gaussienne fondés sur la décomposition spectrale de la matrice variance des groupes à discriminer. Ces auteurs sélectionnent l'un de ces modèles par minimisation du taux d'erreur évaulué par validation croisée. Dans la thèse qu'elle prépare, I. Brito cherche à obtenir une règle de décision non plus à partir d'un seul modèle mais par combinaison des 14 modèles. L'intérêt étant d'avoir à la fois des règles de décision plus stables, car non attachées à un modèle unique et d'interprétation plus riche. Ce thème de recherche nous a emmené sur deux voies: l'une établie sur la combinaison linéaire des modèles et l'autre sur la combinaison hiérarchique des modèles.

Combinaison linéaire de modèles.

Pour la combinaison linéaire nous suivons l'approche de LeBlanc et Tibshirani[LT96]. Soit pmk(x) le vecteur des caractérisations conditionnelles du groupe k qui sont, par exemple, les densités conditionnelles du groupe k estimées étant donné le modèle m. Ainsi, nous cherchons à obtenir la combinaison linéaire des pmk(x), $ \sum_{m}^{}$pmk(x)$ \beta_{m}^{}$, dont la performance est meilleure que celle des modèles seuls. L'estimation des poids $ \beta_{k}^{}$ se fait par régression linéaire sous les contraintes $ \tilde{\beta}_{m}^{}$ $ \geq$ 0 et éventuellement $ \sum_{m}^{}$$ \tilde{\beta}_{m}^{}$ = 1avec un critère des moindres carrées évalué par validation croisée. Les performances obtenues avec ce type de méthode sont assez bonnes, mais elles s'avèrent difficiles à interpréter, ne serait ce que par le nombre important de poids que cette approche induit.

Aussi nous avons considéré une approche différente qui ne comporte que K - 1poids positifs de somme un, K étant le nombre de groupes à discriminer. Par cette approche les $ \beta_{m}^{}$ sont estimés par le ratio du maximum de vraisemblance du modèle m par rapport à la somme du maximum des vraisemblances de tous les modèles $ \tilde{\beta}_{m}^{}$  =  $ {\frac{L_m({\bf z}, \tilde{\theta}^m,{\bf p}^m)}{\sum_m L_m({\bf z}, \tilde{\theta}^m,{\bf p}^m)}}$. Mais, cette méthode favorise trop les modèles complexes. Aussi, nous avons testé deux variantes qui pénalisent la vraisemblance comme il est fait dans les critères AIC ou BIC. Nous avons appliqué les deux méthodes à des jeux de données réelles avec des résultats encourageants.

A. M. Sousa Ferreira, pour sa thèse, a fait le même type de travail dans le cadre de l'analyse discriminante sur variables qualitatives où elle ne compare que deux modèles (le modèle d'indépendance conditionnelle et le modèle multinomial complet) ce qui facilite les choses et produit des résultats plus faciles à interpréter[[20]]. De plus, dans ce cadre qualitatif, il est possible de calculer sans approximation la vraisemblance intégrée pour les deux modèles et donc de proposer une solution bayésienne au problème de combinaison de ces deux méthodes.

Combinaison hiérarchique de modèles.

La combinaison hiérarchique concerne les problèmes multigroupe K > 2. Pour éviter les difficultés d'interprétation, I. Brito décompose un problème à plusieurs groupes en plusieurs problèmes à deux groupes. Ces problèmes bigroupes se trouvent, non pas indépendants mais, emboîtés dans un arbre binaire. À chaque niveau de l'arbre nous disposons d'une paire de groupes avec lequel nous construisons un problème de discrimination bigroupe qui est résolu à l'aide de l'un des 14 modèles de discrimaination gaussienne. Le couplage hiérarchique exige deux décisions à chaque niveau. L'une porte sur la bonne partition à choisir parmi les partitions possibles sur les groupes (au premier niveau, elles sont au nombre de 2K - 1 - 1). L'autre décision concerne le choix du meilleur modèle de discrimination parmi les 14 sur les deux classes de groupes choisies. Dans les deux cas, le choix se fait par minimisation du taux d'erreur évalué par validation croisée. Nous examinons actuellement les performances de notre méthode sur des données réelles et simulées. Elle se comporte bien dans les situations où au moins un des groupes est bien séparé des autres.



Footnotes

...Govaert[*]
UTC Compiègne, URA CNRS 817
... Ferreira[*]
université de Lisbonne


previous up next contents
Précédent : Évaluation de modèles Remonter : Résultats nouveaux Suivant : Modèles de fiabilité industrielle