Projet :
IS2

Précédent : Évaluation de modèles
Remonter : Résultats nouveaux Suivant :
Modèles de
fiabilité industrielle
Sous-sections
Choix de modèles en classification et en discrimination
Participants : Christophe Biernacki, Gilles Celeux, Gérard
Govaert
.
Nous considérons le choix de modèle en classification dans le
cadre de l'analyse de mélanges (cf. 3.1.1). Deux problèmes se posent
choisir un modèle de mélange pertinent et choisir un nombre de
classes K informatif. Dans le cadre des mélanges
gaussiens, nous avons proposé un grand nombre de modèles (28)
fondés sur la décomposition spectrale des matrices variances de
chaque composant, pouvant produire des classes de taillle, de
volume, de forme et d'oriantation différentes que nous
identifions par le maximum de vraisemblance [[2]]. Mais il reste à choisir parmi
ses 28 modèles un modèle pertinent associé à un bon nombre de
classes. Nous avons proposé et expérimenté différents critères
pour résoudre ce problème.
Le choix du nombre de classes s'appuie
souvent sur la détection visuelle d'un coude dans la courbe du
maximum de vraisemblance en fonction du nombre de classes. Ce
choix repose sur l'hypothèse naturelle que le maximum de
vraisemblance, fonction croissante du nombre de classes, croît
moins rapidement dès que le bon nombre de classes est dépassé. C.
Biernacki a conçu une notion de précision sur les données pour
traduire cette notion de coude. Cette précision peut bien sûr
être celle de l'instrument de mesure mais aussi et surtout peut
correspondre à l'ordre de grandeur suffisant pour l'expert de
l'étude, ce qui est une grandeur assez naturelle à déterminer.
Plusieurs expériences ont montré l'intérêt de cette approche
[[10]], [[18]].
C. Biernacki et G.
Govaert ont réalisé de nombreuses simulations de Monte-Carlo pour
comparer la performance de plusieurs critères pour choisir parmi
les 28 modèles gaussiens, à nombre de classes K
fixé. Il s'agit des critères d'information comme le
critère AIC, du critère bayésien BIC, des critères de
classification fondés sur l'entropie de la classification floue
qui pénalisent les classes peu séparées (critère NEC[CS96]) et les critères de
vraisemblance classifiante étudiés par C. Biernacki dans sa
thèse. À ces critères, ils ont ajouté le taux d'erreur mesuré par
validation croisée pour mener des comparaisons analogues dans le
cadre de l'analyse discriminante. Pour la classification, les
critères d'information et BIC donnent de meilleurs résultats que
les critères d'entropie. En discrimination, le critère de
validation croisée a un bon comportement mais les critères
d'information et BIC donnent aussi de bons résultats avec
beaucoup moins de calculs. Il est à noter néanmoins que le
critère de validation croisée peut être calculé assez rapidement
pour certains des modèles grâce à des formules de mise à jour des
règles de classement. La validation croisée a aussi l'avantage
d'être plus robuste pour des classes non gaussiennes.
Le critère NEC est un bon critère, en général très
parcimonieux, mais il était incapable de trancher de manière
satisfaisante entre K = 1 et K > 1. En analysant
ce critère en regard du critère de la vraisemblance classifiante,
nous avons étendu le critère NEC à cette situation en posant par
convention NEC(1) = 1, ce qui revient à comparer les
vraisemblances classifiantes des deux situations (K = 1
vs. K > 1). L'efficacité de cette modification du
critère d'entropie NEC a été montrée sur des exemples de mélanges
gaussiens et de Bernoulli[[9]].
Le critère BIC, approximation de
la vraisemblance intégrée, est sans doute le critère le plus
populaire pour évaluer le nombre de classes d'un mélange.
Pourtant, il présente deux défauts nets. D'un point de vue
théorique, les conditions techniques qui justifient
l'approximation BIC de la vraisemblance intégrée ne sont pas
vérifiées pour les mélanges de loi. D'un point de vue pratique,
ce critère s'avère peu robuste car trop sensible à la violation
des hypothèses du modèle de mélange. Aussi, nous avons conçu un
critère, dénommé ICL (Integrated Classification
Likelihood), qui se présente comme une approximation,
théoriquement valide, de la vraisemblance des données complétées.
Pour compléter les données manquantes, nous affectons les points
observés aux classes inconnues par un opérateur du maximum a
posteriori. Des expérimentations sur des données réelles et
simulées illustrent le bon comportement du critère ICL. Il
s'avère notamment que ICL est beaucoup moins sensible que BIC à
un ajustement médiocre du modèle de mélange aux données. Pour
résumer, on peut préférer ICL à BIC si le but premier est
d'obtenir une classification pertinente des données, BIC restant
préférable, si le but est plutôt l'estimation de densités
[[30]].
Participants : Isabel Brito, Gilles Celeux, Ana Maria
Sousa Ferreira
.
De la même manière qu'en classification, Bensmail et Celeux
[BC96] ont considéré 14
modèles d'analyse discriminante gaussienne fondés sur la
décomposition spectrale de la matrice variance des groupes à
discriminer. Ces auteurs sélectionnent l'un de ces modèles par
minimisation du taux d'erreur évaulué par validation croisée.
Dans la thèse qu'elle prépare, I. Brito cherche à obtenir une
règle de décision non plus à partir d'un seul modèle mais par
combinaison des 14 modèles. L'intérêt étant d'avoir à la fois des
règles de décision plus stables, car non attachées à un modèle
unique et d'interprétation plus riche. Ce thème de recherche nous
a emmené sur deux voies: l'une établie sur la combinaison
linéaire des modèles et l'autre sur la combinaison hiérarchique
des modèles.
Pour la combinaison linéaire nous suivons
l'approche de LeBlanc et Tibshirani[LT96]. Soit
pmk(x) le vecteur des
caractérisations conditionnelles du groupe k qui sont, par
exemple, les densités conditionnelles du groupe k estimées
étant donné le modèle m. Ainsi, nous cherchons à obtenir
la combinaison linéaire des
pmk(x),
pmk(x)
, dont la performance est meilleure que celle
des modèles seuls. L'estimation des poids
se fait par régression linéaire sous les
contraintes
0 et éventuellement

= 1avec un critère des moindres
carrées évalué par validation croisée. Les performances obtenues
avec ce type de méthode sont assez bonnes, mais elles s'avèrent
difficiles à interpréter, ne serait ce que par le nombre
important de poids que cette approche induit.
Aussi nous avons considéré une approche différente qui ne
comporte que K - 1poids positifs de somme un, K
étant le nombre de groupes à discriminer. Par cette approche les
sont estimés par le ratio du
maximum de vraisemblance du modèle m par rapport à la
somme du maximum des vraisemblances de tous les modèles
=
.
Mais, cette méthode favorise trop les modèles complexes. Aussi,
nous avons testé deux variantes qui pénalisent la vraisemblance
comme il est fait dans les critères AIC ou BIC. Nous avons
appliqué les deux méthodes à des jeux de données réelles avec des
résultats encourageants.
A. M. Sousa Ferreira, pour sa thèse, a fait le même type de
travail dans le cadre de l'analyse discriminante sur variables
qualitatives où elle ne compare que deux modèles (le modèle
d'indépendance conditionnelle et le modèle multinomial complet)
ce qui facilite les choses et produit des résultats plus faciles
à interpréter[[20]]. De
plus, dans ce cadre qualitatif, il est possible de calculer sans
approximation la vraisemblance intégrée pour les deux modèles et
donc de proposer une solution bayésienne au problème de
combinaison de ces deux méthodes.
La combinaison hiérarchique
concerne les problèmes multigroupe K > 2. Pour éviter
les difficultés d'interprétation, I. Brito décompose un problème
à plusieurs groupes en plusieurs problèmes à deux groupes. Ces
problèmes bigroupes se trouvent, non pas indépendants mais,
emboîtés dans un arbre binaire. À chaque niveau de l'arbre nous
disposons d'une paire de groupes avec lequel nous construisons un
problème de discrimination bigroupe qui est résolu à l'aide de
l'un des 14 modèles de discrimaination gaussienne. Le couplage
hiérarchique exige deux décisions à chaque niveau. L'une porte
sur la bonne partition à choisir parmi les partitions possibles
sur les groupes (au premier niveau, elles sont au nombre de
2K - 1 - 1). L'autre décision concerne le choix du
meilleur modèle de discrimination parmi les 14 sur les deux
classes de groupes choisies. Dans les deux cas, le choix se fait
par minimisation du taux d'erreur évalué par validation croisée.
Nous examinons actuellement les performances de notre méthode sur
des données réelles et simulées. Elle se comporte bien dans les
situations où au moins un des groupes est bien séparé des autres.
Footnotes
- ...Govaert
![[*]](../icons/foot_motif.gif)
- UTC Compiègne, URA CNRS 817
- ... Ferreira
![[*]](../icons/foot_motif.gif)
- université de Lisbonne

Précédent : Évaluation de modèles
Remonter : Résultats nouveaux Suivant :
Modèles de
fiabilité industrielle