Projet :
IS2

Précédent : Fondements scientifiques Remonter :
Fondements
scientifiques Suivant : Modèles linéaires généralisés et
hétéroscédasticité
Sous-sections
Modèles à structure cachée
Participants : Christophe Biernacki, Isabel Brito, Gilles
Celeux, Jean Diebolt, Florence Forbes, Stéphane Girard, Nathalie
Peyrard.
Mots clés : données manquantes, mélange de
lois, algorithme EM, algorithmes stochastiques, combinaison et
choix de modèles, analyse discriminante, analyse d'image, champ
de Markov caché, analyse bayésienne .
Résumé :
Les modèles à structure cachée constituent un domaine
important de la statistique à la fois par leurs applications
(classification, analyse du signal ou de l'image) que par les
problèmes algorithmiques et théoriques (choix de modèles
notamment) qu'ils soulèvent. L'analyse statistique d'image est
un domaine relevant de ce type de modèles. Nous détaillons plus
particulièrement le modèle de champ de Markov caché utilisé en
analyse d'image.
Généralités
Le projet IS2 s'intéresse à des
modèles statistiques paramétriques,
dénotant le paramètre à estimer, où les données complètes
x = x1,..., xn se
décomposent de manière naturelle en données observées
y = y1,..., yn et en
données manquantes
z = z1,..., zn. Les
données manquantes zi représentent
l'appartenance à une catégorie d'objets parmi K. La
densité des données complètes
f (x |
) et celle des données
observées
f (y |
) sont liées par la
relation
f (y |
) =
f (x |
)dz =
f (y, z |
)dz. La loi marginale d'une
donnée observée s'écrit comme un mélange fini de lois,
f (
yi |

) =
P(
zi
=
k |

)
f
(
yi |
zi,

) .
Un tel modèle peut par exemple être utilisé pour rendre
compte des variations de la taille des adultes. Une variable
cachée (le sexe) explique entièrement les variations entre les
tailles, les variations de taille pour les personnes de même sexe
étant considérées comme la réalisation d'un bruit gaussien. Ce
type de modèle à données incomplètes est intéressant car il est
susceptible de mettre en évidence une variable discrète cachée
qui explique l'essentiel des variations et par rapport à laquelle
les données observées sont conditionnellement
indépendantes. Les modèles de mélange de lois lorsque les
zi sont indépendants constituent une approche
de plus en plus répandue en classification. Les modèles de chaîne
de Markov cachée (resp. champ de Markov caché) correspondent au
cas où les zisont les réalisations d'une chaîne
(resp. champ) de Markov. Ils sont très utilisés en traitement du
signal (reconnaissance de la parole, analyse de séquences
génomiques, etc.) et de l'image (voir section 3.1.2).
Du point de vue mathématique, ces modèles ne
sont souvent pas faciles à estimer du fait même de l'existence de
données manquantes. Ils ont donné naissance à de nombreux
algorithmes, dont le dénominateur commun est la restauration des
données manquantes, mais qui diffèrent par leur stratégie de
restauration. L'algorithme le plus utilisé est l'algorithme
EM[MK97].
Glossaire :
Algorithme EM C'est un algorithme très populaire
pour l'estimation du maximum de vraisemblance de modèles à
structure de données incomplètes. Chaque itération comporte deux
étapes. L'étape E (expectation) qui consiste à calculer
l'espérance conditionnelle de la vraisemblance des données
complètes sachant les observations et l'étape M
(maximisation) qui consiste à maximiser cette espérance
conditionnelle.
Les versions stochastiques de l'algorithme EM, dont Gilles
Celeux et Jean Diebolt comptent parmi les pionniers, incorporent
une étape de simulation des données manquantes pour pouvoir
travailler sur des données complétées.
Les algorithmes MCMC (Markov Chain Monte Carlo) sont
définis dans un cadre bayésien. Partant d'une loi a priori pour
les paramètres, ils simulent une chaîne de Markov, définie sur
les valeurs possibles des paramètres, et qui a pour loi
stationnaire la loi recherchée, à savoir la loi a posteriori des
paramètres. À chaque étape, z est simulé selon sa loi
conditionnelle courante sachant les observations.
L'étude du comportement pratique et des propriétés de ces
algorithmes stochastiques constituent un thème de recherche
traditionnel du projet.
Un point important pour les modèles à structure
cachée est le choix de la complexité du modèle et en particulier
le choix du nombre K de catégories de la variable cachée.
Dans ce domaine, très ouvert, de nombreuses approches sont en
compétition et la stratégie adoptée dépend beaucoup du but
poursuivi. Par exemple, dans un contexte de classification,
l'objectif est surtout de restaurer les catégories manquantes
zi, alors que dans un contexte d'estimation de
densités, il est plutôt d'estimer le paramètre
. Cela étant, une approche répandue consiste à se
placer dans un cadre bayésien non informatif et à chercher le
modèle m qui maximise la vraisemblance intégrée[RW97]
f (
y |
m) =
f (
y |
m,

)

(

|
m)
d
,
(
| m)
étant une distribution de probabilité a priori non informative
(c'est-à-dire ne favorisant pas de valeur particulière) du
paramètre
.
Dans un cadre décisionnel, on dispose d'un
échantillon d'apprentissage étiqueté, c'est-à-dire d'un
échantillon complet x = (y, z). Le problème
est alors de construire une règle de décision pour classer de
futures unités pour lesquelles seules les valeurs
yiseront observées. Il s'agit alors d'un
problème d'analyse discriminante, courant en diagnostic médical,
ou en reconnaissance statistique des formes. Dans ce domaine,
bien établi[McL92], de
nombreuses méthodes existent. La recherche consiste surtout, à
l'heure actuelle, à proposer des techniques répondant à des
contextes particuliers et à proposer des méthodes fiables lorsque
les échantillons d'apprentissage sont de faible taille. C'est ce
dernier point que nous privilégions dans notre recherche.
Les modèles à structure
cachée apparaissent naturellement en analyse d'image où les
phénomènes aléatoires ont un rôle important. Les données mises en
jeu sont spatialement localisées et induisent l'utilisation de
modèles probabilistes spatiaux. Celle-ci soulève de nombreuses
questions de modélisation et d'inférence statistique et n'a cessé
de gagner de l'intérêt. En particulier, le choix de modèles
appropriés et l'estimation des paramètres associés aux modèles
utilisés sont des questions essentielles pour aller vers une
automatisation des algorithmes et tirer tout le profit de la
richesse des modèles stochastiques. Ces problèmes, abondamment
traités, restent cependant ouverts. En effet, un effort d'ordre
méthodologique (recherche d'estimateurs précis et robustes) et
d'ordre algorithmique (réduction des temps de calcul) reste à
faire.
Segmentation et restauration d'image.
Des mécanismes de
dégradation des observations sont souvent inhérents aux problèmes
d'images. Dans les problèmes de segmentation, de classification
ou de restauration d'image, il s'agit de construire ou de
retrouver une image inconnue zlorsque seule une version
dégradée y est observée. Cela relève naturellement des
modèles à structure cachée. Les images sont constituées d'un
ensemble S de pixels qui peuvent prendre une valeur parmi
un petit nombre K de couleurs non ordonnées (les classes).
Dans la suite nous noterons zi (resp.
yi) la valeur de l'image z (resp.
y) au pixel i et plus généralement
zA (resp. yA) pour la
restriction de z (resp. y) à un sous-ensemble
A de pixels. Une approche possible, bien fondée
statistiquement, est l'analyse d'image dite bayésienne. Elle
fournit des solutions élégantes et a connu des développements
considérables depuis des premiers travaux tels que ceux de D.
Geman et S. Geman[GG84]ou Besag[Bes86]. L'intérêt de cette
approche est la possibilité d'introduire explicitement des
connaissances a priori, notamment sur la structure spatiale des
images analysées, dans la modélisation des mécanismes de
dégradation des données. Elle a aussi l'avantage de fournir un
cadre général dans lequel une grande variété d'applications
peuvent être envisagées, par exemple en imagerie médicale et
satellitaire, sismologie, astronomie, etc. Dans cette approche,
le processus physique d'acquisition des données est pris en
compte à travers une vraisemblance
f (y | z,
)
qui précise la probabilité d'observer des données y
lorsque l'image non dégradée est z. Le paramètre
est ici souvent interprété comme un
paramètre de bruit. L'information sur la ``vraie" image z
est prise en compte à travers une loi de probabilité,
f (z |
), fixée
en fonction du problème traité et qui peut dépendre d'un
paramètre
, réglant, par exemple, le niveau
des dépendances spatiales. Dans ce modèle, une source
d'information importante est la loi conditionnelle de z
sachant les observations y, donnée par la formule de Bayes
suivante
f (z |
y, , ) |
 |
f (y |
z, )f (z |
) . |
(1) |
Elle gère la probabilité que la vraie image soit z sachant
que l'image dégradée observée est y. Un candidat naturel
pour z est la valeur qui maximise
f (z | y,
,
), encore appelée MAP pour
maximum a posteriori. Une alternative est l'estimateur
MPM (marginal posterior mode) obtenu en maximisant
individuellement les probabilités marginales a posteriori,
f (zi | y,
,
) . Cela revient à
maximiser le nombre moyen de pixels bien classés. D'autres
possibilités que nous ne mentionnons pas ici, existent.
Lorsque les paramètres
et
sont connus, la loi conditionnelle
(1) peut être
simulée à l'aide d'un échantillonneur de Gibbs[GG84] en considérant chaque
pixel successivement. Lorsque l'on se trouve au pixel i,
la valeur en ce site est remplacée par une valeur tirée au hasard
suivant la loi conditionnelle
f (zi |
zS
{i}, y,
,
). En couplant cette technique
avec un principe de recuit simulé, D. Geman et S. Geman[GG84] ont proposé une méthode
pour rechercher le MAP dans les cas où une énumération directe
est impossible. L'échantillonneur de Gibbs peut également être
utilisé pour appliquer la règle du MPM en calculant des
probabilités empiriques d'appartenance de chaque pixel à une
classe. De telles approches rencontrent les problèmes usuels de
convergence des algorithmes de type MCMC et sont généralement
lentes. Les solutions fournies peuvent être sensibles aux
propriétés globales non réalistes des modèles adoptés. Une
alternative plus rapide et qui repose sur des propriétés locales
des modèles sous-jacents, est l'algorithme déterministe
ICM[Bes86]. La
convergence n'est toutefois garantie que vers un maximum local de
(1) et l'algorithme
peut être très sensible aux conditions initiales. À partir d'une
image initiale z(0), à l'itération t +
1, un pixel i est choisi et sa valeur est mise à jour en
lui donnant la valeur qui maximise
f (zi |
zS
{i}, y,
,
) .
L'approche bayésienne nécessite la
spécification de la loi
f (z |
). Il
s'agit essentiellement de modéliser des phénomènes ou des
contraintes physiques sous-jacentes. En particulier, il est
raisonnable de supposer que des pixels voisins ont plus de
similarités que des pixels éloignés. De telles caractéristiques
locales peuvent être prises en compte à travers les probabilités
conditionnelles qu'un pixel i prenne la valeur
zi connaissant la valeur de tous les autres
pixels
zS
{i}.
Les champs de Markov sont des modèles dans lesquels la dépendance
est réduite aux pixels dans un proche voisinage de i. Ils
permettent donc de prendre en compte les dépendances spatiales
entre les pixels d'une image mais ceci au prix de calculs
importants. En particulier lorsque le paramètre
du modèle est inconnu, son estimation est un problème
ouvert.
Les méthodes indiquées ci-dessus supposent
les paramètres
et
connus. En pratique, ces paramètres doivent être estimés à partir
des informations disponibles, ce qui peut présenter certaines
difficultés dans le cas des modèles markoviens. Lorsque l'on
dispose de données pour lesquelles l'on connaît à la fois les
observations yet la vraie image z, on peut
envisager d'estimer les paramètres
et
lors d'une phase d'apprentissage.
Très souvent, de telles données ne sont pas disponibles. Il
arrive également que la phase d'apprentissage demande
l'intervention d'un opérateur humain dans des situations où une
automatisation du système est souhaitée. Ainsi, la recherche
d'algorithmes non supervisés est d'un grand intérêt pratique.
Dans le cas le plus général, seules les données y sont
observées et z,
,
sont inconnus. Pour appliquer les méthodes
précédentes, les paramètres doivent donc être estimés en même
temps que l'image z. Notons que plusieurs problèmes
peuvent être envisagés. Il peut s'agir d'estimer seulement
et
. C'est le cas
lorsque l'on souhaite faire de la sélection de modèles sur des
observations bruitées ou plus généralement estimer des paramètres
dans des problèmes à données manquantes. Il peut également s'agir
d'estimer seulement z, par exemple dans des situations de
classification ou segmentation d'image. Beaucoup des algorithmes
fournissent à la fois des estimations de z et des
paramètres
et
de sorte
que la distinction précédente peut sembler inutile. Nous
mentionnons toutefois dans la section 6.4.1 un algorithme fournissant
une segmentation z sans donner une estimation précise de
, ce qui permet d'éviter des calculs
couteux.

Précédent : Fondements scientifiques Remonter :
Fondements
scientifiques Suivant : Modèles linéaires généralisés et
hétéroscédasticité