Sous-sections
Participants : Isabel Brito,
Gilles Celeux, Jean Diebolt, Jean-Baptiste Durand, Florence
Forbes, Nathalie Peyrard, Paulo Gonçalvès.
Mots clés : données manquantes,
mélange de lois, algorithme EM, algorithme
stochastique, combinaison et choix de modèles, analyse
discriminante, analyse d'image, champ de Markov caché,
analyse bayésienne .
Résumé :
Les modèles à structure cachée constituent un domaine
important de la statistique à la fois par leurs
applications (classification, analyse du signal ou de
l'image) que par les problèmes algorithmiques et théoriques
(choix de modèles notamment) qu'ils soulèvent. L'analyse
statistique d'image est un domaine relevant de ce type de
modèles. Nous détaillons plus particulièrement le modèle de
champ de Markov caché utilisé en analyse d'image.
Généralités
Le projet IS2 s'intéresse à
des modèles statistiques paramétriques,
étant le paramètre à
estimer, où les données complètes
x = x1,...,
xn se décomposent de manière
naturelle en données observées
y = y1,...,
yn et en données manquantes
z = z1,...,
zn. Les données manquantes
zi représentent
l'appartenance à une catégorie d'objets parmi K. La densité des données complètes
f (x |
) et celle des données observées
f (y |
) sont liées par la relation
f (y |
) =
f (x
|
)dz =
f (y, z |
)dz. La loi marginale d'une
donnée observée s'écrit comme un mélange fini de lois,
f (
yi |

) =
P(
zi
=
k |

)
f (
yi
|
zi,

) .
Un tel modèle peut par exemple être utilisé pour rendre
compte des variations de la taille des adultes. Une variable
cachée (le sexe) explique entièrement les variations entre
les tailles, les variations de taille pour les personnes de
même sexe étant considérées comme la réalisation d'un bruit
gaussien. Ce type de modèle à données incomplètes est
intéressant car il est susceptible de mettre en évidence une
variable discrète cachée qui explique l'essentiel des
variations et par rapport à laquelle les données observées
sont conditionnellement indépendantes. Les modèles
de mélange de lois lorsque les zi sont indépendants
constituent une approche de plus en plus répandue en
classification. Les modèles de chaîne de Markov cachée (resp.
champ de Markov caché) correspondent au cas où les
zi sont les
réalisations d'une chaîne (resp. champ) de Markov. Ils sont
très utilisés en traitement du signal (reconnaissance de la
parole, analyse de séquences génomiques, etc.) et de l'image
(voir section 3.1.2).
Du
point de vue mathématique, ces modèles sont souvent
difficiles à estimer du fait même de l'existence de données
manquantes. Ils ont donné naissance à de nombreux
algorithmes, dont le dénominateur commun est la restauration
des données manquantes, mais qui diffèrent par leur stratégie
de restauration. L'algorithme le plus utilisé est
l'algorithme EM[MK97].
- Algorithme EM
- C'est un algorithme très populaire pour
l'estimation du maximum de vraisemblance de modèles à
structure de données incomplètes. Chaque itération
comporte deux étapes. L'étape E ( expectation) qui
consiste à calculer l'espérance conditionnelle de la
vraisemblance des données complètes sachant les
observations et l'étape M ( maximisation) qui
consiste à maximiser cette espérance conditionnelle.
Les versions stochastiques de l'algorithme
EM, dont Gilles Celeux et Jean Diebolt
comptent parmi les pionniers, incorporent une étape de
simulation des données manquantes pour pouvoir travailler sur
des données complétées.
Les algorithmes MCMC ( Markov Chain
Monte Carlo) sont définis dans un cadre bayésien.
Partant d'une loi a priori pour les paramètres, ils simulent
une chaîne de Markov, définie sur les valeurs possibles des
paramètres, et qui a pour loi stationnaire la loi recherchée,
à savoir la loi a posteriori des paramètres. À chaque étape,
z est simulé selon sa loi
conditionnelle courante sachant les observations.
L'étude du comportement pratique et des propriétés de ces
algorithmes stochastiques constitue un thème de recherche
traditionnel du projet.
Un
point important pour les modèles à structure cachée est le
choix de la complexité du modèle et en particulier le choix
du nombre K de catégories de
la variable cachée. Dans ce domaine, très ouvert, de
nombreuses approches sont en compétition et la stratégie
adoptée dépend beaucoup du but poursuivi. Par exemple, dans
un contexte de classification, l'objectif est surtout de
restaurer les catégories manquantes zi, alors que dans un
contexte d'estimation de densités, il est plutôt d'estimer le
paramètre
. Cela étant, une approche répandue
consiste à se placer dans un cadre bayésien non informatif et
à chercher le modèle m qui
maximise la vraisemblance intégrée[RW97]
f (
y |
m) =
f (
y |
m,

)

(

|
m)
d
,
(
| m) étant une distribution de
probabilité a priori non informative (c'est-à-dire ne
favorisant pas de valeur particulière) du paramètre
.
Dans un cadre décisionnel, on dispose
d'un échantillon d'apprentissage étiqueté, c'est-à-dire d'un
échantillon complet x = (y,
z). Le problème est alors de construire une
règle de décision pour classer de futures unités pour
lesquelles seules les valeurs yi seront observées. Il
s'agit alors d'un problème d'analyse discriminante, courant
en diagnostic médical, ou en reconnaissance statistique des
formes. Dans ce domaine, bien établi[McL92],
de nombreuses méthodes existent. La recherche consiste
surtout, à l'heure actuelle, à proposer des techniques
répondant à des contextes particuliers et à proposer des
méthodes fiables lorsque les échantillons d'apprentissage
sont de faible taille. C'est ce dernier point que nous
privilégions dans notre recherche.
Les modèles à structure cachée
apparaissent naturellement en analyse d'image où les
phénomènes aléatoires ont un rôle important. Les données
mises en jeu sont spatialement localisées et induisent
l'utilisation de modèles probabilistes spatiaux. Ceux-ci
soulève de nombreuses questions de modélisation et
d'inférence statistique et n'ont cessé de gagner de
l'intérêt. En particulier, le choix de modèles appropriés et
l'estimation des paramètres associés aux modèles utilisés
sont des questions essentielles pour aller vers une
automatisation des algorithmes et tirer tout le profit de la
richesse des modèles stochastiques. Ces problèmes,
abondamment traités, restent cependant ouverts. En effet, un
effort d'ordre méthodologique (recherche d'estimateurs précis
et robustes) et d'ordre algorithmique (réduction des temps de
calcul) reste à faire.
Segmentation et restauration d'image
Des mécanismes de
dégradation des observations sont souvent inhérents aux
problèmes d'images. Dans les problèmes de segmentation, de
classification ou de restauration d'image, il s'agit de
construire ou de retrouver une image inconnue z lorsque seule une version dégradée
y est observée. Cela relève
naturellement des modèles à structure cachée. Les images sont
constituées d'un ensemble S
de pixels qui peuvent prendre une valeur parmi un petit
nombre K de couleurs non
ordonnées (les classes). Dans la suite nous noterons
zi (resp.
yi) la valeur de
l'image z (resp.
y) au pixel i et plus généralement zA (resp. yA) la restriction de
z (resp. y) à un sous-ensemble A de pixels.
Une approche possible, bien fondée statistiquement, est
l'analyse d'image dite bayésienne. Elle fournit des solutions
élégantes et a connu des développements considérables depuis
des premiers travaux tels que ceux de
D. et S. Geman[GG84]
ou Besag[Bes86]. L'intérêt de cette approche est la
possibilité d'introduire explicitement des connaissances a
priori, notamment sur la structure spatiale des images
analysées, dans la modélisation des mécanismes de dégradation
des données. Elle a aussi l'avantage de fournir un cadre
général dans lequel une grande variété d'applications peuvent
être envisagées, par exemple en imagerie médicale et
satellitaire, sismologie, astronomie, etc.
Dans cette approche, le processus physique d'acquisition
des données est pris en compte à travers une vraisemblance
f (y |
z,
) qui
précise la probabilité d'observer des données y lorsque l'image non dégradée est
z. Le paramètre
est ici souvent
interprété comme un paramètre de bruit. L'information sur la
« vraie » image z
est prise en compte à travers une loi de probabilité,
f (z |
), fixée en fonction
du problème traité et qui peut dépendre d'un paramètre
, réglant,
par exemple, le niveau des dépendances spatiales. Dans ce
modèle, une source d'information importante est la loi
conditionnelle de z sachant
les observations y, donnée
par la formule de Bayes suivante
f (z
| y, , ) |
 |
f (y
| z, )f (z |
) . |
(1) |
Elle gère la probabilité que la vraie image soit z sachant que l'image dégradée observée
est y. Un candidat naturel
pour z est la valeur qui
maximise
f (z |
y,
,
), encore appelée MAP pour maximum a
posteriori. Une autre possibilité est l'estimateur
MPM ( marginal posterior mode) obtenu
en maximisant individuellement les probabilités marginales a
posteriori,
f (zi |
y,
,
). Cela revient à maximiser le nombre
moyen de pixels bien classés. D'autres possibilités existent,
que nous ne mentionnons pas ici.
Lorsque les paramètres
et
sont connus, la loi conditionnelle
(1) peut
être simulée à l'aide d'un échantillonneur de Gibbs[GG84]
en considérant chaque pixel successivement. Lorsque l'on se
trouve au pixel i, la valeur
en ce site est remplacée par une valeur tirée au hasard
suivant la loi conditionnelle
f (zi |
zS\{i}, y,
,
). En
couplant cette technique avec un principe de recuit simulé,
D. et S. Geman[GG84] ont proposé une méthode pour
rechercher le MAP dans les cas où une énumération directe est
impossible. L'échantillonneur de Gibbs peut également être
utilisé pour appliquer la règle du MPM en
calculant des probabilités empiriques d'appartenance de
chaque pixel à une classe. De telles approches rencontrent
les problèmes usuels de convergence des algorithmes de type
MCMC et sont généralement lentes. Les
solutions fournies peuvent être sensibles aux propriétés
globales non réalistes des modèles adoptés. Une alternative
plus rapide, et qui repose sur des propriétés locales des
modèles sous-jacents, est l'algorithme déterministe
ICM[Bes86]. La convergence n'est toutefois
garantie que vers un maximum local de (1) et
l'algorithme peut être très sensible aux conditions
initiales. À partir d'une image initiale z(0), à l'itération
t + 1, un pixel i est choisi et sa valeur est mise à
jour en lui donnant la valeur qui maximise
f (zi |
zS\{i}, y,
,
) .
L'approche bayésienne nécessite la
spécification de la distribution
f (z |
). Il s'agit
essentiellement de modéliser des phénomènes ou des
contraintes physiques sous-jacentes. En particulier, il est
raisonnable de supposer que des pixels voisins ont plus de
similarités que des pixels éloignés. De telles
caractéristiques locales peuvent être prises en compte à
travers les probabilités conditionnelles qu'un pixel
i prenne la valeur
zi connaissant la
valeur de tous les autres pixels
zS\{i}. Les
champs de Markov sont des modèles dans lesquels la dépendance
est réduite aux pixels dans un proche voisinage de
i. Ils permettent donc de
prendre en compte les dépendances spatiales entre les pixels
d'une image mais ceci au prix de calculs importants. En
particulier, lorsque le paramètre
du modèle est
inconnu, son estimation est un problème ouvert.
Les méthodes indiquées ci-dessus supposent
les paramètres
et
connus. En pratique, ces paramètres
doivent être estimés à partir des informations disponibles,
ce qui peut présenter certaines difficultés dans le cas des
modèles markoviens. Lorsque l'on dispose de données pour
lesquelles on connaît à la fois les observations y et la vraie image z, on peut envisager d'estimer les
paramètres
et
lors d'une phase d'apprentissage. Très
souvent, de telles données ne sont pas disponibles. Il arrive
également que la phase d'apprentissage demande l'intervention
d'un opérateur humain dans des situations où une
automatisation du système est souhaitée. Ainsi, la recherche
d'algorithmes non supervisés est-elle d'un grand intérêt
pratique. Dans le cas le plus général, seules les données
y sont observées et
z,
,
sont inconnus. Pour
appliquer les méthodes précédentes, les paramètres doivent
donc être estimés en même temps que l'image z.
Notons que plusieurs problèmes peuvent être envisagés. Il
peut s'agir d'estimer seulement
et
. C'est le cas lorsque
l'on souhaite faire de la sélection de modèles sur des
observations bruitées, ou plus généralement estimer des
paramètres dans des problèmes à données manquantes. Il peut
également s'agir d'estimer seulement z, par exemple dans des situations de
classification ou segmentation d'image. Beaucoup des
algorithmes fournissent à la fois des estimations de
z et des paramètres
et
de sorte
que la distinction précédente peut sembler inutile. Nous
décrivons toutefois dans [4] un algorithme fournissant une segmentation
z sans donner une estimation
précise de
, ce qui permet d'éviter des calculs
coûteux.
Les décompositions en ondelettes (orthogonales)
fournissent pour une large classe de signaux une
représentation parcimonieuse, dans laquelle peu de
coefficients ont une amplitude significativement non nulle.
Bien que ces décompositions ne génèrent pas stricto
sensu une base de Kharunen-Loeve pour les processus
étudiés, il est raisonnable dans une majorité de cas, de
négliger les corrélations résiduelles entre coefficients.
Ici, nous nous intéressons à des situations où précisément,
il est important de ne pas sous-estimer ces corrélations.
C'est le cas notamment des processus structurés en échelle,
terminologie intentionnellement vague pouvant désigner les
processus à mémoire longue, aussi bien que des signaux
présentant des couplages entre plusieurs modes spectraux (par
exemple des modes harmoniques). Nous proposons alors de
modéliser ces interactions par des dépendances markoviennes
sur des états cachés des coefficients d'ondelette structurés
selon un arbre diadique multirésolution.
Le modèle statistique ainsi défini sur les coefficients
d'ondelette est un modèle à structure cachée pour lequel
existent des algorithmes de calcul et de maximisation de la
vraisemblance comparables à l'algorithme avant-arrière pour
les chaînes de Markov cachées.
Ainsi, si l'on privilégie l'axe temporel, on s'attache à
modéliser la dépendance statistique de l'état d'un système
conditionnellement à son passé relatif à une échelle de temps
(caractéristique) donnée. Si, en revanche, on privilégie
l'axe des échelles, on vise à caractériser les interactions
entre les différents modes spectraux (ou échelles de temps).
On peut ainsi envisager de repérer grâce à ces modèles, des
comportements en loi d'échelle (auto-similarité globale ou
locale, longue dépendance), ou, ce qui nous intéresse
davantage, des transitions dans cette dynamique d'échelle
(processus multi-échelle, scalings non stationnaires...).