Projet : IS2

previous up next contents
Précédent : Fondements scientifiques Remonter : Fondements scientifiques Suivant : Modèles linéaires généralisés et hétéroscédasticité


Sous-sections


   
Modèles à structure cachée



Participants : Christophe Biernacki, Isabel Brito, Gilles Celeux, Jean Diebolt, Florence Forbes, Stéphane Girard, Nathalie Peyrard.

Mots clés : données manquantes, mélange de lois, algorithme EM, algorithmes stochastiques, combinaison et choix de modèles, analyse discriminante, analyse d'image, champ de Markov caché, analyse bayésienne .

Résumé :

Les modèles à structure cachée constituent un domaine important de la statistique à la fois par leurs applications (classification, analyse du signal ou de l'image) que par les problèmes algorithmiques et théoriques (choix de modèles notamment) qu'ils soulèvent. L'analyse statistique d'image est un domaine relevant de ce type de modèles. Nous détaillons plus particulièrement le modèle de champ de Markov caché utilisé en analyse d'image.

   
Généralités

Le projet IS2 s'intéresse à des modèles statistiques paramétriques, $ \theta$ dénotant le paramètre à estimer, où les données complètes x = x1,..., xn se décomposent de manière naturelle en données observées y = y1,..., yn et en données manquantes z = z1,..., zn. Les données manquantes zi représentent l'appartenance à une catégorie d'objets parmi K. La densité des données complètes f (x | $ \theta$) et celle des données observées f (y | $ \theta$) sont liées par la relation f (y | $ \theta$) = $ \int$f (x | $ \theta$)dz = $ \int$f (y, z | $ \theta$)dz. La loi marginale d'une donnée observée s'écrit comme un mélange fini de lois,
f (yi | $\displaystyle \theta$) = $\displaystyle \sum_{k=1}^{K}$P(zi = k | $\displaystyle \theta$)f (yi | zi,$\displaystyle \theta$)  .
Un tel modèle peut par exemple être utilisé pour rendre compte des variations de la taille des adultes. Une variable cachée (le sexe) explique entièrement les variations entre les tailles, les variations de taille pour les personnes de même sexe étant considérées comme la réalisation d'un bruit gaussien. Ce type de modèle à données incomplètes est intéressant car il est susceptible de mettre en évidence une variable discrète cachée qui explique l'essentiel des variations et par rapport à laquelle les données observées sont conditionnellement indépendantes. Les modèles de mélange de lois lorsque les zi sont indépendants constituent une approche de plus en plus répandue en classification. Les modèles de chaîne de Markov cachée (resp. champ de Markov caché) correspondent au cas où les zisont les réalisations d'une chaîne (resp. champ) de Markov. Ils sont très utilisés en traitement du signal (reconnaissance de la parole, analyse de séquences génomiques, etc.) et de l'image (voir section 3.1.2).

Les algorithmes.

Du point de vue mathématique, ces modèles ne sont souvent pas faciles à estimer du fait même de l'existence de données manquantes. Ils ont donné naissance à de nombreux algorithmes, dont le dénominateur commun est la restauration des données manquantes, mais qui diffèrent par leur stratégie de restauration. L'algorithme le plus utilisé est l'algorithme EM[MK97].

Glossaire :

Algorithme EM C'est un algorithme très populaire pour l'estimation du maximum de vraisemblance de modèles à structure de données incomplètes. Chaque itération comporte deux étapes. L'étape E (expectation) qui consiste à calculer l'espérance conditionnelle de la vraisemblance des données complètes sachant les observations et l'étape M (maximisation) qui consiste à maximiser cette espérance conditionnelle.

Les versions stochastiques de l'algorithme EM, dont Gilles Celeux et Jean Diebolt comptent parmi les pionniers, incorporent une étape de simulation des données manquantes pour pouvoir travailler sur des données complétées.

Les algorithmes MCMC (Markov Chain Monte Carlo) sont définis dans un cadre bayésien. Partant d'une loi a priori pour les paramètres, ils simulent une chaîne de Markov, définie sur les valeurs possibles des paramètres, et qui a pour loi stationnaire la loi recherchée, à savoir la loi a posteriori des paramètres. À chaque étape, z est simulé selon sa loi conditionnelle courante sachant les observations.

L'étude du comportement pratique et des propriétés de ces algorithmes stochastiques constituent un thème de recherche traditionnel du projet.

Choix de modèles.

Un point important pour les modèles à structure cachée est le choix de la complexité du modèle et en particulier le choix du nombre K de catégories de la variable cachée. Dans ce domaine, très ouvert, de nombreuses approches sont en compétition et la stratégie adoptée dépend beaucoup du but poursuivi. Par exemple, dans un contexte de classification, l'objectif est surtout de restaurer les catégories manquantes zi, alors que dans un contexte d'estimation de densités, il est plutôt d'estimer le paramètre $ \theta$. Cela étant, une approche répandue consiste à se placer dans un cadre bayésien non informatif et à chercher le modèle m qui maximise la vraisemblance intégrée[RW97]
f (y | m) = $\displaystyle \int$f (y | m,$\displaystyle \theta$)$\displaystyle \pi$($\displaystyle \theta$ | m)d$\displaystyle \theta$,
$ \pi$($ \theta$ | m) étant une distribution de probabilité a priori non informative (c'est-à-dire ne favorisant pas de valeur particulière) du paramètre $ \theta$.

Analyse discriminante.

Dans un cadre décisionnel, on dispose d'un échantillon d'apprentissage étiqueté, c'est-à-dire d'un échantillon complet x = (y, z). Le problème est alors de construire une règle de décision pour classer de futures unités pour lesquelles seules les valeurs yiseront observées. Il s'agit alors d'un problème d'analyse discriminante, courant en diagnostic médical, ou en reconnaissance statistique des formes. Dans ce domaine, bien établi[McL92], de nombreuses méthodes existent. La recherche consiste surtout, à l'heure actuelle, à proposer des techniques répondant à des contextes particuliers et à proposer des méthodes fiables lorsque les échantillons d'apprentissage sont de faible taille. C'est ce dernier point que nous privilégions dans notre recherche.

La modélisation statistique en analyse d'image

Les modèles à structure cachée apparaissent naturellement en analyse d'image où les phénomènes aléatoires ont un rôle important. Les données mises en jeu sont spatialement localisées et induisent l'utilisation de modèles probabilistes spatiaux. Celle-ci soulève de nombreuses questions de modélisation et d'inférence statistique et n'a cessé de gagner de l'intérêt. En particulier, le choix de modèles appropriés et l'estimation des paramètres associés aux modèles utilisés sont des questions essentielles pour aller vers une automatisation des algorithmes et tirer tout le profit de la richesse des modèles stochastiques. Ces problèmes, abondamment traités, restent cependant ouverts. En effet, un effort d'ordre méthodologique (recherche d'estimateurs précis et robustes) et d'ordre algorithmique (réduction des temps de calcul) reste à faire.

   
Segmentation et restauration d'image.

Des mécanismes de dégradation des observations sont souvent inhérents aux problèmes d'images. Dans les problèmes de segmentation, de classification ou de restauration d'image, il s'agit de construire ou de retrouver une image inconnue zlorsque seule une version dégradée y est observée. Cela relève naturellement des modèles à structure cachée. Les images sont constituées d'un ensemble S de pixels qui peuvent prendre une valeur parmi un petit nombre K de couleurs non ordonnées (les classes). Dans la suite nous noterons zi (resp. yi) la valeur de l'image z (resp. y) au pixel i et plus généralement zA (resp. yA) pour la restriction de z (resp. y) à un sous-ensemble A de pixels. Une approche possible, bien fondée statistiquement, est l'analyse d'image dite bayésienne. Elle fournit des solutions élégantes et a connu des développements considérables depuis des premiers travaux tels que ceux de D. Geman et S. Geman[GG84]ou Besag[Bes86]. L'intérêt de cette approche est la possibilité d'introduire explicitement des connaissances a priori, notamment sur la structure spatiale des images analysées, dans la modélisation des mécanismes de dégradation des données. Elle a aussi l'avantage de fournir un cadre général dans lequel une grande variété d'applications peuvent être envisagées, par exemple en imagerie médicale et satellitaire, sismologie, astronomie, etc. Dans cette approche, le processus physique d'acquisition des données est pris en compte à travers une vraisemblance f (y  |  z,$ \theta$) qui précise la probabilité d'observer des données y lorsque l'image non dégradée est z. Le paramètre $ \theta$ est ici souvent interprété comme un paramètre de bruit. L'information sur la ``vraie" image z est prise en compte à travers une loi de probabilité, f (z  |  $ \beta$), fixée en fonction du problème traité et qui peut dépendre d'un paramètre $ \beta$, réglant, par exemple, le niveau des dépendances spatiales. Dans ce modèle, une source d'information importante est la loi conditionnelle de z sachant les observations y, donnée par la formule de Bayes suivante
 
f (z  |  y,$\displaystyle \theta$,$\displaystyle \beta$) $\displaystyle \propto$ f (y  |  z,$\displaystyle \theta$)f (z  |  $\displaystyle \beta$) . (1)

Elle gère la probabilité que la vraie image soit z sachant que l'image dégradée observée est y. Un candidat naturel pour z est la valeur qui maximise f (z  |  y,$ \theta$,$ \beta$), encore appelée MAP pour maximum a posteriori. Une alternative est l'estimateur MPM (marginal posterior mode) obtenu en maximisant individuellement les probabilités marginales a posteriori, f (zi  |  y,$ \theta$,$ \beta$) . Cela revient à maximiser le nombre moyen de pixels bien classés. D'autres possibilités que nous ne mentionnons pas ici, existent.

Lorsque les paramètres $ \theta$ et $ \beta$ sont connus, la loi conditionnelle (1) peut être simulée à l'aide d'un échantillonneur de Gibbs[GG84] en considérant chaque pixel successivement. Lorsque l'on se trouve au pixel i, la valeur en ce site est remplacée par une valeur tirée au hasard suivant la loi conditionnelle f (zi  |  zS$\scriptstyle \backslash${i}, y,$ \theta$,$ \beta$). En couplant cette technique avec un principe de recuit simulé, D. Geman et S. Geman[GG84] ont proposé une méthode pour rechercher le MAP dans les cas où une énumération directe est impossible. L'échantillonneur de Gibbs peut également être utilisé pour appliquer la règle du MPM en calculant des probabilités empiriques d'appartenance de chaque pixel à une classe. De telles approches rencontrent les problèmes usuels de convergence des algorithmes de type MCMC et sont généralement lentes. Les solutions fournies peuvent être sensibles aux propriétés globales non réalistes des modèles adoptés. Une alternative plus rapide et qui repose sur des propriétés locales des modèles sous-jacents, est l'algorithme déterministe ICM[Bes86]. La convergence n'est toutefois garantie que vers un maximum local de (1) et l'algorithme peut être très sensible aux conditions initiales. À partir d'une image initiale z(0), à l'itération t + 1, un pixel i est choisi et sa valeur est mise à jour en lui donnant la valeur qui maximise f (zi  |  zS$\scriptstyle \backslash${i}, y,$ \theta$,$ \beta$) .

Modélisation markovienne.

L'approche bayésienne nécessite la spécification de la loi f (z  |  $ \beta$). Il s'agit essentiellement de modéliser des phénomènes ou des contraintes physiques sous-jacentes. En particulier, il est raisonnable de supposer que des pixels voisins ont plus de similarités que des pixels éloignés. De telles caractéristiques locales peuvent être prises en compte à travers les probabilités conditionnelles qu'un pixel i prenne la valeur zi connaissant la valeur de tous les autres pixels zS$\scriptstyle \backslash${i}. Les champs de Markov sont des modèles dans lesquels la dépendance est réduite aux pixels dans un proche voisinage de i. Ils permettent donc de prendre en compte les dépendances spatiales entre les pixels d'une image mais ceci au prix de calculs importants. En particulier lorsque le paramètre $ \beta$ du modèle est inconnu, son estimation est un problème ouvert.

Algorithmes non supervisés.

Les méthodes indiquées ci-dessus supposent les paramètres $ \theta$ et $ \beta$ connus. En pratique, ces paramètres doivent être estimés à partir des informations disponibles, ce qui peut présenter certaines difficultés dans le cas des modèles markoviens. Lorsque l'on dispose de données pour lesquelles l'on connaît à la fois les observations yet la vraie image z, on peut envisager d'estimer les paramètres $ \beta$ et $ \theta$ lors d'une phase d'apprentissage. Très souvent, de telles données ne sont pas disponibles. Il arrive également que la phase d'apprentissage demande l'intervention d'un opérateur humain dans des situations où une automatisation du système est souhaitée. Ainsi, la recherche d'algorithmes non supervisés est d'un grand intérêt pratique. Dans le cas le plus général, seules les données y sont observées et z, $ \theta$, $ \beta$ sont inconnus. Pour appliquer les méthodes précédentes, les paramètres doivent donc être estimés en même temps que l'image z. Notons que plusieurs problèmes peuvent être envisagés. Il peut s'agir d'estimer seulement $ \theta$ et $ \beta$. C'est le cas lorsque l'on souhaite faire de la sélection de modèles sur des observations bruitées ou plus généralement estimer des paramètres dans des problèmes à données manquantes. Il peut également s'agir d'estimer seulement z, par exemple dans des situations de classification ou segmentation d'image. Beaucoup des algorithmes fournissent à la fois des estimations de z et des paramètres $ \theta$ et $ \beta$de sorte que la distinction précédente peut sembler inutile. Nous mentionnons toutefois dans la section 6.4.1 un algorithme fournissant une segmentation z sans donner une estimation précise de $ \beta$, ce qui permet d'éviter des calculs couteux.



previous up next contents
Précédent : Fondements scientifiques Remonter : Fondements scientifiques Suivant : Modèles linéaires généralisés et hétéroscédasticité