projet : SIGMA2

previous up next contents
Précédent : Fondements scientifiques Remonter : Fondements scientifiques Suivant : Surveillance et diagnostic par des


Sous-sections


   
Identification et systèmes adaptatifs

Mots clés : identification, systèmes adaptatifs, approximations stochastiques, poursuite, paramétrique, non-paramétrique .

Glossaire :

Système adaptatif Se dit d'un système capable de réajuster son comportement en réaction à des modifications graduelles de son environnement.

Paramétrique et non-paramétrique On parle de modélisation paramétrique lorsque le modèle est caractérisable par un vecteur de dimension finie (et pas trop grande en pratique), et de modélisation non-paramétrique lorsque cela n'est pas le cas.

Résumé :

On se donne une suite d'observations (Yk)k > 0 de loi caractérisée par un paramètre inconnu $ \theta^{*}_{}$ $ \in$ $ \Theta$. Le problème de l'identification paramétrique consiste à retrouver le paramètre inconnu $ \theta^{*}_{}$ à partir de la donnée d'une suite d'observations (Yk)k > 0 gouvernée par ce paramètre.

L'identification peut être «hors-ligne», ou «non récursive». Dans ce cas, on se donne un échantillon (Yk)0 < k $\scriptstyle \leq$ N de longueur finie N, et on cherche à construire un estimateur $ \widehat{\theta}_{N}^{}$, c'est-à-dire une fonction de l'échantillon (Yk)0 < k $\scriptstyle \leq$ N à valeurs dans $ \Theta$. Les questions qui se posent sont alors : lorsque N tend vers l'infini, 1) $ \widehat{\theta}_{N}^{}$ converge-t-il vers le vrai paramètre $ \theta^{*}_{}$, 2) si oui, à quelle vitesse ? Existe-t-il une borne optimale pour cette vitesse, borne qui dépend du vrai paramètre $ \theta^{*}_{}$ inconnu, et qui permet de parler de l'optimalité d'un estimateur ? Sait-on construire des estimateurs optimaux ?

L'identification peut être «en-ligne», ou «récursive». Dans ce cas, on lit à la volée l'échantillon (Yn)n > 0, et l'on construit récursivement une suite d'estimateurs $ \widehat{\theta}_{n}^{}$. Cette suite est en général calculée incrémentalement, ce qui signifie que $ \widehat{\theta}_{n}^{}$ est calculé en fonction de $ \widehat{\theta}_{n-1}^{}$ et des nouvelles données reçues. On parle alors souvent d'approximation stochastique, ou de système adaptatif. Outre les questions précédentes, on se pose alors le problème de la poursuite : supposons que le vrai paramètre $ \theta^{*}_{}$, au lieu d'être fixe, soit «lentement» variable, est-il possible que la suite d'estimateurs $ \widehat{\theta}_{n}^{}$ poursuive les variations du vrai paramètre $ \theta^{*}_{}$ ? Nous avons, au cours des dix dernières années, apporté diverses contributions sur l'ensemble de ces questions, et tout récemment sur le problème de la poursuite.

Parfois, le paramètre à estimer est un vecteur de grande dimension. Dans ce cas, le point de vue précédent est inopérant et l'approche que nous avons considérée jusqu'à présent est plus spécifiquement celle de l'estimation non-paramétrique (ou estimation fonctionnelle). Le nombre de paramètres à estimer étant infini, la classe de modèles envisageable est, d'un point de vue théorique, un espace de dimension infinie, et des algorithmes différents doivent être mis en oeuvre sur la base de considérations statistiques. Reliés à ce point de vue, on trouve également les réseaux de neurones et la logique floue. Nous avons, sur ces questions, apporté des contributions tant mathématiques que sous la forme de propositions d'algorithmes, en particulier dans le cas difficile où les observations sont elles-mêmes des vecteurs de grande dimension (on peut aller jusqu'à quelques milliers).

Le problème général de l'identification tel que nous l'approchons est le suivant : décrire au mieux une relation entrées/sorties, u $ \longrightarrow$ y, à partir de l'observation d'une séquence d'apprentissage (u1, y1, u2, y2, ... ). La mesure de la qualité de la modélisation dépend de l'usage qui en est fait ensuite (surveillance, prédiction, ...).

L'approche paramétrique

Une phase de modélisation précède l'identification pour restreindre l'espace de recherche à un espace de dimension finie. Pour fixer les idées, partons du paradigme suivant : une classe de modèles assez large de la forme

 
yn = f ($\displaystyle \theta$, yn - 1, un, un - 1) + en (1)
en est un bruit blanc et f ($ \theta$,.) une famille de fonctions paramétrées par $ \theta$, déterminées à l'étape de modélisation. L'algorithme théoriquement le plus simple est le maximum de vraisemblance, qui estimera $ \theta$ à partir de N données, par la formule (on suppose en gaussien et les en indépendants) :
$\displaystyle \hat{\theta}_{N}^{}$ = arg$\displaystyle \min_{\theta}^{}$$\displaystyle \sum_{n=1}^{N}$(yn - f ($\displaystyle \theta$, yn - 1, un, un - 1))2.
Une approche de ce type, pour pouvoir s'adapter à de nombreuses applications, doit être améliorée dans les directions suivantes : Une autre difficulté est la pauvre qualité de l'estimation lorsque le paramètre est de grande dimension, et les méthodes utilisées en non-paramétrique sont une source importante d'inspiration.

C'est la théorie de l'approximation stochastique, qui permet d'aborder de manière adéquate les problèmes de récursivité et d'adaptativité en identification dans un cadre statistique.

Approximation stochastique

L'usage des algorithmes stochastiques est très répandu, et recouvre des domaines tels que la commande adaptative, les systèmes de transmission, le filtrage adaptatif, certains algorithmes d'apprentissage en reconnaissance des formes, etc. De nombreux exemples se trouvent dans [Sar74,BMP90,LS83].

Le but de ces algorithmes est l'estimation récursive d'un paramètre inconnu et invariant dans le temps (ou lentement variable) traditionnellement noté $ \theta$. On suppose que les observations Yn reçues à chaque instant sont reliées au vrai paramètre $ \theta^{*}_{}$ par une relation du type

E$\scriptstyle \theta$[H($\displaystyle \theta$, Yn)] = 0 ,    si    $\displaystyle \theta$ = $\displaystyle \theta^{*}_{}$
E$\scriptstyle \theta$ désigne l'espérance selon la loi de Yn, H est une fonction connue, mais la distribution de Ynest inconnue et peut dépendre de $ \theta$ (d'où l'indice $ \theta$ dans E$\scriptstyle \theta$). Dans un grand nombre de situations, H est le gradient d'une fonction à minimiser (erreur quadratique de prédiction, ...). La structure générale de l'algorithme de minimisation sera alors
$\displaystyle \theta_{n}^{}$ = $\displaystyle \theta_{n-1}^{}$ - $\displaystyle \gamma_{n}^{}$H($\displaystyle \theta_{n-1}^{}$, Yn)
$ \gamma_{n}^{}$ est une suite décroissante, typiquement 1/n ou une constante, et $ \theta_{n}^{}$ est l'estimée de $ \theta^{*}_{}$ au temps n.

Par exemple, si H($ \theta$, Y) = $ \theta$ - Y, et $ \gamma_{n}^{}$ = 1/n, alors $ \theta_{n}^{}$ est simplement la moyenne arithmétique des Yn. Une situation plus compliquée est celle des algorithmes de Robbins-Monro : on cherche à régler le paramètre $ \theta$ (par exemple le dosage de produits chimiques) de sorte que l'effet mesuré par Y (en l'occurrence la chaleur produite) soit à un niveau moyen $ \alpha$, et la règle du jeu est que Yn est le résultat d'une expérience faite avec $ \theta_{n-1}^{}$; dans cette situation H($ \theta$, Y) = Y - $ \alpha$. Dans l'exemple du modèle (1), on choisira typiquement d'estimer $ \theta$ avec

Yn = (yn, yn - 1, un, un - 1)
H($\displaystyle \theta$, Yn) = $\displaystyle {\frac{\partial}{\partial\theta}}$(yn - f ($\displaystyle \theta$, yn - 1, un, un - 1))2 .

L'étude théorique de ces algorithmes est généralement faite dans un cadre Markovien assez large donnant une forme explicite à la dépendance en $ \theta$ de la loi du processus Yn [BMP90].

Si l'on s'intéresse aux gains en 1/n, il est acquis [HH80,NK76,BMP90,KC78,Del96b] que sous certaines hypothèses, peu restrictives mais pas toujours faciles à vérifier, $ \theta_{n}^{}$converge presque sûrement vers $ \theta^{*}_{}$, et les variables $ \sqrt{n}$($ \theta_{n}^{}$ - $ \theta^{*}_{}$) convergent en loi vers une variable normale de variance V satisfaisant une certaine équation de Lyapunov [Del96a]. On vérifie que V peut être améliorée par l'introduction d'une matrice de gain $ \Gamma$ dans l'algorithme :

$\displaystyle \theta_{n}^{}$ = $\displaystyle \theta_{n-1}^{}$ - $\displaystyle \gamma_{n}^{}$$\displaystyle \Gamma$H($\displaystyle \theta_{n-1}^{}$, Yn)
et que le choix optimal du gain permet d'atteindre la borne de Cramér-Rao. Malheureusement, cette matrice optimale est généralement inconnue. Cette difficulté peut être évitée par l'usage de l'algorithme de Polyak-Ruppert [Pol90,DJ95b] :
$\displaystyle \theta_{n}^{}$ = $\displaystyle \theta_{n-1}^{}$ - $\displaystyle \gamma_{n}^{}$H($\displaystyle \theta_{n-1}^{}$, Yn)  
$\displaystyle \bar{\theta}_{n}^{}$ = $\displaystyle \bar{\theta}_{n-1}^{}$ + $\displaystyle {\frac{1}{n}}$($\displaystyle \theta_{n-1}^{}$ - $\displaystyle \bar{\theta}_{n-1}^{}$).  

avec un gain $ \gamma_{n}^{}$ typiquement d'ordre n-2/3. On peut prouver l'optimalité de cet algorithme (convergence de $ \bar{\theta}_{n}^{}$ vers $ \theta^{*}_{}$ à même vitesse que $ \theta_{n}^{}$ dans le cas où $ \Gamma$ est choisi au mieux) dans des circonstances assez générales.


Les algorithmes à gain constant ( $ \gamma_{n}^{}$ = $ \gamma$) sont utilisés en revanche lorsque le vrai paramètre varie lentement dans le temps (situation de poursuite). Les études se concentrent dans ce cas sur une approche asymptotique où $ \gamma$ et la vitesse de variation de $ \theta^{*}_{}$ sont petits. Un premier aspect est la convergence dans la période transitoire (1$ \le$n$ \le$1/$ \gamma$), période pendant laquelle $ \theta_{n}^{}$ passe de la valeur initiale $ \theta_{0}^{}$ à un voisinage de $ \theta^{*}_{}$. Cette approche dite de l'équation différentielle moyenne est étudiée de façon approfondie dans [BMP90] et conduit à la conclusion suivante : si $ \theta^{*}_{n}$ varie régulièrement à vitesse v, le gain doit être choisi d'ordre v2/3, mais si $ \theta^{*}_{n}$ suit une marche aléatoire, le gain doit être proportionnel à l'amplitude moyenne de |$ \theta^{*}_{n+1}$ - $ \theta^{*}_{n}$|. Un deuxième angle d'attaque correspond à l'étude de la distribution limite de $ \theta_{n}^{}$ lorsque $ \theta_{n}^{*}$ a une distribution donnée et $ \gamma$ est fixé [DJ95a], et conduit au même type de conclusion.

Un problème ouvert est l'estimation directe d'un bon gain sans connaissance a priori sur les variations de $ \theta^{*}_{}$ : la véritable adaptativité. Ceci correspond à des études en cours dans le projet, qui ont déjà été amorcées dans un cadre applicatif pour un problème d'analyse d'images météorologiques; il s'est agi d'utiliser une méthode statistique inspirée de la solution d'un problème d'estimation non-paramétrique dans un cadre min-max, voir le rapport 1997 du projet VISTA.

Un autre problème en cours de traitement est l'approximation stochastique pour les paramètres de grande dimension. L'idée, pour rendre le problème soluble, est de supposer que le vrai paramètre $ \theta^{*}_{}$ appartient à la boule unité de $ \ell_{1}^{}$. Cette contrainte réduit considérablement le volume de l'espace de recherche tout en restant réaliste pour les applications. Un avantage supplémentaire est qu'on aboutira à des estimées  $ \hat{\theta}$ parcimonieuses, au sens où la majorité des coefficients seront quasi-nuls. Dans ces circonstances, même en déterministe, les méthodes de gradient sont totalement inefficaces (puisque le gradient appartient au dual de l'espace d'origine, qui diffère maintenant de ce dernier). Il faut alors utiliser la méthode des algorithmes miroirs décrite dans [JN96].

Estimation non-paramétrique

Sous sa forme la plus traditionnelle, le problème de l'estimation non-paramétrique se pose ainsi : on observe des paires (xn, yn) indépendantes où

yn = f (xn) + en.
Les en sont des variables gaussiennes i.i.d. (indépendantes identiquement distribuées) et f est la fonction inconnue à estimer. L'erreur d'estimation considérée est le risque quadratique
$\displaystyle \int$$\displaystyle \vert$$\displaystyle \hat{f}$(x) - f (x)$\displaystyle \vert^{2}_{}$ p(dx)
p(dx) est la distribution de xn et $ \hat{f}$ est l'estimée de f. L'approche conceptuellement la plus simple consiste à supposer que f appartient à un certain ensemble de fonctions ${\cal F}$qui doit être compact dans l'ensemble des fonctions continues (sinon on ne pourra jamais estimer f en un sens raisonnable), par exemple, \begin{displaymath}{\cal F} = \{f\,:\, \sup_x \vert f(x)\vert + \sup_x \vert f'(x)\vert + \sup_x \vert f''(x)\vert \leq 1\} \end{displaymath} et de réaliser le maximum de vraisemblance
$\displaystyle \hat{f}$ = arg$\displaystyle \min_{\cal F}^{}$$\displaystyle \sum_{n=1}^{N}$(yn - f (xn))2.
Cet algorithme est asymptotiquement optimal dans de nombreuses situations (ce n'est cependant pas toujours le cas), et converge, en norme L2, à une vitesse qui se rapproche de la vitesse paramétrique 1/$ \sqrt{N}$ lorsque la classe ${\cal F}$ se restreint à des fonctions de plus en plus régulières. Cet algorithme étant irréalisable en raison de sa complexité, des alternatives ont été proposées depuis longtemps [[4]]. Les méthodes les plus récentes font appel aux ondelettes et donnent lieu à des algorithmes dits adaptatifs, car ils ne requièrent pas la connaissance exacte de ${\cal F}$; ils sont dûs à D. Donoho, I. Johnstone, G. Kerkyacharian et D. Picard [DJ96].

Les problèmes qui nous intéressent sont liés à la situation où l'on observe un système dynamique du type

yn = f (yn - 1, un) + en.
Dans cette situation, la loi de xn = (yn - 1, un) dépend elle-même de f, ce qui influe sur l'algorithme; de plus la suite (xn) n'est plus indépendante, ce qui ralentit l'approximation (en particulier si la variance de en est petite !).



previous up next contents
Précédent : Fondements scientifiques Remonter : Fondements scientifiques Suivant : Surveillance et diagnostic par des