Précédent : Fondements scientifiques Remonter :
Fondements
scientifiques Suivant : Surveillance et diagnostic par
des
Mots clés : identification, systèmes adaptatifs, approximations stochastiques, poursuite, paramétrique, non-paramétrique .
Glossaire :
Système adaptatif Se dit d'un système capable de réajuster son comportement en réaction à des modifications graduelles de son environnement.
Paramétrique et non-paramétrique On parle de modélisation paramétrique lorsque le modèle est caractérisable par un vecteur de dimension finie (et pas trop grande en pratique), et de modélisation non-paramétrique lorsque cela n'est pas le cas.
L'identification peut être «hors-ligne», ou «non récursive».
Dans ce cas, on se donne un échantillon
(Yk)0 < k N de longueur finie N, et
on cherche à construire un estimateur
, c'est-à-dire une
fonction de l'échantillon
(Yk)0 < k
N à valeurs dans
. Les questions qui se posent sont alors :
lorsque N tend vers l'infini, 1)
converge-t-il vers
le vrai paramètre
, 2) si oui, à
quelle vitesse ? Existe-t-il une borne optimale pour cette
vitesse, borne qui dépend du vrai paramètre
inconnu, et qui permet de parler de
l'optimalité d'un estimateur ? Sait-on construire des
estimateurs optimaux ?
L'identification peut être «en-ligne», ou «récursive». Dans
ce cas, on lit à la volée l'échantillon
(Yn)n > 0, et l'on construit
récursivement une suite d'estimateurs
. Cette suite est
en général calculée incrémentalement, ce qui signifie que
est calculé en
fonction de
et des nouvelles
données reçues. On parle alors souvent d'approximation
stochastique, ou de système adaptatif. Outre les questions
précédentes, on se pose alors le problème de la
poursuite : supposons que le vrai paramètre
, au lieu d'être fixe, soit
«lentement» variable, est-il possible que la suite
d'estimateurs
poursuive les
variations du vrai paramètre
? Nous avons, au cours des dix
dernières années, apporté diverses contributions sur l'ensemble
de ces questions, et tout récemment sur le problème de la
poursuite.
Parfois, le paramètre à estimer est un vecteur de grande dimension. Dans ce cas, le point de vue précédent est inopérant et l'approche que nous avons considérée jusqu'à présent est plus spécifiquement celle de l'estimation non-paramétrique (ou estimation fonctionnelle). Le nombre de paramètres à estimer étant infini, la classe de modèles envisageable est, d'un point de vue théorique, un espace de dimension infinie, et des algorithmes différents doivent être mis en oeuvre sur la base de considérations statistiques. Reliés à ce point de vue, on trouve également les réseaux de neurones et la logique floue. Nous avons, sur ces questions, apporté des contributions tant mathématiques que sous la forme de propositions d'algorithmes, en particulier dans le cas difficile où les observations sont elles-mêmes des vecteurs de grande dimension (on peut aller jusqu'à quelques milliers).
Le problème général de l'identification tel que nous
l'approchons est le suivant : décrire au mieux une relation
entrées/sorties,
u y, à partir de
l'observation d'une séquence d'apprentissage
(u1, y1,
u2, y2, ... ). La
mesure de la qualité de la modélisation dépend de l'usage qui en
est fait ensuite (surveillance, prédiction, ...).
Une phase de modélisation précède l'identification pour restreindre l'espace de recherche à un espace de dimension finie. Pour fixer les idées, partons du paradigme suivant : une classe de modèles assez large de la forme
où en est un bruit blanc et f (C'est la théorie de l'approximation stochastique, qui permet d'aborder de manière adéquate les problèmes de récursivité et d'adaptativité en identification dans un cadre statistique.
L'usage des algorithmes stochastiques est très répandu, et recouvre des domaines tels que la commande adaptative, les systèmes de transmission, le filtrage adaptatif, certains algorithmes d'apprentissage en reconnaissance des formes, etc. De nombreux exemples se trouvent dans [Sar74,BMP90,LS83].
Le but de ces algorithmes est l'estimation récursive d'un
paramètre inconnu et invariant dans le temps (ou lentement
variable) traditionnellement noté . On
suppose que les observations Yn reçues à chaque
instant sont reliées au vrai paramètre
par une relation du type
Par exemple, si
H(, Y) =
- Y, et
= 1/n, alors
est simplement la moyenne
arithmétique des Yn. Une situation plus
compliquée est celle des algorithmes de Robbins-Monro : on
cherche à régler le paramètre
(par exemple
le dosage de produits chimiques) de sorte que l'effet mesuré par
Y (en l'occurrence la chaleur produite) soit à un niveau
moyen
, et la règle du jeu est que
Yn est le résultat d'une expérience faite avec
; dans cette situation
H(
, Y) = Y -
. Dans l'exemple du
modèle (1), on choisira
typiquement d'estimer
avec
Yn = (yn, yn - 1, un, un - 1) |
H(![]() ![]() ![]() |
Si l'on s'intéresse aux gains en 1/n, il est acquis
[HH80,NK76,BMP90,KC78,Del96b] que sous
certaines hypothèses, peu restrictives mais pas toujours faciles
à vérifier, converge presque sûrement
vers
, et les variables
(
-
) convergent en loi vers une
variable normale de variance V satisfaisant une certaine
équation de Lyapunov [Del96a]. On vérifie
que V peut être améliorée par l'introduction d'une matrice
de gain
dans l'algorithme :
![]() |
= | ![]() ![]() ![]() |
|
![]() |
= | ![]() ![]() ![]() ![]() |
Les algorithmes à gain constant (
=
) sont
utilisés en revanche lorsque le vrai paramètre varie lentement
dans le temps (situation de poursuite). Les études se concentrent
dans ce cas sur une approche asymptotique où
et la vitesse de variation de
sont petits. Un premier aspect est la
convergence dans la période transitoire
(1
n
1/
), période pendant laquelle
passe de la valeur initiale
à un voisinage de
. Cette approche dite de l'équation
différentielle moyenne est étudiée de façon approfondie dans
[BMP90] et conduit à la
conclusion suivante : si
varie régulièrement à
vitesse v, le gain doit être choisi d'ordre
v2/3, mais si
suit une marche aléatoire,
le gain doit être proportionnel à l'amplitude moyenne de
|
-
|. Un deuxième angle d'attaque correspond à
l'étude de la distribution limite de
lorsque
a une distribution donnée et
est fixé [DJ95a], et conduit au même type
de conclusion.
Un problème ouvert est l'estimation directe d'un bon gain sans
connaissance a priori sur les variations de : la véritable adaptativité. Ceci
correspond à des études en cours dans le projet, qui ont déjà été
amorcées dans un cadre applicatif pour un problème d'analyse
d'images météorologiques; il s'est agi d'utiliser une méthode
statistique inspirée de la solution d'un problème d'estimation
non-paramétrique dans un cadre min-max, voir le rapport 1997
du projet VISTA.
Un autre problème en cours de traitement est l'approximation
stochastique pour les paramètres de grande dimension. L'idée,
pour rendre le problème soluble, est de supposer que le vrai
paramètre appartient à la boule
unité de
. Cette contrainte réduit
considérablement le volume de l'espace de recherche tout en
restant réaliste pour les applications. Un avantage
supplémentaire est qu'on aboutira à des estimées
parcimonieuses, au sens où la
majorité des coefficients seront quasi-nuls. Dans ces
circonstances, même en déterministe, les méthodes de gradient
sont totalement inefficaces (puisque le gradient appartient au
dual de l'espace d'origine, qui diffère maintenant de ce
dernier). Il faut alors utiliser la méthode des algorithmes
miroirs décrite dans [JN96].
Sous sa forme la plus traditionnelle, le problème de l'estimation non-paramétrique se pose ainsi : on observe des paires (xn, yn) indépendantes où
Les problèmes qui nous intéressent sont liés à la situation où l'on observe un système dynamique du type