Mots clés : contrÔle stochastique,
contrÔle singulier et impulsionnel, frontière libre,
Hamilton-Jacobi-Bellman, inéquation variationnelle et
quasi-variationnelle .
Participants : M. Akian (projet
Metalau), J.-Ph. Chancelier, C. Martini, M. Mnif, Ch. Patry,
A. Sulem.
Résumé :
Le contrÔle stochastique est l'étude des systèmes
dynamiques perturbés par des événements aléatoires et que
l'on peut commander dans le but d'optimiser un certain
critère.
On considère des systèmes dynamiques dont l'état est
modélisé par un processus de diffusion (éventuellement avec
sauts), sur lequel on peut agir au moyen de variables de
commande. La commande peut être continue, singulière ou
impulsionnelle. Le but est d'optimiser un critère sur un
horizon de gestion fini ou infini ou de type ergodique. La
fonction valeur, qui réalise l'optimum du critère satisfait
une équation d'Hamilton-Jacobi-Bellman ou une inéquation
variationnelle ou quasi-variationnelle elliptique,
parabolique ou ergodique, avec des conditions aux limites
dépendant du comportement du processus au bord du
domaine : arrêté, réfléchi, etc ... Soit par exemple un
système dont l'état Xt est gouverné par une
diffusion dans un ouvert
:
dXt = b(Xt,
ut)dt + (Xt,
ut)dWt,
X0 = x |
(1) |
où ut est
le processus de commande, et Wt un processus de Wiener. On
cherche à optimiser un critère qui peut-être de la forme
où E désigne
l'espérance,
> 0 et
désigne le
premier temps de sortie de Xt du domaine
.
Notons
V(
x) =
J(
x,
u)
la fonction valeur où la performance à optimiser
J(x, u) est
donnée par (2) et
est l'ensemble des commandes admissibles.
La méthode de la programmation dynamique conduit à une
équation d'Hamilton-Jacobi-Bellman pour la fonction valeur
V :
  |
(3) |
où Au est
un opérateur elliptique du deuxième ordre, pouvant être
dégénéré :
AuV(x) = aij(x,
u) (x)
+ bi(x,
u) (x)
- V(x) |
(4) |
avec
a = (aij)i,
j = 1,..., n = 

et donc
aij(x,
u)
0,
x
,
Rn, u
.
Dans le cas où la dynamique du système suit un processus
de diffusion avec sauts, le générateur A contient un terme intégral.
Les problèmes de temps d'arrêt optimal sont reliés par
l'approche de la programmation dynamique à des inéquations
variationnelles de type obstacle.
Dans le cas d'un contrÔle singulier, (alors le déplacement
de l'état du système dû à l'application de la commande est
non différentiable par rapport au temps), l'équation de la
programmation dynamique est une inéquation variationnelle
(I.V.), c'est à dire un système d'inéquations aux dérivées
partielles.
Le contrÔle peut être également de type impulsionnel,
c'est-à-dire que l'état du système subit des sauts à certains
instants, les instants d'impulsion et la taille des sauts
étant des variables de décision. Dans ce cas, la fonction
valeur vérifie une inéquation quasi-variationnelle (I.Q.V.).
Les I.V. et I.Q.V. correspondent à des problèmes de frontière
libre. La théorie des solutions de viscosité fournit un cadre
rigoureux pour l'étude des équations de la programmation
dynamique.
L'étude théorique et numérique de ces problèmes est un de
nos sujets de recherche de base. Les applications financières
concernent les problèmes de gestion de portefeuille avec
coûts de transaction, couverture approchée d'options
financières, problèmes d'options américaines, problèmes de
maximisation d'utilité, problèmes d'assurance et de
réassurance.