previous up next top index
Précédent : Automates tropicaux et applications aux Remonter : Systèmes à événements discretsalgèbre Suivant : Équations max-plus linéaires


Généralisations de l'algorithme de Howard

Participants : Jean Cochet-Terrasson, Stéphane Gaubert, Jean-Pierre Quadrat [Ce travail a bénéficié de deux visites de S. Gaubert à BRIMS, HP, Bristol, à l'invitation de Jeremy Gunawardena]

L'algorithme de Howard, ou ``d'itération sur les politiques'', est l'une des méthodes bien connues pour résoudre l'équation de la programmation dynamique, par exemple pour un processus de décision Markovien stationnaire, en horizon infini, avec coût moyen :

displaymath840

V désigne la fonction valeur, tex2html_wrap_inline844 le coût moyen par unité de temps, et où sont donnés U, c, P (commandes admissibles, coûts, probabilités de transition). Pour fixer les idées, états et commandes varient dans des ensembles finis.

Moins familier est peut-être l'analogue ``min-max'' de (1) :

displaymath852

où l'on reconnaît l'équation de la programmation dynamique stationnaire d'un jeu déterministe.

Le stage de Jean Cochet-Terrasson ENSTA a consisté :

(1) à implémenter en Scilab une version générale de l'algorithme de Howard, valable pour des matrices de probabilité multichaînes, et pour les extensions semi-Markov de (1), qui apparaissent dans l'étude des réseaux de Pétri temporisés en approximation fluide;

(2) à étudier les extensions au cas min-max (2).

La conclusion principale de (1) est que l'application de l'algorithme de Howard au calcul du taux de production de graphes d'événements temporisés est d'une complexité moyenne bien inférieure aux méthodes communément employées dans la communauté des systèmes à événements discrets.

Un analogue min-max simple de l'algorithme de Howard a été donné, sous certaines hypothèses d'accessibilité. Il requiert à chaque étape, la résolution d'un problème spectral tex2html_wrap_inline854 sur le semianneau max-plus (au lieu d'une équation linéaire ordinaire pour l'algorithme de Howard classique). Ce résultat a des corollaires théoriques notables sur un problème trompeusement simple posé par Olsder et Gunawardena. On appelle fonction min-max une application de tex2html_wrap_inline856 , finiment exprimée par les opérations tex2html_wrap_inline858 , les variables apparaissant de manière additivement homogène, par exemple, y=f(x), avec tex2html_wrap_inline862 , tex2html_wrap_inline864 , définit une fonction min-max. On reconnaît par exemple dans (2) un problème spectral tex2html_wrap_inline866 . Il s'agit de caractériser l'existence de points fixes et vecteurs propres de fonctions min-max, et d'étudier l'asymptotique des suites tex2html_wrap_inline868 , en particulier le vecteur de ``temps de cycle'' tex2html_wrap_inline870 . L'itération sur les politiques min-max fournit une condition d'existence d'un vecteur propre d'une fonction min-max. Plus généralement, le calcul effectif du vecteur de temps de cycle semble à la portée de ces techniques (travail en cours).


previous up next top index Précédent : Automates tropicaux et applications aux Remonter : Systèmes à événements discretsalgèbre Suivant : Équations max-plus linéaires