META2 : Généralisations de l'algorithme de Howard

Précédent : Automates tropicaux et applications aux Remonter : Systèmes à événements discretsalgèbre Suivant : Équations max-plus linéaires

Généralisations de l'algorithme de Howard

Participants : Jean Cochet-Terrasson, Stéphane Gaubert, Jean-Pierre Quadrat [Ce travail a bénéficié de deux visites de S. Gaubert à BRIMS, HP, Bristol, à l'invitation de Jeremy Gunawardena]

L'algorithme de Howard, ou ``d'itération sur les politiques'', est l'une des méthodes bien connues pour résoudre l'équation de la programmation dynamique, par exemple pour un processus de décision Markovien stationnaire, en horizon infini, avec coût moyen :

où V désigne la fonction valeur, le coût moyen par unité de temps, et où sont donnés U, c, P (commandes admissibles, coûts, probabilités de transition). Pour fixer les idées, états et commandes varient dans des ensembles finis.

Moins familier est peut-être l'analogue ``min-max'' de (1) :

où l'on reconnaît l'équation de la programmation dynamique stationnaire d'un jeu déterministe.

Le stage de Jean Cochet-Terrasson ENSTA a consisté :

(1) à implémenter en Scilab une version générale de l'algorithme de Howard, valable pour des matrices de probabilité multichaînes, et pour les extensions semi-Markov de (1), qui apparaissent dans l'étude des réseaux de Pétri temporisés en approximation fluide;

(2) à étudier les extensions au cas min-max (2).

La conclusion principale de (1) est que l'application de l'algorithme de Howard au calcul du taux de production de graphes d'événements temporisés est d'une complexité moyenne bien inférieure aux méthodes communément employées dans la communauté des systèmes à événements discrets.

Un analogue min-max simple de l'algorithme de Howard a été donné, sous certaines hypothèses d'accessibilité. Il requiert à chaque étape, la résolution d'un problème spectral sur le semianneau max-plus (au lieu d'une équation linéaire ordinaire pour l'algorithme de Howard classique). Ce résultat a des corollaires théoriques notables sur un problème trompeusement simple posé par Olsder et Gunawardena. On appelle fonction min-max une application de , finiment exprimée par les opérations , les variables apparaissant de manière additivement homogène, par exemple, y=f(x), avec , , définit une fonction min-max. On reconnaît par exemple dans (2) un problème spectral . Il s'agit de caractériser l'existence de points fixes et vecteurs propres de fonctions min-max, et d'étudier l'asymptotique des suites , en particulier le vecteur de ``temps de cycle'' . L'itération sur les politiques min-max fournit une condition d'existence d'un vecteur propre d'une fonction min-max. Plus généralement, le calcul effectif du vecteur de temps de cycle semble à la portée de ces techniques (travail en cours).

Précédent : Automates tropicaux et applications aux Remonter : Systèmes à événements discretsalgèbre Suivant : Équations max-plus linéaires