previous up next top index
Précédent : Cohérence de mémoires réparties d'objets Remonter : Problèmes fondamentaux Suivant : Diffusion fiable


Points de contrôle et retour arrière

 

Dans une exécution répartie, un point de contrôle global est un ensemble de points de contrôle locaux (états locaux), un par processus participant à l'exécution. La détermination d'un point de contrôle global cohérent est un problème important dans de nombreux domaines concernés par les applications réparties (résistance aux défaillances, mise au point répartie, détection de propriétés, etc.). La capture des points de contrôle peut se faire de manière coordonnée ou non coordonnée. Dans les méthodes coordonnées, le dernier point de contrôle calculé est toujours cohérent mais la synchronisation nécessaire (messages de contrôle notamment) est pénalisante vis-à-vis de l'application contrôlée. L'inconvénient des méthodes non coordonnées réside dans l'incapacité qu'il peut y avoir ensuite à construire un point de contrôle global cohérent (phénomène connu sous le nom d'effet domino).

Dans le contexte des algorithmes non coordonnés, une théorie originale sur la cohérence des points de contrôle a été développée. Entre autres résultats, une condition nécessaire et suffisante de cohérence mutuelle a été formulée et prouvée. A partir de ce résultat, un algorithme adaptatif de détermination de points de contrôle a été développé, prouvé et analysé expérimentalement [4].

Dans une deuxième partie, les résultats ont été étendus aux systèmes à communication par mémoire partagée. D'abord, il a fallu modéliser la cohérence des points de contrôle les uns par rapport aux autres en tenant compte non plus des envois et des réceptions de messages mais des opérations de lecture et d'écriture [42]. Il s'en est suivi une définition formelle de l'effet domino et la dérivation d'un algorithme de capture de points de contrôle sans effet domino [15].

Depuis le mois de juin, nous travaillons sur le développement d'une application coopérative de télé-enseignement d'élèves pilotes ainsi que de sa plate-forme d'exécution, dans le cadre d'un contrat avec le LAAS de Toulouse et Airbus Industries. L'IRISA est chargé de mettre en oeuvre le mécanisme de reprise en cas de défaillance ou de rupture de communication. Il s'agit de choisir le type de synchronisation à utiliser et l'état local d'un processus (élève ou enseignant) qui peut servir de point de contrôle et permettre non seulement une reprise cohérente mais aussi une reprise non déroutante pour la personne utilisant le poste défaillant ou déconnecté.



previous up next top index Précédent : Cohérence de mémoires réparties d'objets Suivant : Diffusion fiable Remonter : Problèmes fondamentaux