previous up next top index
Précédent : Points de contrôle et retour Remonter : Problèmes fondamentaux Suivant : Applications


Diffusion fiable

Dans les systèmes répartis, un niveau élevé de disponibilité des services peut être assuré par la réplication. Des travaux ont été menés en collaboration avec Mustaque Ahamad, du Georgia Institute of Technology, Atlanta, sur des services répartis vérifiant la cohérence causale [41].

Par ailleurs, de nombreuses équipes de recherche travaillent sur la tolérance aux défaillances dans le modèle asynchrone (typiquement, les systèmes asynchrones sont caractérisés par une incertitude sur les communications alors que les systèmes synchrones utilisent des primitives de communication temps-réel, c'est-à-dire avec des délais bornés de communication et de traitement, et des contraintes sur le nombre de défaillances de composants, sur la redondance des liens et sur le flot de contrôle). Un problème fondamental du calcul réparti tolérant aux défaillances est le consensus. Le consensus consiste à atteindre une décision commune entre processus, fondée sur les propositions initiales de chacun et cela en dépit des défaillances. Le consensus peut être utilisé pour résoudre de nombreux problèmes, tels que l'élection d'un coordonnateur, l'agrément sur un groupe (group membership), la diffusion atomique, la validation atomique, etc. Ces concepts ont été étudiés et analysés. Des implantations sont en cours pour mettre en oeuvre des couches logicielles simplifiant la conception d'applications réparties tolérantes aux défaillances dans le cadre asynchrone. Cet ensemble de couches comprend des primitives de communication simples telles que le multicast, des suspecteurs de défaillances, un algorithme de consensus générique, des algorithmes de diffusion atomique, causale, des protocoles de validation atomique non bloquante, etc. [10].