previous up next contents
Précédent : Disponibilité des systèmes Remonter : Systèmes distribués extensibles Suivant : Disponibilité dans les

Motivations

Les architectures multiprocesseurs extensibles à mémoire partagée ont une probabilité élevée de défaillance qui ne doit pas être négligée. Par conséquent, il est nécessaire de mettre en oeuvre des mécanismes de tolérance aux fautes pour permettre l'exécution d'applications parallèles de longue durée sur ce type d'architecture.

Nous avons montré dans une étude précédente que la classe des architectures COMA ( Cache Only Memory Architecture) est particulièrement bien adaptée à la mise en oeuvre d'une stratégie de retour arrière permettant de tolérer toute défaillance simple d'un noeud de l'architecture. La solution que nous avons proposée s'appuie sur les mécanismes de réplication offerts par les COMA pour la création des données de récupération et sur l'absence de localisation fixe des données dans un COMA qui simplifie considérablement la reconfiguration de l'architecture en cas de faute permanente. La disponibilité des architectures COMA est mise en oeuvre par une extension du protocole de cohérence gérant les copies multiples des données et n'entraîne que peu de modifications matérielles sur les architectures décrites dans la littérature. En outre, une première évaluation par simulation du protocole a permis de montrer l'extensibilité de notre approche et d'évaluer le coût des mécanismes de tolérance aux fautes sur les exécutions exemptes de défaillance.

A l'issue de ce travail, il apparaît que la solution que nous avons définie est applicable dans un cadre plus large que celui des architectures COMA. En effet, un réseau de stations de travail assorti d'un système à mémoire virtuelle partagée offre des mécanismes similaires à ceux que nous avons exploités dans la solution initialement proposée pour les architectures COMA. Ainsi, la mémoire des stations de travail est utilisée comme un cache et les données n'ont pas de localisation fixe. Les mécanismes de réplication des données qui sont mis en oeuvre par matériel dans les COMA au niveau de la ligne de cache sont implémentés par logiciel dans un système de mémoire virtuelle partagée pour une granularité page.


previous up next contents
Précédent : Disponibilité des systèmes Remonter : Systèmes distribués extensibles Suivant : Disponibilité dans les