Projet : MODEL - Évaluation de la sûreté de fonctionnement

Projet : MODEL

Précédent : Fondements scientifiques Remonter : Fondements scientifiques Suivant : Évaluation de performances

Sous-sections

Évaluation de la sûreté de fonctionnement

Mots clés : disponibilité, fiabilité, performabilité, réseau de communication, régime d'équilibre, réseaux maillés, régime transitoire, sûreté de fonctionnement, système à événements discrets, tolérance aux fautes, vulnérabilité .

Glossaire :

Sûreté de fonctionnement propriété qui permet aux utilisateurs d'un système de placer une confiance justifiée dans le service qu'il leur délivre[Lap95].

Tolérance aux fautes méthodes et techniques destinées à fournir un service à même de remplir la, ou les fonctions du système en dépit des fautes [Lap95].

Fiabilité probabilité de bon fonctionnement pendant une durée déterminée (mesure de la continuité d'un service).

Disponibilité (ponctuelle) probabilité de bon fonctionnement à un instant donné.

Disponibilité sur un intervalle fraction de l'intervalle de temps pendant lequel le système est opérationnel.

Performabilité concept englobant à la fois les notions de sûreté de fonctionnement et de performance.

Réseau maillé réseau de communication à topologie irrégulière; c'est typiquement le cas des WAN (réseaux à large étendue, dits aussi «réseaux publics»).

Résumé :

Dans le domaine de la sûreté de fonctionnement, nos travaux concernent l'analyse prévisionnelle de différentes mesures qui visent à quantifier le comportement des systèmes vis-à-vis des défaillances et des éventuelles réparations, par l'utilisation de modèles de ces systèmes. Dans cette section nous décrivons brièvement ces mesures dans une perspective plutôt historique, et nous situons nos travaux de recherche.

D'une manière succincte, les principales innovations du projet se caractérisent d'une part par le développement de nouveaux algorithmes dédiés à l'évaluation de différentes mesures et, d'autre part, par l'étude et la résolution de modèles intervenant dans des systèmes particuliers. Les difficultés majeures dans le domaine se situent essentiellement au niveau de l'explosion combinatoire des espaces d'états.

Théorie classique de la fiabilité

Soit T la durée de vie d'un équipement, représentée dans les modèles comme une variable aléatoire finie. La théorie classique de la fiabilité se focalise sur l'étude de cette variable aléatoire[Ger89] pour laquelle la mesure fondamentale est la fiabilité à l'instant t, définie comme la probabilité R(t) que le système soit opérationnel jusqu'à l'instant t sachant qu'il l'est à l'instant 0. L'espérance de T est le temps moyen de fonctionnement noté MTTF (de l'anglais mean time to failure), qui s'exprime en fonction de la fiabilité par

MTTF = E(T) = $\displaystyle \int_{0}^{\infty}$ R(t)dt.

La théorie classique de la fiabilité concentre l'essentiel de ses efforts dans l'étude de ces quantités, ceci étant dû au fait qu'à l'origine il était approprié d'appeler «système» une entité sans capacité à se réparer (i.e., le réparateur n'en faisait pas partie). Avec l'augmentation en complexité de la technologie, il est devenu nécessaire d'évaluer des systèmes incluant les moyens de réparation, ce qui conduit à la théorie moderne, où l'on parle de sûreté de fonctionnement. Ce dernier concept englobe, parmi beaucoup d'autres, celui de fiabilité, mais il inclut notamment celui de disponibilité dans ses diverses variantes. Les problèmes et les outils associés y sont plus complexes.

Théorie moderne de la sûreté de fonctionnement

Nous considérons ici le cas plus complexe des systèmes capables de retourner à un état opérationnel (éventuellement dans un mode dégradé) après avoir subi une défaillance[Ger89],[Lap95]. Si le système est toujours réparé après une défaillance (ou si, pour les besoins de l'étude, il est utile de le considérer ainsi), il est préférable de parler d'une durée de vie infinie et de voir l'évolution du système comme une suite alternée de périodes opérationnelles (le système fonctionne) et de périodes non opérationnelles (le système est en réparation). Il est fréquent de supposer que la réparation remet le système à neuf, et que les durées successives des périodes de bon fonctionnement, ainsi que les durées successives des réparations, sont des variables aléatoires indépendantes et de même loi. On utilise dans ce contexte la variable aléatoire D = durée de réparation et on définit la maintenabilité à l'instant t comme la probabilité M(t) que le système soit réparé avant l'instant t, sachant que la réparation a commencé à l'instant 0. On considère également la moyenne de ce temps, notée MTTR (de l'anglais mean time to repair), donnée par

MTTR = E(D) = $\displaystyle \int_{0}^{\infty}$ [1 - M(t)]dt.

On peut aussi définir le temps moyen inter-défaillances, que l'on note MTBF (de l'anglais mean time between failures), par MTBF = MTTR + MTTF. Parfois on note MTBF ce que nous notons ici MTTF. On peut observer que dans certaines applications on a MTTR $\approx$ 0 ce qui donne MTBF $\approx$ MTTF. Le fait de supposer que le système est toujours réparé et que la réparation est une remise à neuf, conduit à un modèle qui évolue sans arrêt au cours du temps, avec une durée de vie infinie. Dans ce contexte, on utilise souvent comme mesure de qualité la disponibilité asymptotique, qui est la probabilité, pour le modèle supposé en équilibre, de le trouver dans un état opérationnel. Le modèle usuel est celui d'un processus de renouvellement alterné, c'est-à-dire, d'une suite (O_n, D_n)_{n 1} où O_n (resp. D_n) est la durée de la n^e période opérationnelle (resp. non opérationnelle), les suites (O_n)_{n
1} et (D_n)_{n
1}sont indépendantes l'une de l'autre, et toutes les deux sont des suites i.i.d. Moyennant des conditions techniques appropriées, la disponibilité asymptotique est égale à MTTF/MTBF.

Considérons maintenant une situation générale où le système est représenté par un processus stochastique X évoluant en temps continu. On se donne une partition de l'espace d'états de X en deux sous-ensembles, celui des états dits opérationnels, noté $\cal U$ , représentant le système en état de bon fonctionnement (éventuellement dégradé par rapport à son état initial), et les états non opérationnels, dont l'ensemble est noté $\cal D$ , dans lesquels il n'est pas possible de rendre un service conforme aux spécifications. Dans ce dernier cas, le système peut être en réparation, par exemple en essayant de retrouver un état opérationnel après une défaillance à l'aide d'une procédure prévue de reconfiguration, ou encore se trouver dans un état irréparable qu'il ne quittera plus. On définit le processus indicateur des états opérationnels par $\begin{displaymath}O_t = 1_{\{\mbox{\footnotesize syst\\lq eme op\'erationnel \\lq a l'instant $t$}\}} = 1_{\{X_t \in {\cal U}\}}.\end{displaymath}$ La disponibilité instantanée à l'instant t, notée PAV(t) (de l'anglais point availability), est alors la probabilité que le système soit opérationnel à cet instant. C'est-à-dire, PAV(t) = Pr(O_t = 1). La disponibilité asymptotique est la limite PAV( $\infty$ ) et l'on a PAV( $\infty$ ) = MTTF/MTBF. Enfin, une mesure plus riche du comportement du système est la disponibilité sur l'intervalle [0, t], définie comme la variable aléatoire

A_t = $\displaystyle {\frac{1}{t}}$ $\displaystyle \int_{0}^{t}$ O_sds.

Par exemple, dans le cas d'un processus de renouvellement alterné, on a (presque sûrement et sous certains conditions techniques) A = PAV( $\infty$ ).

Les aspects performance et sûreté de fonctionnement se retrouvent bien entendu simultanément dans le comportement des systèmes. Dans certains cas, leur étude séparée est trop limitative, et il est souhaitable de pouvoir les considérer en même temps pour résoudre plus efficacement des problèmes d'analyse. Ceci est le but du concept de performabilité [Mey80]. L'exemple de base est le suivant. Considérons toujours que le système est représenté par un processus stochastique X, et que nous avons associé à chaque état i un réel r_i, appelé la récompense de l'état i. Par exemple, s'il s'agit d'un modèle de système multi-composants, on peut associer à l'état i le nombre de composants opérationnels lorsque le modèle est dans l'état i. Prenons un tri-processeur tolérant les fautes et considérons qu'il est opérationnel s'il y a au moins un processeur opérationnel. Associons à l'état i du modèle le nombre de processeurs opérationnels dans cet état. La mesure E(A_t) précédemment discutée donne la fraction moyenne de l'intervalle [0, t] pendant laquelle le système est en opération. Mais pour l'utilisateur il y a une grande différence entre un système opérationnel avec un seul processeur actif et le système avec ses trois processeurs en état de marche. La mesure

E( $\displaystyle {\frac{1}{t}}$ $\displaystyle \int_{0}^{t}$ r_{X_s}ds)

donne un meilleur indicateur du comportement du système jusqu'à l'instant t. Une mesure de performabilité est donc une mesure tenant compte non seulement du fait que le système soit opérationnel, mais aussi des performances. Bien entendu, un objet tel que la distribution de la variable aléatoire (1/t) $\int_{0}^{t}$ r_{X_s}ds est aussi un exemple, plus sophistiqué, de mesure de performabilité.

Modèles statiques

Bien souvent, les analystes se contentent de représenter les systèmes par des modèles statiques, i.e. des modèles dans lesquels le temps ne joue pas de rôle explicite. Il s'agit presque toujours de modèles de systèmes multi-composants à états binaires. Les relations entre l'état des n composants et celui du système sont données sous la forme d'une fonction de structure $\Phi$ , de n variables binaires x₁,..., x_n. La variable x_i représente l'état du ième composant, avec la convention 1 = composant opérationnel, 0 = composant défaillant. La fonction de structure définit un critère de bon comportement au niveau du système global ( $\Phi$ (x₁,..., x_n) = 1 signifie que le système global est opérationnel lorsque les composants respectifs se trouvent dans les états x₁, ..., x_n). Des formalismes de description qui rentrent dans ce cadre sont les diagrammes de fiabilité et les arbres de défaillance. On se donne alors les fiabilités élémentaires du système, c'est-à-dire, les nombres Pr(X_i = 1) si X_i est la variable aléatoire binaire «état du composant i», et on mesure la sûreté de fonctionnement du système par le nombre R = Pr( $\Phi$ (X) = 1), où X est le vecteur aléatoire (X₁,..., X_n). Le calcul de R est général un problème NP-difficile [Col87]. La combinatoire impliquée est telle que seuls les modèles ayant quelques dizaines d'éléments peuvent être analysés de façon exacte. Les techniques de type Monte Carlo (voir 3.3) permettent d'évaluer des modèles de taille importante, le prix à payer étant la nature du résultat (une réponse probabiliste - une estimation - au lieu de la valeur numériquement exacte).

Nos activités de recherche

Nous nous intéressons aux techniques d'évaluation des différentes mesures de sûreté de fonctionnement. L'une des sources majeures de problèmes d'analyse est la taille souvent importante de l'espace d'états du modèle utilisé, conséquence de la nécessité de tenir compte de la complexité des systèmes étudiés. Une partie de notre effort de recherche dans le domaine a pour objectif le développement de techniques de résolution efficaces pour ce type de modèle. Efficacité signifie essentiellement des techniques moins gourmandes en ressources informatiques ou ayant un meilleur comportement vis-à-vis de problèmes de nature numérique (par exemple, la raideur des équations associées). Parfois, il faut chercher à mettre en évidence des nouvelles propriétés des objets utilisés dans ces études. En d'autres termes, l'état des connaissances dont nous disposons sur certains types de modèles suggère, dans certains cas, la réalisation d'études de nature plus théorique. Enfin, il arrive que les développements mathématiques réalisés dans les cadres précédemment décrits, conduisent à proposer des nouvelles mesures pour l'analyse de certaines classes de systèmes.

Dans le premier volet de nos activités de recherche dans le domaine, c'est-à-dire, au niveau de la méthodologie d'évaluation des modèles, nous trouvons des travaux tels que [[1]], ou [[6]]. Dans l'étude des propriétés des objets considérés, des exemples sont [[4]] ou [[5]].

Précédent : Fondements scientifiques Remonter : Fondements scientifiques Suivant : Évaluation de performances