![]()
Précédent : Fondements scientifiques Remonter :
Fondements
scientifiques Suivant : Évaluation de performances
Mots clés : disponibilité, fiabilité, performabilité, réseau de communication, régime d'équilibre, réseaux maillés, régime transitoire, sûreté de fonctionnement, système à événements discrets, tolérance aux fautes, vulnérabilité .
Glossaire :
Sûreté de fonctionnement propriété qui permet aux utilisateurs d'un système de placer une confiance justifiée dans le service qu'il leur délivre[Lap95].
Tolérance aux fautes méthodes et techniques destinées à fournir un service à même de remplir la, ou les fonctions du système en dépit des fautes [Lap95].
Fiabilité probabilité de bon fonctionnement pendant une durée déterminée (mesure de la continuité d'un service).
Disponibilité (ponctuelle) probabilité de bon fonctionnement à un instant donné.
Disponibilité sur un intervalle fraction de l'intervalle de temps pendant lequel le système est opérationnel.
Performabilité concept englobant à la fois les notions de sûreté de fonctionnement et de performance.
Réseau maillé réseau de communication à topologie irrégulière; c'est typiquement le cas des WAN (réseaux à large étendue, dits aussi «réseaux publics»).
Dans le domaine de la sûreté de fonctionnement, nos travaux concernent l'analyse prévisionnelle de différentes mesures qui visent à quantifier le comportement des systèmes vis-à-vis des défaillances et des éventuelles réparations, par l'utilisation de modèles de ces systèmes. Dans cette section nous décrivons brièvement ces mesures dans une perspective plutôt historique, et nous situons nos travaux de recherche.
D'une manière succincte, les principales innovations du projet se caractérisent d'une part par le développement de nouveaux algorithmes dédiés à l'évaluation de différentes mesures et, d'autre part, par l'étude et la résolution de modèles intervenant dans des systèmes particuliers. Les difficultés majeures dans le domaine se situent essentiellement au niveau de l'explosion combinatoire des espaces d'états.
Soit T la durée de vie d'un équipement, représentée dans les modèles comme une variable aléatoire finie. La théorie classique de la fiabilité se focalise sur l'étude de cette variable aléatoire[Ger89] pour laquelle la mesure fondamentale est la fiabilité à l'instant t, définie comme la probabilité R(t) que le système soit opérationnel jusqu'à l'instant t sachant qu'il l'est à l'instant 0. L'espérance de T est le temps moyen de fonctionnement noté MTTF (de l'anglais mean time to failure), qui s'exprime en fonction de la fiabilité par
Nous considérons ici le cas plus complexe des systèmes capables de retourner à un état opérationnel (éventuellement dans un mode dégradé) après avoir subi une défaillance[Ger89],[Lap95]. Si le système est toujours réparé après une défaillance (ou si, pour les besoins de l'étude, il est utile de le considérer ainsi), il est préférable de parler d'une durée de vie infinie et de voir l'évolution du système comme une suite alternée de périodes opérationnelles (le système fonctionne) et de périodes non opérationnelles (le système est en réparation). Il est fréquent de supposer que la réparation remet le système à neuf, et que les durées successives des périodes de bon fonctionnement, ainsi que les durées successives des réparations, sont des variables aléatoires indépendantes et de même loi. On utilise dans ce contexte la variable aléatoire D = durée de réparation et on définit la maintenabilité à l'instant t comme la probabilité M(t) que le système soit réparé avant l'instant t, sachant que la réparation a commencé à l'instant 0. On considère également la moyenne de ce temps, notée MTTR (de l'anglais mean time to repair), donnée par
Considérons maintenant une situation générale où le système
est représenté par un processus stochastique X évoluant en
temps continu. On se donne une partition de l'espace d'états de
X en deux sous-ensembles, celui des états dits
opérationnels, noté
, représentant
le système en état de bon fonctionnement (éventuellement dégradé
par rapport à son état initial), et les états non opérationnels,
dont l'ensemble est noté
, dans lesquels
il n'est pas possible de rendre un service conforme aux
spécifications. Dans ce dernier cas, le système peut être en
réparation, par exemple en essayant de retrouver un état
opérationnel après une défaillance à l'aide d'une procédure
prévue de reconfiguration, ou encore se trouver dans un état
irréparable qu'il ne quittera plus. On définit le processus
indicateur des états opérationnels par
La
disponibilité instantanée à l'instant t, notée
PAV(t) (de l'anglais point availability),
est alors la probabilité que le système soit opérationnel à cet
instant. C'est-à-dire,
PAV(t) = Pr(Ot = 1). La
disponibilité asymptotique est la limite
PAV(
) et l'on a
PAV(
) = MTTF/MTBF. Enfin, une mesure
plus riche du comportement du système est la disponibilité sur
l'intervalle [0, t], définie comme la variable
aléatoire
Les aspects performance et sûreté de fonctionnement se retrouvent bien entendu simultanément dans le comportement des systèmes. Dans certains cas, leur étude séparée est trop limitative, et il est souhaitable de pouvoir les considérer en même temps pour résoudre plus efficacement des problèmes d'analyse. Ceci est le but du concept de performabilité [Mey80]. L'exemple de base est le suivant. Considérons toujours que le système est représenté par un processus stochastique X, et que nous avons associé à chaque état i un réel ri, appelé la récompense de l'état i. Par exemple, s'il s'agit d'un modèle de système multi-composants, on peut associer à l'état i le nombre de composants opérationnels lorsque le modèle est dans l'état i. Prenons un tri-processeur tolérant les fautes et considérons qu'il est opérationnel s'il y a au moins un processeur opérationnel. Associons à l'état i du modèle le nombre de processeurs opérationnels dans cet état. La mesure E(At) précédemment discutée donne la fraction moyenne de l'intervalle [0, t] pendant laquelle le système est en opération. Mais pour l'utilisateur il y a une grande différence entre un système opérationnel avec un seul processeur actif et le système avec ses trois processeurs en état de marche. La mesure
Bien souvent, les analystes se contentent de représenter les
systèmes par des modèles statiques, i.e. des modèles dans
lesquels le temps ne joue pas de rôle explicite. Il s'agit
presque toujours de modèles de systèmes multi-composants à états
binaires. Les relations entre l'état des n composants et
celui du système sont données sous la forme d'une fonction de
structure
, de n variables
binaires
x1,..., xn. La variable
xi représente l'état du ième composant,
avec la convention 1 = composant opérationnel, 0 = composant
défaillant. La fonction de structure définit un critère de bon
comportement au niveau du système global (
(x1,...,
xn) = 1 signifie que le système global est
opérationnel lorsque les composants respectifs se trouvent dans
les états x1, ..., xn). Des
formalismes de description qui rentrent dans ce cadre sont les
diagrammes de fiabilité et les arbres de
défaillance. On se donne alors les fiabilités
élémentaires du système, c'est-à-dire, les nombres
Pr(Xi = 1) si Xi est la
variable aléatoire binaire «état du composant i», et on
mesure la sûreté de fonctionnement du système par le nombre
R = Pr(
(X) = 1), où X
est le vecteur aléatoire
(X1,..., Xn). Le calcul de
R est général un problème NP-difficile [Col87]. La combinatoire
impliquée est telle que seuls les modèles ayant quelques dizaines
d'éléments peuvent être analysés de façon exacte. Les techniques
de type Monte Carlo (voir 3.3) permettent d'évaluer des modèles de
taille importante, le prix à payer étant la nature du résultat
(une réponse probabiliste - une estimation - au lieu de la valeur
numériquement exacte).
Nous nous intéressons aux techniques d'évaluation des différentes mesures de sûreté de fonctionnement. L'une des sources majeures de problèmes d'analyse est la taille souvent importante de l'espace d'états du modèle utilisé, conséquence de la nécessité de tenir compte de la complexité des systèmes étudiés. Une partie de notre effort de recherche dans le domaine a pour objectif le développement de techniques de résolution efficaces pour ce type de modèle. Efficacité signifie essentiellement des techniques moins gourmandes en ressources informatiques ou ayant un meilleur comportement vis-à-vis de problèmes de nature numérique (par exemple, la raideur des équations associées). Parfois, il faut chercher à mettre en évidence des nouvelles propriétés des objets utilisés dans ces études. En d'autres termes, l'état des connaissances dont nous disposons sur certains types de modèles suggère, dans certains cas, la réalisation d'études de nature plus théorique. Enfin, il arrive que les développements mathématiques réalisés dans les cadres précédemment décrits, conduisent à proposer des nouvelles mesures pour l'analyse de certaines classes de systèmes.
Dans le premier volet de nos activités de recherche dans le domaine, c'est-à-dire, au niveau de la méthodologie d'évaluation des modèles, nous trouvons des travaux tels que [[1]], ou [[6]]. Dans l'étude des propriétés des objets considérés, des exemples sont [[4]] ou [[5]].