La conception d'une procédure pour la tolérance aux pannes dépend de l'architecture et des fonctionnalités du système. Cependant, certaines étapes générales sont exécutées dans la plupart des systèmes; tel que c'est illustré dans la figure suivante :
C'est la première phase dans chaque schéma de tolérance aux pannes, dans laquelle on reconnaît qu'un événement inattendu s'est produit. Les techniques de détection de pannes sont généralement classifiées en deux catégories : en ligne et autonome (offline). La détection offline est souvent réalisée à l'aide de programmes de diagnostic qui s'exécutent quand le système est inactif. La détection en ligne vise l'identification de pannes en temps réel et est effectuée simultanément avec l'activité du système.
Cette phase établit des limites des effets de la panne sur une zone particulière afin d'empêcher la contamination des autres régions. En cas de détection d'intrusion, par exemple, l'isolation des composants compromis minimise le risque d'attaque des composants encore fonctionnels.
C'est la phase dans laquelle on effectue des opérations d'élimination des effets de pannes. Les deux techniques les plus utilisées sont « masquage de panne » et « répétition »
Masquage de panne : utilise l'information redondante correcte pour éliminer l'impact de l'information erronée ;
Répétition : après que la panne soit détectée, on effectue un nouvel essai pour exécuter une partie du programme, dans l'espoir que la panne soit transitoire.
Dans cette phase, la réparation du composant en panne isolé est effectuée. La procédure de réparation dépend du type de la panne. Les pannes permanentes exigent une substitution du composant avec un autre composant fonctionnel. Le système doit contenir un ensemble d'éléments redondants (ou en état standby) qui servent à remplacer les nSuds en panne.
Le problème de fusion dans un réseau de capteurs multimodal tolérant aux pannes utilisant des capteurs numériques binaires peut être modélisé par l'exemple illustré dans la figure suivante. On considère un réseau de capteurs pour la reconnaissance de personnes déployé dans une société pour identifier ses employés. Six personnes nommées A, B, C, D, E et F travaillent dans cette société. Le système de reconnaissance utilise deux types différents de capteurs : 1) capteur de taille (grandeur) ; 2) capteur pour la reconnaissance de voix qui demande à chaque entrant d'introduire une phrase secrète donnée à l'aide d'un microphone. La figure ci-dessous montre les six personnes ainsi que leurs caractéristiques (taille et voix) représentées dans le graphe.
Il est évident de constater que le système peut distinguer entre deux personnes P1 et P2 si elles sont représentées dans deux surfaces différentes sur le graphe. Selon notre exemple, si tous les capteurs fonctionnent correctement, chaque personne va occuper une surface différente. En outre, dans la plupart des cas, et malgré la défaillance de l'un des capteurs de taille ou de voix, la reconnaissance de toutes les personnes est encore possible. Ceci grâce à la tolérance aux pannes hétérogène où le capteur en panne d'un certain type peut être remplacé par la fonctionnalité d'un capteur de l'autre type. Cependant, pour le cas des personnes B et E, qui ont la même taille, la voix est le seul critère pour les distinguer ; d'où, le système ne devrait avoir aucune tolérance aux pannes pour le capteur V3 qui distingue entre B et E. Si on exclut l'un de B ou E du personnel de la société, alors le système sera complètement tolérant aux pannes.