Une faille (ou panne) du système se produit lorsque son comportement devient inconsistant et ne fournit pas le résultat voulu. La panne est une conséquence d'une ou plusieurs erreurs. Une erreur représente un état invalide du système du à une faute (défaut). La faute est donc la première cause de l'erreur, cette dernière provoque la faille du système.
Le but de la tolérance aux pannes est d'éviter la faille totale du système malgré la présence de fautes dans un sous ensemble de ses composants élémentaires. La tolérance de panne est d'autant meilleure que le nombre de composants en panne est grand (avec la garantie du bon fonctionnement du système).
Il est utile de classifier les pannes selon différents critères. Le schéma suivant montre une classification générale selon la durée, la cause ou le comportement d'une panne :
Basée sur sa durée, la panne peut être classifiée en :
Transitoire : conséquence d'un impact environnemental temporaire, elle peut éventuellement disparaître sans aucune intervention. La radiation cosmique est un exemple de panne transitoire ;
Intermittente : variante de la panne transitoire, elle se produit occasionnellement et de façon imprévisible. Elle est généralement due à l'instabilité de certaines caractéristiques matérielles ou à l'exécution du programme dans un espace particulier de l'environnement ;
Permanente : continue et stable dans le temps, la panne permanente persiste tant qu'il n'y a pas d'intervention externe pour l'éliminer. Un changement physique dans un composant provoque une panne matérielle permanente.
On distingue deux types de pannes selon leur cause :
Panne de design : due à une mauvaise structuration du réseau ou du composant en particulier. En pratique, ce genre de panne ne devrait pas exister grâce aux tests et simulations avant la réalisation finale du réseau ;
Panne opérationnelle : qui se produit durant le fonctionnement du système. Elle est généralement due aux causes physiques. En outre, on peut distinguer, spécialement pour les réseaux de capteurs, trois principales causes:
Energie : l'épuisement de la batterie cause l'arrêt du capteur. La consommation d'énergie est très importante pour déterminer la durée de vie d'un nSud capteur, et donc de tout le réseau ;
Sécurité : la destruction physique accidentelle ou intentionnelle pas un ennemi peut être une cause de panne. L'absence de sécurité dans les réseaux de capteurs augmente le risque des pannes de ce type ;
Transmission : la nature vulnérable de transmission radio, la présence d'obstacles dans les environnements hostiles ainsi que les interférences électriques peuvent être la source d'une faute lors du transfert de données.
Après l'occurrence d'une panne, on distingue quatre différents comportements possibles du composant concerné :
Panne accidentelle (Crash) : le composant soit, s'arrête complètement de fonctionner ou bien continue mais sans retourner à un état stable (valide) ;
Panne d'omission : le composant n'est plus capable d'améliorer son service (échec total) ;
Panne de synchronisation (Timing) : le composant effectue son traitement mais fournit le résultat en retard ;
Panne Byzantine : cette panne est de nature arbitraire ; le comportement du composant est donc imprévisible. Du à des attaques très malicieuses, ce type de pannes est considéré le plus difficile à gérer.