Tolerância a falhas em software
Em hardware (HW), as falhas são geralmente causadas por desgaste físico. No entanto, um software (SW) não desgasta com o tempo, ele não tem propriedades físicas, sendo totalmente conceitual. Nele, as falhas são de desenvolvimento e bugs causados por erros humanos.
Outra definição que deve ser observada é que Tolerância a Falhas em Software (TFS) é diferente de Software Tolerante a Falhas (STF), já que este último é uma sub-área do primeiro. Ainda, um STF pode ser visto de duas formas: sobre …exibir mais conteúdo…
Em sistemas que usam as técnicas de mascaramento de falhas, a detecção e a recuperação de erros ocorrem simultaneamente. Esses sistemas não necessitam incorporar todos os passos relacionados com sistemas tolerantes a falhas mencionados anteriormente, por razões óbvias. A ação de recuperação de erro envolve o uso de algoritmos de recuperação que podem ou não requererem decisões humanas.
A primeira classe de algoritmos é dita automática, ao passo que a segunda é dita controlada manualmente. Algoritmos de recuperação automática podem ser classificados de acordo com o estado do sistema após a ação de recuperação como: recuperação completa; recuperação com degradação; desligamento seguro.
Tratamento da Falha e Continuação do Serviço[editar]
Uma vez que os passos anteriores não asseguram que a falha que provocou o(s) erro(s) seja identificada, outro passo pode ser necessário a fim de evitar que a falha ocorra novamente. Um tipo particular de erro poderia ser o resultado de muitas fontes de falhas. Este passo é utilizado para isolar a falha ou para reconfigurar o resto do sistema em um esforço para evitar suas manifestações repetidas e, usualmente, envolve dois estágios: localização e reparo do sistema.
Defeitos e Erros[editar]
O sistema apresenta defeito porque não está fornecendo o serviço esperado mesmo seguindo a sua especificação.
Um defeito de serviço é um evento que ocorre quando o