系统可靠性分析与设计

Posted by Kaka Blog on October 12, 2018

可靠性指标

  • 平均无故障时间(MTTF)
  • 平均故障修复时间(MTTR)
  • 平均故障间隔时间(MTBF):MTTR+MTTF
  • 系统可用性:MTTF/(MTBF)*100%

  • 可靠性:系统无故障运行的概率,减少系统故障的次数。
  • 可用性:在某个给定时间点上系统能够按照需求执行的概率,减少从灾难中恢复的时间。

系统容错

分类

  • 避错技术
  • 容错技术
    • 结构冗余
      • 硬件冗余、软件冗余
      • 静态冗余(屏蔽冗余、被动冗余、模冗余系统)
      • 动态冗余(主动冗余、备份冗余、集群系统)
    • 信息冗余(校验码)
    • 时间冗余
    • 冗余附加
  • 查错技术
  • 改错技术

恢复策略

  • 前向恢复
  • 后向恢复

软件容错

  • N版本程序设计:表决算法
  • 恢复快方法:主块+后备块
  • 防卫式程序设计:try catch

双机容错

  • 双机热备模式(主系统、备用系统)
  • 双机互备模式
  • 双机双工模式(集群)

集群技术