In practice, the mean time between failures (MTBF, 1/λ) is often reported instead of the failure rate. This is valid and useful if the failure rate may be assumed constant – often used for complex units / systems, electronics – and is a general agreement in some reliability standards (Military and Aerospace). It does in this case only relate to the flat region of the bathtub curve, also called the "useful life period". Because of this, it is incorrect to extrapolate MTBF to give an estimate of the servic
大規模クラスタ (スコア:0)
こういった障害の起こりやすさにFIT(Failure In Time)という目安があるのですが、これは10^9時間におこる誤作動の回数です。
京の講習会の時に聞いたのですが、大規模なクラスタだと1ノードで10FITとかそのくらいのオーダーらしいです。詳しい数字は忘れましたが。ところで、10万ノードで100時間計算し、一度も誤作動を起こさない確率を上のFITから推定すると
(1 - 10^-8)^(10^6*10^2)
と、だいたい37%くらいになります。
京の実際のノードはこれよりもやや少ないですが、結構現実的な脅威ですね。
Re: (スコア:0)
それってMTBFの表現を変えただけ?
Re: (スコア:0)
In practice, the mean time between failures (MTBF, 1/λ) is often reported instead of the failure rate. This is valid and useful if the failure rate may be assumed constant – often used for complex units / systems, electronics – and is a general agreement in some reliability standards (Military and Aerospace). It does in this case only relate to the flat region of the bathtub curve, also called the "useful life period". Because of this, it is incorrect to extrapolate MTBF to give an estimate of the servic
Re: (スコア:0)
出典 [wikipedia.org] ぐらい示せよ。
それから頭の悪い俺にもわかるように、100文字ぐらいにまとめてくれ。
Re: (スコア:0)
システムの障害が部品の故障によって引き起こされると仮定したとき、システムの平均故障間隔は全部品の故障率(FIT数)の総和の逆数で期待されます。つまりMTBFを見積もるときに使われるものです。
10FITのノードが10万ノード集まって構成されていて、他の部品の故障は無いとすれば、
平均故障間隔=10^9/(10*100000)=1000時間と計算されます。実際にはソフト的なエラー(処理能力を超えてしまう入力がなされる確率とか)も足さないといけないはず。
もちろんこれは見込み値であって、実際のMTBF(平均故障間動作時間)は
ある特定期間中のMTBF=その期間中の総動作時間/総故障数
と定義されています。(JIS Z 8115) [kikakurui.com]
Re: (スコア:0)
10万ノードは10^5では…
計算し直すと約 90.5% になるようです。