アカウント名:
パスワード:
こういった障害の起こりやすさにFIT(Failure In Time)という目安があるのですが、これは10^9時間におこる誤作動の回数です。
京の講習会の時に聞いたのですが、大規模なクラスタだと1ノードで10FITとかそのくらいのオーダーらしいです。詳しい数字は忘れましたが。ところで、10万ノードで100時間計算し、一度も誤作動を起こさない確率を上のFITから推定すると
(1 - 10^-8)^(10^6*10^2)
と、だいたい37%くらいになります。
京の実際のノードはこれよりもやや少ないですが、結構現実的な脅威ですね。
それってMTBFの表現を変えただけ?
システムの障害が部品の故障によって引き起こされると仮定したとき、システムの平均故障間隔は全部品の故障率(FIT数)の総和の逆数で期待されます。つまりMTBFを見積もるときに使われるものです。10FITのノードが10万ノード集まって構成されていて、他の部品の故障は無いとすれば、平均故障間隔=10^9/(10*100000)=1000時間と計算されます。実際にはソフト的なエラー(処理能力を超えてしまう入力がなされる確率とか)も足さないといけないはず。もちろんこれは見込み値であって、実際のMTBF(平均故障間動作時間)はある特定期間中のMTBF=その期間中の総動作時間/総故障数と定義されています。(JIS Z 8115) [kikakurui.com]
より多くのコメントがこの議論にあるかもしれませんが、JavaScriptが有効ではない環境を使用している場合、クラシックなコメントシステム(D1)に設定を変更する必要があります。
あつくて寝られない時はhackしろ! 386BSD(98)はそうやってつくられましたよ? -- あるハッカー
大規模クラスタ (スコア:0)
こういった障害の起こりやすさにFIT(Failure In Time)という目安があるのですが、これは10^9時間におこる誤作動の回数です。
京の講習会の時に聞いたのですが、大規模なクラスタだと1ノードで10FITとかそのくらいのオーダーらしいです。詳しい数字は忘れましたが。ところで、10万ノードで100時間計算し、一度も誤作動を起こさない確率を上のFITから推定すると
(1 - 10^-8)^(10^6*10^2)
と、だいたい37%くらいになります。
京の実際のノードはこれよりもやや少ないですが、結構現実的な脅威ですね。
Re: (スコア:0)
それってMTBFの表現を変えただけ?
Re:大規模クラスタ (スコア:0)
システムの障害が部品の故障によって引き起こされると仮定したとき、システムの平均故障間隔は全部品の故障率(FIT数)の総和の逆数で期待されます。つまりMTBFを見積もるときに使われるものです。
10FITのノードが10万ノード集まって構成されていて、他の部品の故障は無いとすれば、
平均故障間隔=10^9/(10*100000)=1000時間と計算されます。実際にはソフト的なエラー(処理能力を超えてしまう入力がなされる確率とか)も足さないといけないはず。
もちろんこれは見込み値であって、実際のMTBF(平均故障間動作時間)は
ある特定期間中のMTBF=その期間中の総動作時間/総故障数
と定義されています。(JIS Z 8115) [kikakurui.com]