How Complex System Fail の事例
(how.complexsystems.fail)https://how.complexsystems.fail/
https://www.youtube.com/watch?v=2S0k12uZR14
Richard Cook の How Complex System Fail では、複雑なシステムの失敗原因 18 項目と、失敗を減らすための方法が扱われています。
1. 複雑なシステムは本質的に危険なシステムである。
2. 複雑なシステムは失敗からうまく防御する。
障害が発生する中で、複数層の防御レイヤーが構築される。このような防御には、技術的構成要素(バックアップ、システムの safety feature など)、人的構成(教育、知識)、組織、制度などが含まれる。
3. 大惨事(Catastrophe)には複数回の失敗が必要である。- SPoF だけでは十分ではない。
大きな障害は、小さな事故が積み重なって発生する。
4. 複雑なシステムには、内部に潜在する変化し続けるエラーの組み合わせが含まれている。
5. 複雑なシステムは性能低下モードで動作する。
6. 大惨事(Catastrophe)は常に目前にある。
7. 障害後の Root Cause は根本的に誤っている。
8. 障害後のパフォーマンス評価は事後バイアス的である。
9. 運用には 2 つの役割がある。(生産者、障害に対する防御者)
10. すべての実務者の行動は賭けである。
障害の後では、失敗はしばしば避けられなかったもののように見え、実務者の行動はミスに見える。しかし、すべての実務者の行動は実際には賭け、つまり不確実な結果に直面して行われる行動である。不確実性の度合いは変化しうる。実務者の行動が賭けであるという事実は、障害の後にわかる。一般に事後分析では、このような賭けは質の低い賭けと見なされる。しかし、成功した結果もまた賭けの結果である。
11. 最も困難な場所での行動は曖昧さを解消する。
12. 実務者は複雑なシステムの適応可能な要素である。
13. 複雑なシステムに対する人間の専門性は絶えず変化している。
14. 変化は新しい形の失敗をもたらす。
15. 「原因」に対する見方は、将来の出来事に対する防御の有効性を制限する。
16. 安全は構成要素ではなく、システムの特性である。
安全はシステムの属性である。すべてのシステムの安全状態は常に変化する。継続的かつ体系的なリスク管理が必要である。
1件のコメント
最近カオスエンジニアリングの準備をしているせいか、以下の文章が印象に残っています。
大惨事(Catastrophe)はいつも目の前にある。
失敗のない作業には、失敗の経験が必要だ。