How Complex System Fail の事例

(how.complexsystems.fail)

10 ポイント投稿者 before30 2020-12-26 | 1件のコメント | WhatsAppで共有

https://how.complexsystems.fail/

https://www.youtube.com/watch?v=2S0k12uZR14

Richard Cook の How Complex System Fail では、複雑なシステムの失敗原因 18 項目と、失敗を減らすための方法が扱われています。

1. 複雑なシステムは本質的に危険なシステムである。

2. 複雑なシステムは失敗からうまく防御する。

障害が発生する中で、複数層の防御レイヤーが構築される。このような防御には、技術的構成要素（バックアップ、システムの safety feature など）、人的構成（教育、知識）、組織、制度などが含まれる。

3. 大惨事（Catastrophe）には複数回の失敗が必要である。- SPoF だけでは十分ではない。

大きな障害は、小さな事故が積み重なって発生する。

4. 複雑なシステムには、内部に潜在する変化し続けるエラーの組み合わせが含まれている。

5. 複雑なシステムは性能低下モードで動作する。

6. 大惨事（Catastrophe）は常に目前にある。

7. 障害後の Root Cause は根本的に誤っている。

8. 障害後のパフォーマンス評価は事後バイアス的である。

9. 運用には 2 つの役割がある。（生産者、障害に対する防御者）

10. すべての実務者の行動は賭けである。

障害の後では、失敗はしばしば避けられなかったもののように見え、実務者の行動はミスに見える。しかし、すべての実務者の行動は実際には賭け、つまり不確実な結果に直面して行われる行動である。不確実性の度合いは変化しうる。実務者の行動が賭けであるという事実は、障害の後にわかる。一般に事後分析では、このような賭けは質の低い賭けと見なされる。しかし、成功した結果もまた賭けの結果である。

11. 最も困難な場所での行動は曖昧さを解消する。

12. 実務者は複雑なシステムの適応可能な要素である。

13. 複雑なシステムに対する人間の専門性は絶えず変化している。

14. 変化は新しい形の失敗をもたらす。

15. 「原因」に対する見方は、将来の出来事に対する防御の有効性を制限する。

16. 安全は構成要素ではなく、システムの特性である。

安全はシステムの属性である。すべてのシステムの安全状態は常に変化する。継続的かつ体系的なリスク管理が必要である。

17. 人々は継続的に安全を作り出している。

18. 失敗のない作業には失敗の経験が必要である。

1件のコメント

gramer2188 2021-01-06

最近カオスエンジニアリングの準備をしているせいか、以下の文章が印象に残っています。

大惨事（Catastrophe）はいつも目の前にある。
失敗のない作業には、失敗の経験が必要だ。