- EBS gp3の耐久性指標: AWS公式ドキュメント上の年間故障率(AFR)は 0.1% ~ 0.2%。単一ディスク基準の耐久性は99.9%と非常に高いが、インフラ規模が大きくなるほど確率的リスクは蓄積する。
- 規模に応じた障害発生確率:
- ディスク1,000台を運用する場合、1年以内に障害がまったく発生しない確率は約 36.8%($0.999^{1000}$)。
- つまり、統計的には 約63.2%の確率で少なくとも1台以上のディスク障害 を経験することになり、これは設計時に定数として扱うべきレベルのリスクである。
- 保存構成による生存率の変化:
- 分散構成(Sharding/RAID 0): システム全体の耐久性は個別要素の耐久性の積($R^n$)で決まる。ディスク数が増えるほど、システムの生存確率は指数関数的に低下する。
- 複製構成(Mirroring/RAID 1): シャードごとの障害確率を二乗($Q^2$)まで下げることで、同じハードウェアを使用していてもシステム全体の耐久性を飛躍的に向上させられる。
- 運用戦略の分離:
- Redundancy(RAIDなど): 物理ハードウェアの機械的故障に対応し、サービス可用性と耐久性を維持するための戦略。
- Backup(S3スナップショットなど): 運用者のミス、ソフトウェアバグ、ランサムウェアなどによる「データの論理的な改変」を復旧するための唯一の手段。両者は相互に代替不可能である。
- 結論: クラウドのマネージドサービスが高い安定性を提供するのは事実だが、システムの最終的な耐久性は個別部品のスペックよりも エンジニアのアーキテクチャ設計能力 によって決まる。
1件のコメント
興味深く拝見しました。^^
お金を惜しんではいけない最後の領域なのに、という感じですね(笑)