- Googleのサイト信頼性エンジニアリング(SRE)の20年にわたる進化に関する記事
- この20年間で、Googleのコンピューティング性能は1,000倍、ネットワークは10,000倍に成長
- SREツールはPythonスクリプトから統合サービスのエコシステムへ、そして信頼性を標準で提供する統合プラットフォームへと進化
- Googleの20年にわたるSREで学んだ11の主要な教訓を強調する記事
- 教訓1: 緩和策のリスクは、障害の深刻さに応じて変えるべき
- 教訓2: 緊急事態の前に復旧メカニズムを完全にテストしておくべき
- 教訓3: すべての変更は、大規模な影響を防ぐために段階的に適用すべき
- 教訓4: すべてのサービス依存関係には、望ましくない状態を元に戻すための「大きな赤いボタン」が必要
- 教訓5: 単体テストだけでは不十分で、統合テストも必要
- 教訓6: 障害時には、バックアップを含む複数の通信チャネルが不可欠
- 教訓7: サービスは例外的な状況において、意図的かつ優雅に性能を低下させられるべき
- 教訓8: 災害耐性と復旧テストは、事業継続戦略の一部であるべき
- 教訓9: 緩和策は、平均復旧時間(MTTR)を短縮するために自動化すべき
- 教訓10: 適切なテストとともに頻繁にロールアウトすることで、ロールアウトの失敗可能性を下げられる
- 教訓11: 単一のグローバルなハードウェアバージョンは単一障害点であり、多様なインフラを維持することで全面停止を防げる
- これらの教訓は、Googleが長年にわたり経験し学んだ実際の事例に基づいている
まだコメントはありません。