5 ポイント 投稿者 GN⁺ 2023-10-28 | まだコメントはありません。 | WhatsAppで共有
  • Googleのサイト信頼性エンジニアリング(SRE)の20年にわたる進化に関する記事
  • この20年間で、Googleのコンピューティング性能は1,000倍、ネットワークは10,000倍に成長
  • SREツールはPythonスクリプトから統合サービスのエコシステムへ、そして信頼性を標準で提供する統合プラットフォームへと進化
  • Googleの20年にわたるSREで学んだ11の主要な教訓を強調する記事
  • 教訓1: 緩和策のリスクは、障害の深刻さに応じて変えるべき
  • 教訓2: 緊急事態の前に復旧メカニズムを完全にテストしておくべき
  • 教訓3: すべての変更は、大規模な影響を防ぐために段階的に適用すべき
  • 教訓4: すべてのサービス依存関係には、望ましくない状態を元に戻すための「大きな赤いボタン」が必要
  • 教訓5: 単体テストだけでは不十分で、統合テストも必要
  • 教訓6: 障害時には、バックアップを含む複数の通信チャネルが不可欠
  • 教訓7: サービスは例外的な状況において、意図的かつ優雅に性能を低下させられるべき
  • 教訓8: 災害耐性と復旧テストは、事業継続戦略の一部であるべき
  • 教訓9: 緩和策は、平均復旧時間(MTTR)を短縮するために自動化すべき
  • 教訓10: 適切なテストとともに頻繁にロールアウトすることで、ロールアウトの失敗可能性を下げられる
  • 教訓11: 単一のグローバルなハードウェアバージョンは単一障害点であり、多様なインフラを維持することで全面停止を防げる
  • これらの教訓は、Googleが長年にわたり経験し学んだ実際の事例に基づいている

まだコメントはありません。

まだコメントはありません。