11 ポイント 投稿者 before30 2020-12-25 | まだコメントはありません。 | WhatsAppで共有

2020/12/18 更新(原因と対応策を追加)

#ROOT CAUSE

昨年10月から、Google ユーザー ID サービスに新しい自動ストレージ割り当てシステムを導入した。一部のサービスでは既存のクォータシステムを使用しており、使用量を 0 と報告してしまう問題を抱えていた。0 と報告されていても即時の影響がなかったのは Expire 時間が残っていたためであり、時間の満了後に User ID サービスのクォータを削減したことで障害が発生した。意図しないクォータ変更を検証するための安全チェック項目はあったが、0 のシナリオは扱っていなかった。

アカウント Database のクォータが減少し、Paxos leader への書き込みができなくなり、さらに大半の読み取り処理が期限切れとなって認証問い合わせ時にエラーが発生した。

#REMEDIATION AND PREVENTION

  1. グローバル変更の迅速な Implementation を防ぐため、クォータ管理オートメーションをレビュー

  2. 監視およびアラートを改善し、誤った設定をすばやく検知

  3. 内部ツールによって障害が発生した際、外部コミュニケーションのためのツールとプロセスの安定性を向上

  4. User ID サービス Database に対する書き込みエラー Resilience を実装

  5. User ID サービス障害時にデータ領域へ及ぶ影響を厳格に制限し、GCP サービスの Resilience を改善

  • 12月14日に発生した障害について詳細な報告書が更新されていたので、読みながら意訳してみました。誤りがあれば教えてください。そして、いつも楽しく見ている GeekNews なので、面白い障害関連の内容があればまた投稿してみようと思います。

まだコメントはありません。

まだコメントはありません。