2025-06-12 GCP 障害報告書
(status.cloud.google.com)- Service Control: Google および Google Cloud API が使用する中核モジュールの1つ
- 2025-05-29 に Service Control に新機能をデプロイ。新しいポリシーを検査する機能だった
- 2025-06-12 に新しいポリシーが追加され、問題が始まる:
- null pointer によるクラッシュループ* が発生
- feature flag はなかった。ただし緊急停止のために red-button を実行
- us-central-1 のような大規模リージョンでは、このアクションにより依存している内部サービスで herd effect* が発生。なぜなら randomized exponential backoff** 戦略が実装されていなかったため
- 一度にトラフィックが大量に集中したという意味です。
** トラフィック過負荷を防ぐ手法です。
5件のコメント
GN+にも同じレポートを扱う記事が上がっていますね。
Googleのような大企業でも、意外なことに、リトライ処理の際にJitterを追加するという基本的な対策すら適用していないコードがあちこちに潜んでいるようです。
おそらく以前はこうした問題が起きなかったのでそのままにしていたのでしょうが、やはりうまく動いているコードには手を入れないというのは巨大企業でも同じなのかもしれません。
今見ると書式が少し崩れていますね。最後の2行はそれぞれ、クラッシュループと randomized exponential backoff に関する注釈です。
数日前にあったインターネットダウンの投稿の障害と関係があるのでしょうか?
はい、その障害の話です。