7 ポイント 投稿者 roxie 2025-06-15 | 5件のコメント | WhatsAppで共有
  • Service Control: Google および Google Cloud API が使用する中核モジュールの1つ
    • 2025-05-29 に Service Control に新機能をデプロイ。新しいポリシーを検査する機能だった
    • 2025-06-12 に新しいポリシーが追加され、問題が始まる:
      • null pointer によるクラッシュループ* が発生
      • feature flag はなかった。ただし緊急停止のために red-button を実行
      • us-central-1 のような大規模リージョンでは、このアクションにより依存している内部サービスで herd effect* が発生。なぜなら randomized exponential backoff** 戦略が実装されていなかったため
  • 一度にトラフィックが大量に集中したという意味です。
    ** トラフィック過負荷を防ぐ手法です。

5件のコメント

 
kunggom 2025-06-16

GN+にも同じレポートを扱う記事が上がっていますね。

 
kunggom 2025-06-16

Googleのような大企業でも、意外なことに、リトライ処理の際にJitterを追加するという基本的な対策すら適用していないコードがあちこちに潜んでいるようです。
おそらく以前はこうした問題が起きなかったのでそのままにしていたのでしょうが、やはりうまく動いているコードには手を入れないというのは巨大企業でも同じなのかもしれません。

 
roxie 2025-06-15

今見ると書式が少し崩れていますね。最後の2行はそれぞれ、クラッシュループと randomized exponential backoff に関する注釈です。

 
regentag 2025-06-15

数日前にあったインターネットダウンの投稿の障害と関係があるのでしょうか?

 
roxie 2025-06-15

はい、その障害の話です。