Slackの2020-5-12障害レポート
(slack.engineering)Slackで、初めてかなり長時間にわたって全面ダウンした問題についての説明
-
DB構成変更のデプロイ後、DB負荷が増加するパフォーマンスバグが見つかり、数分でロールバック
-
それにもかかわらず、この問題によりWebアプリのオートスケーリングが有効化され、Hard Limitを超える数までインスタンスが増加
-
その結果、ロードバランサ内のホストリスト更新部分でバグが発生し、新しいインスタンスが登録されなくなる
→ HAProxy + Consul
-
8時間後、ホストリストに残っていたインスタンスは最も古いものだけで、スケールダウンが発生すると古いインスタンスがシャットダウン
-
新しいインスタンスがこれを引き継ぐはずだったが、ロードバランサのホストリストに新しいインスタンスがなかった。
まだコメントはありません。