Slackの2020-5-12障害レポート

xguru · 2020-07-08T10:13:57+09:00

Slackで、初めてかなり長時間にわたって全面ダウンした問題についての説明 DB構成変更のデプロイ後、DB負荷が増加するパフォーマンスバグが見つかり、数分でロールバックそれにもかかわらず、この問題によりWebアプリのオートスケーリングが有効化され、Hard Limitを超える数までインスタンスが増加その結果、ロードバランサ内のホストリスト更新部分でバグが発生し、新しいインスタンスが登録されなくなる → HAProxy + Consul 8時間後、ホストリストに残っていたインスタンスは最も古いものだけで、スケールダウンが発生すると古いインスタンスがシャットダウン新しいインスタンスがこれを引き継ぐはずだったが、ロードバランサのホストリストに新しいインスタンスがなかった。

(slack.engineering)

10 ポイント投稿者 xguru 2020-07-08 | まだコメントはありません。 | WhatsAppで共有

Slackで、初めてかなり長時間にわたって全面ダウンした問題についての説明

DB構成変更のデプロイ後、DB負荷が増加するパフォーマンスバグが見つかり、数分でロールバック
それにもかかわらず、この問題によりWebアプリのオートスケーリングが有効化され、Hard Limitを超える数までインスタンスが増加
その結果、ロードバランサ内のホストリスト更新部分でバグが発生し、新しいインスタンスが登録されなくなる

→ HAProxy + Consul

8時間後、ホストリストに残っていたインスタンスは最も古いものだけで、スケールダウンが発生すると古いインスタンスがシャットダウン
新しいインスタンスがこれを引き継ぐはずだったが、ロードバランサのホストリストに新しいインスタンスがなかった。

Slackの2020-5-12障害レポート

関連記事

まだコメントはありません。