Alertの閾値をうまく設定する方法
(medium.com)- 閾値は、本番環境でのリスク、調査・解決時間、複雑さに関連して設定する
- これはリスクが発生する前に設定し、素早く対処できる必要がある
- 運用担当者が作業時間を確保できるよう、閾値を問題に近づけすぎないように設定する
- 閾値を問題から遠ざけすぎてもいけない
- 一部のAlertには複数の根本原因があり、理解・調査するのが複雑である
- 迅速な問題解決に役立つよう、Alertを根本原因の数だけ分割する
- 適切な閾値を見つけるのは簡単ではなく、何度も短いフィードバックループを経る必要がある
まだコメントはありません。