通知件数を95.7%削減して通知疲れを改善した話
(velog.io)問題の背景: クリティカル通知と警告(Warning)通知のチャネルを分離し、クリティカル通知時には電話受信を導入したが、月1万件を超える警告通知の急増により、通知の無視とオンコール(On-call)疲労の増加が発生した。
中核となるインサイト: 過剰な通知はメッセンジャーのヘルスチェッカーに成り下がり、システムの可視性を損なう。通知削減のための主要指標として、Slackの絵文字(👀, ✅)を活用した「通知反応率」の測定を提案。
解決の過程:
初期設定の意図と現在の環境が合っていない通知(例: EBSボリューム増量のしきい値の不一致)を調整・削除。
以前の担当者の意図が分からない無意味な通知は思い切って削除。
追加の成果: 通知ノイズを取り除いた後、特定サーバーの高いiowaitの原因が、実際のワークロードに対して過剰に設定されたZFS recordsizeにあることを発見し、正常化した。
結果: 警告通知を95.7%削減(月10,553件 → 453件)。深夜・休日のクリティカル電話受信は70%以上減少。オンコールによる睡眠不足を解消し、実質的なシステム可用性・可視性が向上した.
3件のコメント
ログ、メトリクス、アラートは、定期的にチューニングしていくプラクティスが必要ですよね。
どこかで見たニックネームだと思ったら、以前 cron の出力で面白い記事を書いてくださった方ですね。今回の記事も楽しく読ませていただきました :D
面白く読んでいただけたとのこと、ありがとうございます。