11 ポイント 投稿者 computerphilosopher 2026-03-03 | 3件のコメント | WhatsAppで共有

問題の背景: クリティカル通知と警告(Warning)通知のチャネルを分離し、クリティカル通知時には電話受信を導入したが、月1万件を超える警告通知の急増により、通知の無視とオンコール(On-call)疲労の増加が発生した。

中核となるインサイト: 過剰な通知はメッセンジャーのヘルスチェッカーに成り下がり、システムの可視性を損なう。通知削減のための主要指標として、Slackの絵文字(👀, ✅)を活用した「通知反応率」の測定を提案。

解決の過程:

初期設定の意図と現在の環境が合っていない通知(例: EBSボリューム増量のしきい値の不一致)を調整・削除。

以前の担当者の意図が分からない無意味な通知は思い切って削除。

追加の成果: 通知ノイズを取り除いた後、特定サーバーの高いiowaitの原因が、実際のワークロードに対して過剰に設定されたZFS recordsizeにあることを発見し、正常化した。

結果: 警告通知を95.7%削減(月10,553件 → 453件)。深夜・休日のクリティカル電話受信は70%以上減少。オンコールによる睡眠不足を解消し、実質的なシステム可用性・可視性が向上した.

3件のコメント

 
darjeeling 2026-03-03

ログ、メトリクス、アラートは、定期的にチューニングしていくプラクティスが必要ですよね。

 
roxie 2026-03-03

どこかで見たニックネームだと思ったら、以前 cron の出力で面白い記事を書いてくださった方ですね。今回の記事も楽しく読ませていただきました :D

 
computerphilosopher 2026-03-03

面白く読んでいただけたとのこと、ありがとうございます。