25 ポイント 投稿者 tenshi 2022-02-03 | 5件のコメント | WhatsAppで共有

インフランサービスで発生した、2022年1月3日から17日まで継続的にサービスを利用できなかった障害のポストモーテム記事です。障害の発見、初動対応、再発、根本原因の分析、根本原因の解決までの過程を詳しく扱っています。

5件のコメント

 
xor100 2022-02-03

良い文章をありがとうございます。ところで、「回顧」という良い言葉があるのに、なぜ「解剖」という言葉を使われたのでしょうか? 間違った言い方ではありませんが、少し否定的に感じられますね。

 
kbumsik 2022-02-04

Postmortem の訳語として、インシデント発生後に行った対応を報告する際に「検死」という言葉をよく使うようですね。

 
ffdd270 2022-02-04

私はサービスが死んだので(…)解剖する、というニュアンスだと思って面白く感じたのですが。別の受け取り方をすることもあるのでしょうね。『m 』

 
budlebee 2022-02-03

おそらくNetflixのポストモーテムメール(postmortem email)のようなニュアンスだと思います。

 
tenshi 2022-02-03

とりわけ講義テーブルの場合、高容量のカラム(講義紹介カラムのHTMLコード)があるため、Dead Tuple 1つ1つの容量が非常に大きいです。

そのため、頻繁な更新クエリは高容量の Dead Tuple を大量に生み出すことにつながります。

特に、PostgreSQL の Dead Tuple がサービスに及ぼしうる影響を実感できる根本原因分析の部分は、良い参考になると思います。