2019年7月2日のCloudflare障害レポート［翻訳］

(ryanking13.github.io)

12 ポイント投稿者 xguru 2019-07-21 | 5件のコメント | WhatsAppで共有

CloudflareのCTOが、インシデントの概要や対応などを整理したもので、大規模な組織でどのように問題が発生し、それにどう対処するのかが分かる文章

5件のコメント

blurblah 2019-07-24

原文の appendix も面白いですね。問題となったパターンである ..=.* の部分がなぜ CPU を枯渇させたのかについての詳しい説明もありますし、正規表現を修正するのもよいですが、代替案としてエンジンの置き換えを考えたのも意義があるように思います。

curioe 2019-07-21

見事な障害報告書ですね。どのように対処したのかを詳しく説明していること自体も素晴らしいですが、単に一人のエンジニアのミスとして片付けず、複合的な原因を見つけて一つずつ解決したという点から学ぶことが多いです。障害は発生しましたが、むしろ会社への信頼が積み上がるように感じます。

mytory 2019-07-23

とても共感しました。私も複合的な原因を指摘していた点が印象的でした。一人のエンジニアのミスとしてだけ見ない姿勢には、学ぶ点が多いと思います。

quake21 2019-07-22

そうですね。もしかすると障害報告書を担当する役員でもいるのでしょうか。あれほど詳細に原因を突き止めて分析できるのもすごいですが、ここまで書くのかと思うほど報告書もうまく書けていますね。

lifthrasiir 2019-07-22

その文章を書いたCloudflareのCTO、John Graham-Cummingは、もともと著名なブロガーです。https://blog.jgc.org/