2019年7月2日のCloudflare障害レポート[翻訳] (ryanking13.github.io) 12 ポイント 投稿者 xguru 2019-07-21 | 5件のコメント | WhatsAppで共有 CloudflareのCTOが、インシデントの概要や対応などを整理したもので、大規模な組織でどのように問題が発生し、それにどう対処するのかが分かる文章 関連記事 Cloudflare障害による大規模障害 19 ポイント · 16件のコメント · 2025-11-18 Cloudflare、再び停止 2 ポイント · 10件のコメント · 2025-12-05 Dockerシステムステータス: 全サービス中断 2 ポイント · 1件のコメント · 2025-10-22 Cloudflare 2025年11月18日の障害事後分析 23 ポイント · 8件のコメント · 2025-11-19 Cloudflare 1.1.1.1 2025年7月14日の障害インシデント 1 ポイント · 1件のコメント · 2025-07-17 5件のコメント blurblah 2019-07-24 原文の appendix も面白いですね。問題となったパターンである ..=.* の部分がなぜ CPU を枯渇させたのかについての詳しい説明もありますし、正規表現を修正するのもよいですが、代替案としてエンジンの置き換えを考えたのも意義があるように思います。 curioe 2019-07-21 見事な障害報告書ですね。どのように対処したのかを詳しく説明していること自体も素晴らしいですが、単に一人のエンジニアのミスとして片付けず、複合的な原因を見つけて一つずつ解決したという点から学ぶことが多いです。障害は発生しましたが、むしろ会社への信頼が積み上がるように感じます。 mytory 2019-07-23 とても共感しました。私も複合的な原因を指摘していた点が印象的でした。一人のエンジニアのミスとしてだけ見ない姿勢には、学ぶ点が多いと思います。 quake21 2019-07-22 そうですね。もしかすると障害報告書を担当する役員でもいるのでしょうか。あれほど詳細に原因を突き止めて分析できるのもすごいですが、ここまで書くのかと思うほど報告書もうまく書けていますね。 lifthrasiir 2019-07-22 その文章を書いたCloudflareのCTO、John Graham-Cummingは、もともと著名なブロガーです。https://blog.jgc.org/
5件のコメント
原文の appendix も面白いですね。問題となったパターンである ..=.* の部分がなぜ CPU を枯渇させたのかについての詳しい説明もありますし、正規表現を修正するのもよいですが、代替案としてエンジンの置き換えを考えたのも意義があるように思います。
見事な障害報告書ですね。どのように対処したのかを詳しく説明していること自体も素晴らしいですが、単に一人のエンジニアのミスとして片付けず、複合的な原因を見つけて一つずつ解決したという点から学ぶことが多いです。障害は発生しましたが、むしろ会社への信頼が積み上がるように感じます。
とても共感しました。私も複合的な原因を指摘していた点が印象的でした。一人のエンジニアのミスとしてだけ見ない姿勢には、学ぶ点が多いと思います。
そうですね。もしかすると障害報告書を担当する役員でもいるのでしょうか。あれほど詳細に原因を突き止めて分析できるのもすごいですが、ここまで書くのかと思うほど報告書もうまく書けていますね。
その文章を書いたCloudflareのCTO、John Graham-Cummingは、もともと著名なブロガーです。https://blog.jgc.org/