2 ポイント 投稿者 GN⁺ 2023-11-05 | 1件のコメント | WhatsAppで共有
  • 2023年11月2日から4日にかけて、Cloudflareのコントロールプレーンおよび分析サービスで障害が発生した。
  • コントロールプレーンには主にCloudflareサービスの顧客向けインターフェースが含まれ、分析サービスにはロギングと分析レポートが含まれる。
  • 今回の事象はFlexentialデータセンターでの電源障害によって発生し、このデータセンターにはCloudflare最大の分析クラスターと高可用性クラスターの重要な一部が置かれている。
  • このような障害を防ぐために高可用性システムが導入されていたにもかかわらず、一部の重要システムには非公開の依存関係があり、障害発生中に利用不能となった。
  • Cloudflareのコントロールプレーンおよび分析システムは主にオレゴン州ヒルズボロ周辺の3つのデータセンターで運用されており、それぞれは独立して動作し、1つがオフラインになっても継続運用できるよう設計されていた。
  • 今回の障害により、一部のサービス、特に新しいサービスがまだ高可用性クラスターに追加されておらず、またロギングシステムがこのクラスターの一部ではないことが明らかになった。
  • Flexentialデータセンターでの電源障害は、建物に入る独立した電源供給に影響を与える予定外の保守イベントによって発生し、その結果、変圧器で地絡故障が発生した。
  • Cloudflareはコントロールプレーンの大部分を災害復旧施設で復旧でき、この施設がオンラインになった後は、ほとんどの顧客は大半の製品で問題を経験しなかったはずである。
  • しかし、他のサービスは復旧により長い時間を要し、それらを利用していた顧客は事象が完全に解決するまで問題を経験した可能性がある。
  • Cloudflareはこの事象から得た教訓を踏まえて変更を実施しており、これには中核データセンターへの依存の排除、すべての中核データセンターがオフラインになってもコントロールプレーン機能が継続することの保証、すべての製品と機能が高可用性クラスターに依存し、信頼できる災害復旧計画を持つことの要求が含まれる。
  • 同社はまた、すべてのデータセンター機能に対するより厳格なカオステストの実施、すべての中核データセンターの監査、そしてロギングおよび分析の災害復旧計画の策定も進めている。

1件のコメント

 
GN⁺ 2023-11-05
Hacker Newsの意見
  • Cloudflareの重大な障害に関する記事で、同社はこの問題をFlexentialベンダーが運営するデータセンターの電源障害に起因するとしている。
  • 一部のコメント投稿者は、CloudflareがFlexentialに責任を転嫁し、ベンダーに関する機密情報を公開していることを批判している。
  • 障害の根本原因は、Cloudflareが単一のデータセンターに依存していた点にあり、一部のコメント投稿者はこれをCloudflareの評判にとって恥ずべきことだと考えている。
  • 復旧プロセスは障害そのものよりも長くかかり、一部のサービスは完全復旧までに約30時間を要した。これは多くのサービスが相互に依存していたためである。
  • 一部のコメント投稿者は、障害中のCloudflareのコミュニケーション、特に企業顧客向けの対応に不満を表明している。
  • 問題があったにもかかわらず、一部のコメント投稿者はCloudflareの透明性と事後報告書の徹底ぶりを称賛している。
  • 一部のコメント投稿者は、Cloudflareの冗長性の失敗と、制御プレーンの地理的分散の不足に懸念を示している。
  • コメント投稿者はまた、Cloudflareがすべてのサービスを高可用性クラスターに置いておらず、電源停止のあらゆる可能なシナリオをテストしていなかったと批判している。
  • 一部のコメント投稿者は、レポートにおける人的要素の扱いを評価しており、Cloudflareが復旧プロセス中の追加ミスを避けるために休息が必要であることを認めている。
  • コメント投稿者は、データセンターが完全にオフラインの状態から復旧できる能力の重要性を強調し、Cloudflareがこのシナリオをテストしていなかったと批判している。
  • 一部のコメント投稿者は、記事の構成に驚きを示しており、投稿の大半がサードパーティベンダーについて論じていて、Cloudflare自身の復旧努力にはあまり焦点が当てられていないとしている。