- 2023年11月2日から4日にかけて、Cloudflareのコントロールプレーンおよび分析サービスで障害が発生した。
- コントロールプレーンには主にCloudflareサービスの顧客向けインターフェースが含まれ、分析サービスにはロギングと分析レポートが含まれる。
- 今回の事象はFlexentialデータセンターでの電源障害によって発生し、このデータセンターにはCloudflare最大の分析クラスターと高可用性クラスターの重要な一部が置かれている。
- このような障害を防ぐために高可用性システムが導入されていたにもかかわらず、一部の重要システムには非公開の依存関係があり、障害発生中に利用不能となった。
- Cloudflareのコントロールプレーンおよび分析システムは主にオレゴン州ヒルズボロ周辺の3つのデータセンターで運用されており、それぞれは独立して動作し、1つがオフラインになっても継続運用できるよう設計されていた。
- 今回の障害により、一部のサービス、特に新しいサービスがまだ高可用性クラスターに追加されておらず、またロギングシステムがこのクラスターの一部ではないことが明らかになった。
- Flexentialデータセンターでの電源障害は、建物に入る独立した電源供給に影響を与える予定外の保守イベントによって発生し、その結果、変圧器で地絡故障が発生した。
- Cloudflareはコントロールプレーンの大部分を災害復旧施設で復旧でき、この施設がオンラインになった後は、ほとんどの顧客は大半の製品で問題を経験しなかったはずである。
- しかし、他のサービスは復旧により長い時間を要し、それらを利用していた顧客は事象が完全に解決するまで問題を経験した可能性がある。
- Cloudflareはこの事象から得た教訓を踏まえて変更を実施しており、これには中核データセンターへの依存の排除、すべての中核データセンターがオフラインになってもコントロールプレーン機能が継続することの保証、すべての製品と機能が高可用性クラスターに依存し、信頼できる災害復旧計画を持つことの要求が含まれる。
- 同社はまた、すべてのデータセンター機能に対するより厳格なカオステストの実施、すべての中核データセンターの監査、そしてロギングおよび分析の災害復旧計画の策定も進めている。
1件のコメント
Hacker Newsの意見