Robloxがインフラをより効率的で復元力のあるものにする方法
(blog.roblox.com)- ゲーム企業のRobloxでは、2021年10月にシステム全体が停止する事態が発生した
- この問題は、あるデータセンター内の単一コンポーネントの不具合として小さく始まった
- 問題は急速に拡大し、システムは73時間停止した
- それ以降、Robloxは急激なトラフィック増加、天候、ハードウェア障害、ソフトウェアバグ、人為的ミスといった要因により、あらゆる大規模システムで起こり得る障害に対してインフラの復元力を高めるよう努めてきた
- Robloxは「こうした障害が発生したとき、単一のコンポーネントまたはコンポーネント群の問題がシステム全体へ波及しないようにするにはどうすればよいか?」を考えた
- その解決に取り組み、2023年上半期には前年同期と比べて月あたり1億2500万のエンゲージメント時間を節約した
まだコメントはありません。