GCPインシデント発生状況
(blog.railway.app)Google Cloud Platformの問題点と対応
- RailwayはGoogle Cloud Platform(GCP)のCompute Engineを使用してアプリケーション開発プラットフォームを運用している。
- 特定のマシンが応答しなくなり、サービス障害が発生し、これは約10分間続いた。
- 問題は解決され、すべてのワークロードは正常に移行され、サービスは復旧した。
Google Cloudとの難しい関係
- Railwayは過去18か月の間にGoogle Cloudと複数の問題を経験した。
- ネットワーキングの問題が続いたため、自前のネットワーキングスタックを構築して問題を解決した。
- Googleがレジストリのクォータを制限したため、自前のレジストリ製品を作って対応した。
- Googleのサポートサービスに失望し、問題解決のためにGoogleの副社長たちと協議した。
- Googleが利用規約を変更したことでコストが20%増加しており、その解決策を待っている。
- RailwayはGoogle Cloudの利用を中止し、自前のベアメタルインスタンスへ移行する計画である。
インシデントの振り返り
- Googleがマシンを再起動したことでサーバーがオフラインになった。
- 自動フェイルオーバーシステムはあったが、一部のサーバーが復旧せず、手動でフェイルオーバーを実施した。
- Google Cloudの自動ライブマイグレーションによる問題と推定し、Googleに連絡を試みたが応答はなかった。
- シリアルコンソールログの分析結果から、GCPゲストでユーザー空間からカーネルへのメモリ転送中、まれなケースでリソース逼迫下にソフトロックが発生するものと推定された。
ユーザー向けの結論
- 手動フェイルオーバー中、各ホストあたり約10分のダウンタイムが発生した。
- 複数サービスのワークロードを実行しているユーザーでは、ダウンタイムがさらに長くなる可能性がある。
- Railwayはユーザーに不便をかけたことを謝罪し、より高い信頼性を提供するために自前のベアメタルへ移行する計画である。
GN⁺の意見
この記事で最も重要なのは、Google Cloud Platformの技術的問題とカスタマーサポートの問題がユーザーに与える影響である。Railwayが経験した問題は、クラウドサービスプロバイダーの信頼性とサポートの重要性を強調しており、こうした問題を解決するために自前のインフラを構築することの重要性を示している。この文章は、クラウドコンピューティングの複雑さと潜在的なリスクを理解する助けとなり、技術的問題への洞察と対応策を提供することで興味深く有益である。
1件のコメント
Hacker News の意見
小規模ソフトウェア企業の経験
GCP の変化に関する意見
GCP と AWS の信頼性比較
クラウドプロバイダーの問題に関する意見
Google Cloud サポートサービスに関する経験
GCP の機能問題に関する経験
GCP の文書化されていないしきい値に関する経験
Google Cloud のネットワーキング問題に対する解決策
Google Cloud の信頼性に関する意見
GCP での問題に関する個人的な混乱