最近発生した顧客影響事案の詳細共有
Google Cloudの顧客サポート
- 今月初め、オーストラリアの顧客UniSuperに影響を与えたGoogle Cloudの事案が発生した。
- 事案発生直後、顧客と協力してシステムを完全に復旧することが最優先だった。
- 事案開始直後、顧客との共同声明を通じて事案を公に認めた。
- 顧客のシステムが完全に復旧した後、内部レビューを完了した。
- 事案の性質を明確にし、透明性のために正確な説明を提供するべく情報を公開する。
- Google Cloudは、この特定かつ孤立した事案が再発しないよう対策を講じた。
- この事案の影響は非常に残念なものであり、顧客に不便をかけたことを深くお詫びする。
影響範囲
影響を受けた技術とサービス
- この事案は、以下のGoogle管理サービスに影響した:
- 1つのクラウドリージョンにある1社の顧客。
- その顧客が利用していたGoogle Cloudサービスの1つ、Google Cloud VMware Engine(GCVE)。
- 2つのゾーンにまたがる顧客の複数のGCVEプライベートクラウドのうちの1つ。
影響を受けなかった項目
- この事案は、以下の項目には影響しなかった:
- 他のGoogle Cloudサービス。
- GCVEまたは他のGoogle Cloudサービスを利用する他の顧客。
- 顧客の他のGCVEプライベートクラウド、Googleアカウント、組織、フォルダ、またはプロジェクト。
- 同じリージョンに保存されていた顧客データのバックアップ(Google Cloud Storage)。
事案の原因
要約
- 顧客向けのGoogle Cloud VMware Engine(GCVE)プライベートクラウドの初期展開中、Googleの運用担当者が内部ツールを使用してGCVEサービスを誤って構成した。これは、あるパラメータを空欄のままにしたことで発生した。
- その結果、顧客のGCVEプライベートクラウドは固定期間付きとして設定され、その期間終了時に自動削除される状態になった。
- 事案の原因とシステム動作の両方を修正し、再発しないよう対処した。
- この事案は、この顧客の1つのGCVEプライベートクラウド以外のGoogle Cloudサービスには影響しなかった。
- 他の顧客はこの事案の影響を受けていない。
詳細分析
例外プロセスを用いたデプロイ
- 2023年初頭、Googleの運用担当者は特定の容量配置要件を満たすため、内部ツールを使って顧客のGCVEプライベートクラウドの1つをデプロイした。
- この容量管理用内部ツールは2023年第4四半期に廃止され、現在は完全に自動化されており、人の介入は不要となっている。
空の入力パラメータによる意図しない動作
- Googleの運用担当者は内部統制プロトコルに従っていた。
- しかし、顧客のプライベートクラウドをプロビジョニングする際に内部ツールを使用したとき、1つの入力パラメータが空欄のままだった。
- その結果、システムはこのパラメータに対して、当時は知られていなかったデフォルトの固定1年期間の値を割り当てた。
- システムが割り当てた1年の期間が終了した後、顧客のGCVEプライベートクラウドは削除された。
- この削除は、Googleの運用担当者が内部ツール使用時にパラメータを空欄のままにした結果として発生したため、顧客に通知は送信されなかった。
- 顧客が開始した削除であれば、顧客への通知送信後にのみ発生していたはずである。
復旧
- 顧客とGoogleチームは数日間にわたり24時間体制で協力し、顧客のGCVEプライベートクラウドを復旧し、ネットワークとセキュリティ設定を復元し、アプリケーションを復旧し、データを回復して完全な運用を取り戻した。
- これは、顧客の強固でレジリエントなアーキテクチャアプローチのおかげで可能だった。
- 同じリージョンのGoogle Cloud Storageに保存されていたデータバックアップは削除の影響を受けず、サードパーティ製バックアップソフトウェアとともに迅速な復旧に重要な役割を果たした。
是正措置
- Google Cloudは、この事案の再発を防ぐため複数の措置を講じた:
- この事案を引き起こした内部ツールを廃止した。この部分は現在、完全に自動化されており、顧客がユーザーインターフェースを通じて制御できる。
- システムデータベースを整理し、すべてのGCVEプライベートクラウドを手動でレビューして、他のGCVEデプロイがリスクにさらされていないことを確認した。
- これらのデプロイワークフローにおいてGCVEプライベートクラウドが削除されるよう設定していたシステム動作を修正した。
結論
- Google Cloud内でこの種の性質を持つ事案は今回が初めてであり、体系的な問題ではない。
- Google Cloudサービスには、ソフトデリート、事前通知、人手による介入などの強力な保護機構が備わっている。
- これらの保護機構が引き続き維持されていることを確認した。
- 顧客と緊密に協力することは迅速な復旧に不可欠である。顧客のCIOと技術チームは、Google Cloudチームと緊密に協力し、24時間体制の復旧を迅速かつ正確に実行した点で称賛されるべきである。
- 予期しない事案が発生した際の迅速な復旧には、強固でレジリエントなリスク管理が不可欠である。
- Google Cloudは依然として世界で最もレジリエントで信頼性の高いクラウドインフラを有している。今回の単発の事案にもかかわらず、当社の稼働時間とレジリエンスは独立して検証されている。
GN⁺の見解
- 事案の重要性: この事案は、クラウドサービス提供者がどれだけ迅速に問題を解決し、顧客と協力できるかが重要であることを示している。
- 自動化の必要性: 内部ツールの自動化がいかに重要か、特に人為的ミスがシステムに大きな影響を与えうる場合を強調している。
- 顧客との協力: 顧客との緊密な協力が問題解決にどれほど重要かを示している。これは信頼構築の重要な要素でもある。
- データバックアップの重要性: データバックアップがいかに重要か、とりわけ予期しない事案発生時の迅速な復旧に不可欠であることを強調している。
- 今後の予防措置: Google Cloudが再発防止のために講じた措置は、他のクラウドサービス提供者にとっても良い手本となりうる。
1件のコメント
Hacker Newsの意見
Hacker Newsコメントまとめ要約
問題解決の深さに対する不満
GCPの顧客保護措置に関する質問
24x7作業への疑問
関連インシデント
Google側のミスへの驚き
レビューの徹底性
GCPへの期待
顧客の取り組みへの称賛
UniSuper顧客の体験
初期発表の誤解