1 ポイント 投稿者 GN⁺ 2024-05-26 | 1件のコメント | WhatsAppで共有

最近発生した顧客影響事案の詳細共有

Google Cloudの顧客サポート

  • 今月初め、オーストラリアの顧客UniSuperに影響を与えたGoogle Cloudの事案が発生した。
  • 事案発生直後、顧客と協力してシステムを完全に復旧することが最優先だった。
  • 事案開始直後、顧客との共同声明を通じて事案を公に認めた。
  • 顧客のシステムが完全に復旧した後、内部レビューを完了した。
  • 事案の性質を明確にし、透明性のために正確な説明を提供するべく情報を公開する。
  • Google Cloudは、この特定かつ孤立した事案が再発しないよう対策を講じた。
  • この事案の影響は非常に残念なものであり、顧客に不便をかけたことを深くお詫びする。

影響範囲

影響を受けた技術とサービス

  • この事案は、以下のGoogle管理サービスに影響した:
    • 1つのクラウドリージョンにある1社の顧客。
    • その顧客が利用していたGoogle Cloudサービスの1つ、Google Cloud VMware Engine(GCVE)。
    • 2つのゾーンにまたがる顧客の複数のGCVEプライベートクラウドのうちの1つ。

影響を受けなかった項目

  • この事案は、以下の項目には影響しなかった:
    • 他のGoogle Cloudサービス。
    • GCVEまたは他のGoogle Cloudサービスを利用する他の顧客。
    • 顧客の他のGCVEプライベートクラウド、Googleアカウント、組織、フォルダ、またはプロジェクト。
    • 同じリージョンに保存されていた顧客データのバックアップ(Google Cloud Storage)。

事案の原因

要約

  • 顧客向けのGoogle Cloud VMware Engine(GCVE)プライベートクラウドの初期展開中、Googleの運用担当者が内部ツールを使用してGCVEサービスを誤って構成した。これは、あるパラメータを空欄のままにしたことで発生した。
  • その結果、顧客のGCVEプライベートクラウドは固定期間付きとして設定され、その期間終了時に自動削除される状態になった。
  • 事案の原因とシステム動作の両方を修正し、再発しないよう対処した。
  • この事案は、この顧客の1つのGCVEプライベートクラウド以外のGoogle Cloudサービスには影響しなかった。
  • 他の顧客はこの事案の影響を受けていない。

詳細分析

例外プロセスを用いたデプロイ
  • 2023年初頭、Googleの運用担当者は特定の容量配置要件を満たすため、内部ツールを使って顧客のGCVEプライベートクラウドの1つをデプロイした。
  • この容量管理用内部ツールは2023年第4四半期に廃止され、現在は完全に自動化されており、人の介入は不要となっている。
空の入力パラメータによる意図しない動作
  • Googleの運用担当者は内部統制プロトコルに従っていた。
  • しかし、顧客のプライベートクラウドをプロビジョニングする際に内部ツールを使用したとき、1つの入力パラメータが空欄のままだった。
  • その結果、システムはこのパラメータに対して、当時は知られていなかったデフォルトの固定1年期間の値を割り当てた。
  • システムが割り当てた1年の期間が終了した後、顧客のGCVEプライベートクラウドは削除された。
  • この削除は、Googleの運用担当者が内部ツール使用時にパラメータを空欄のままにした結果として発生したため、顧客に通知は送信されなかった。
  • 顧客が開始した削除であれば、顧客への通知送信後にのみ発生していたはずである。

復旧

  • 顧客とGoogleチームは数日間にわたり24時間体制で協力し、顧客のGCVEプライベートクラウドを復旧し、ネットワークとセキュリティ設定を復元し、アプリケーションを復旧し、データを回復して完全な運用を取り戻した。
  • これは、顧客の強固でレジリエントなアーキテクチャアプローチのおかげで可能だった。
  • 同じリージョンのGoogle Cloud Storageに保存されていたデータバックアップは削除の影響を受けず、サードパーティ製バックアップソフトウェアとともに迅速な復旧に重要な役割を果たした。

是正措置

  • Google Cloudは、この事案の再発を防ぐため複数の措置を講じた:
    1. この事案を引き起こした内部ツールを廃止した。この部分は現在、完全に自動化されており、顧客がユーザーインターフェースを通じて制御できる。
    2. システムデータベースを整理し、すべてのGCVEプライベートクラウドを手動でレビューして、他のGCVEデプロイがリスクにさらされていないことを確認した。
    3. これらのデプロイワークフローにおいてGCVEプライベートクラウドが削除されるよう設定していたシステム動作を修正した。

結論

  • Google Cloud内でこの種の性質を持つ事案は今回が初めてであり、体系的な問題ではない。
  • Google Cloudサービスには、ソフトデリート、事前通知、人手による介入などの強力な保護機構が備わっている。
  • これらの保護機構が引き続き維持されていることを確認した。
  • 顧客と緊密に協力することは迅速な復旧に不可欠である。顧客のCIOと技術チームは、Google Cloudチームと緊密に協力し、24時間体制の復旧を迅速かつ正確に実行した点で称賛されるべきである。
  • 予期しない事案が発生した際の迅速な復旧には、強固でレジリエントなリスク管理が不可欠である。
  • Google Cloudは依然として世界で最もレジリエントで信頼性の高いクラウドインフラを有している。今回の単発の事案にもかかわらず、当社の稼働時間とレジリエンスは独立して検証されている。

GN⁺の見解

  • 事案の重要性: この事案は、クラウドサービス提供者がどれだけ迅速に問題を解決し、顧客と協力できるかが重要であることを示している。
  • 自動化の必要性: 内部ツールの自動化がいかに重要か、特に人為的ミスがシステムに大きな影響を与えうる場合を強調している。
  • 顧客との協力: 顧客との緊密な協力が問題解決にどれほど重要かを示している。これは信頼構築の重要な要素でもある。
  • データバックアップの重要性: データバックアップがいかに重要か、とりわけ予期しない事案発生時の迅速な復旧に不可欠であることを強調している。
  • 今後の予防措置: Google Cloudが再発防止のために講じた措置は、他のクラウドサービス提供者にとっても良い手本となりうる。

1件のコメント

 
GN⁺ 2024-05-26
Hacker Newsの意見

Hacker Newsコメントまとめ要約

  • 問題解決の深さに対する不満

    • インシデントの影響に比べて対策の掘り下げが不十分。同じ問題の再発は防げたものの、類似の問題が発生する可能性は依然として残っている。サービス終了や削除を体系的に防ぐための追加措置が必要。
  • GCPの顧客保護措置に関する質問

    • GCPの顧客は、GCPの保護措置についてTAMに質問するよう勧めている。GCPの人手による保護措置はほとんどなく、AWSよりはるかに少ない。
  • 24x7作業への疑問

    • 「Googleチームが数日間24x7で作業した」という表現に疑問を呈している。
  • 関連インシデント

    • UniSuperの会員がGoogle Cloudの誤設定によって1週間アカウントにアクセスできなかった件や、Google Cloudが顧客アカウントを誤って削除した件に言及している。
  • Google側のミスへの驚き

    • Google側のミスだったという事実に驚きを示している。UniSuperは大きな衝撃を受けただろうと述べている。
  • レビューの徹底性

    • 特定のツールやプロセスの調査だけでなく、自動削除の問題を検討し、ソフトデリートの挙動を確認した点で徹底したレビューだったと評価している。ただし、デフォルト動作についての追加レビューが必要だと述べている。
  • GCPへの期待

    • UniSuperの問題は解決したが、このインシデントがGCPに必要な刺激となることを願っている。
  • 顧客の取り組みへの称賛

    • 顧客のCIOと技術チームがGoogle Cloudチームと協力し、24x7の復旧作業を迅速かつ正確に進めた点を称賛している。
  • UniSuper顧客の体験

    • UniSuperの顧客はインシデントの実態をニュースで知り、この件を「システムダウンタイム」と矮小化しようとする試みがあったと述べている。
  • 初期発表の誤解

    • 初期発表は誤解を招くもので、実際には特定リージョンの仮想マシンだけが失われたのだと説明している。これはシステムが対処できる種類の問題だと述べている。