1 ポイント 投稿者 GN⁺ 2023-12-04 | 1件のコメント | WhatsAppで共有

Google Cloud Platformの問題点と対応

  • RailwayはGoogle Cloud Platform(GCP)のCompute Engineを使用してアプリケーション開発プラットフォームを運用している。
  • 特定のマシンが応答しなくなり、サービス障害が発生し、これは約10分間続いた。
  • 問題は解決され、すべてのワークロードは正常に移行され、サービスは復旧した。

Google Cloudとの難しい関係

  • Railwayは過去18か月の間にGoogle Cloudと複数の問題を経験した。
  • ネットワーキングの問題が続いたため、自前のネットワーキングスタックを構築して問題を解決した。
  • Googleがレジストリのクォータを制限したため、自前のレジストリ製品を作って対応した。
  • Googleのサポートサービスに失望し、問題解決のためにGoogleの副社長たちと協議した。
  • Googleが利用規約を変更したことでコストが20%増加しており、その解決策を待っている。
  • RailwayはGoogle Cloudの利用を中止し、自前のベアメタルインスタンスへ移行する計画である。

インシデントの振り返り

  • Googleがマシンを再起動したことでサーバーがオフラインになった。
  • 自動フェイルオーバーシステムはあったが、一部のサーバーが復旧せず、手動でフェイルオーバーを実施した。
  • Google Cloudの自動ライブマイグレーションによる問題と推定し、Googleに連絡を試みたが応答はなかった。
  • シリアルコンソールログの分析結果から、GCPゲストでユーザー空間からカーネルへのメモリ転送中、まれなケースでリソース逼迫下にソフトロックが発生するものと推定された。

ユーザー向けの結論

  • 手動フェイルオーバー中、各ホストあたり約10分のダウンタイムが発生した。
  • 複数サービスのワークロードを実行しているユーザーでは、ダウンタイムがさらに長くなる可能性がある。
  • Railwayはユーザーに不便をかけたことを謝罪し、より高い信頼性を提供するために自前のベアメタルへ移行する計画である。

GN⁺の意見

この記事で最も重要なのは、Google Cloud Platformの技術的問題とカスタマーサポートの問題がユーザーに与える影響である。Railwayが経験した問題は、クラウドサービスプロバイダーの信頼性とサポートの重要性を強調しており、こうした問題を解決するために自前のインフラを構築することの重要性を示している。この文章は、クラウドコンピューティングの複雑さと潜在的なリスクを理解する助けとなり、技術的問題への洞察と対応策を提供することで興味深く有益である。

1件のコメント

 
GN⁺ 2023-12-04
Hacker News の意見
  • 小規模ソフトウェア企業の経験

    • 2人のソフトウェア会社として、Google といくつもの問題を経験した。
    • 問題の大半は Google Adwords に関連していた。
    • Google が多額の支払いをしている原文投稿者に適切なサポートを提供しないのであれば、小規模ビジネスにはほとんど希望がない。
  • GCP の変化に関する意見

    • 数年前の GCP は、AWS と比べてコストパフォーマンスの面でより良い選択肢だった。
    • 当時の GCP のサポートは優れており、初期のチケット対応の経験も印象的だった。
    • 営業チームとのやり取りも良かったが、今では AWS がコストパフォーマンスの面で GCP に追いつき、マネージドサービスでは上回っている。
    • GCP のサポート体験は著しく悪化しており、ネットワーク問題の認識にも失敗している。
    • GCP に多く投資してきたが、現在の状況には失望しており、支出を減らそうとしている。
  • GCP と AWS の信頼性比較

    • GCP でコンピュートインスタンスがダウンするのはまれであるにもかかわらず、批判を受けている。
    • AWS ではインスタンスが頻繁に停止したり消えたりする経験をしている。
    • 個人的な経験と AWS の文書を通じて、AWS の基本要素は GCP より信頼性が低いと主張している。
  • クラウドプロバイダーの問題に関する意見

    • すべてのクラウドプロバイダーには問題がある。
    • AWS でさまざまな問題を発見して報告したが、サポートチームに時間を無駄にさせられた。
    • 中核サービス(EC2、EBS、S3)を除いては使うのを避けている。
  • Google Cloud サポートサービスに関する経験

    • Google Cloud のサポートサービスにはあまり感銘を受けていない。
    • AWS ではサポート体験が常に良かった。
    • Google Cloud で前向きなやり取りがあった場合は、それを強調してポジティブなフィードバックを返すことを勧めている。
  • GCP の機能問題に関する経験

    • GCP の企業向け機能がまともに動作せず、それを修正しようとするとダウンタイムを引き起こした。
    • GCP の担当者たちは NDA を持ち出して、問題を認めようとしなかった。
  • GCP の文書化されていないしきい値に関する経験

    • Cloud Run に関連して、CPU 使用量と同時リクエストに基づく説明のつかないスケーリングイベントを経験した。
    • プレミアムサポートを通じて追加の基準があることは分かったが、詳しい説明は受けられなかった。
  • Google Cloud のネットワーキング問題に対する解決策

    • Google Cloud 製品で継続的なネットワーキング問題を経験した。
    • 独自のネットワーキングスタックを構築して問題を解決した。
    • 基盤ネットワークが不安定なときに、UDP/Wireguard オーバーレイがどうしてより信頼できるのか疑問を呈している。
  • Google Cloud の信頼性に関する意見

    • クラウドコンピューティング初期の信頼性問題は理解できるが、2023年に大口顧客を失望させるのは好ましくない状況だ。
    • 他の人たちも似たような経験をしたのか、それとも著者だけが運が悪いのか気になっている。
  • GCP での問題に関する個人的な混乱

    • ネストされた仮想化が問題と何の関係があるのか混乱している。
    • MMIO 命令への言及が理解できない。
    • 著者は最近の出来事に対してもどかしさを感じており、解決策を見つけようと苦心しているように見える。