2 ポイント 投稿者 GN⁺ 2025-06-13 | 1件のコメント | WhatsAppで共有
  • Google Cloud Platformでサービス障害が発生
  • Vertex AI Online Predictionサービスでエラーが継続
  • ユーザーごとのサービス状態の確認が難しい状況が発生
  • 複数地域のユーザーに影響するサービス異常が報告
  • 正常化と具体的な原因把握の必要性が提起

障害概要

  • Google Cloud Platformでサービス利用不可の事象が報告
  • 特に、Vertex AI Online Prediction機能などで継続的なエラーの発生を確認

影響範囲と現況

  • 問題はPersonalized Service Healthなど、サービスの状態確認にも影響中
  • さまざまな地域のユーザーが、サービスへのアクセスや利用に支障をきたしている状況

結論と見通し

  • サービス正常化および障害原因の分析の必要性が高まっている
  • 具体的な復旧および対応策に関する追加告知が待たれる状況

1件のコメント

 
GN⁺ 2025-06-13
Hacker Newsの意見
  • Google内部の中核サービスであるChemistがダウンした状況の説明。Chemistはプロジェクトの状態、有効化状態、悪用の有無、課金状態、ロケーション制限、VPC Service Controls、SuperQuotaなど、さまざまなポリシーチェック機能を提供しているため、「visibility check (of the API) failed」や「cannot load policy」など多様なエラーメッセージが表示された現象は理解できるとのこと。具体的なポリシー確認用ドキュメントとしてリンクを提示。EDIT: Googleが「Identity and Access Management Service Issue」によりGoogle Cloudで障害が発生していると告知
    • 私はExpoで通知中継機能を使っているが、今回のGoogle障害に関連してFCMも影響を受けたのか気になる
    • 複数のインターネットサービスが同時多発的にダウンしており、GCPだけの問題ではない。Chemistサービスが外部から特に大きな影響を受け、その結果として内部のGCPネットワークにまで障害の波及効果が出たのではないかとの推測
  • Claude Sonnet 4 (Cursor) とGemini Proを使っていたが多数のエラーが発生し、2024年12月に戻って原始人のようにコードを100%自分で書かなければならない状況を嘆く声
    • 私もAI Studioで同じ問題を経験し、「ユーザー割り当て量超過のためコンテンツ生成に失敗しました」という案内メッセージが出た
    • Cloud Storageへのファイルアップロードを試していたが、今は散歩に行くのにちょうどいいタイミングだと判断
    • CursorのAuto Agentモードでも同様のエラーが発生
    • 2025年6月12日以前の開発者: 「AI? 幻覚製造機なだけで、私の代わりにはならない!」 / 2025年6月12日の障害中の開発者: 「AIがないと私は奴隷ってことか?」というジョーク
    • Autoモードに切り替えるとまだ使えるというTipsの共有
  • Cloudflareでも障害が発生中。Cloudflare statusでは各種サービス(Access、WARP、Durable Objects(SQLベース)、Workers KV、Realtime、Workers AI、Stream、Cloudflareダッシュボードの一部)で断続的な障害が発生していると案内し、影響評価を継続更新中。関連するHacker Newsの議論も共有
    • CloudflareがGCPに依存しているなら、今回の障害はとてつもない事態だという反応
    • リンクの動作が不安定だったという意見と、一瞬空になっていた現象への言及
  • 18:43 UTC時点でほぼすべてのサービスが障害状態。downdetectorへのリンクを共有
    • このサービスのチャートも内部的にはGCPでデータ収集していたようだ。Google担当者と通話中に誰かがAWSも落ちたと言っていて、私は確認もせず「BGP攻撃じゃないか?」と推測で発言したことを反省
    • 「すべてのサービスがGoogleのサービスなのか?」という質問
    • Google障害がAWSやMicrosoft 365にも影響するとは予想していなかったという意見
    • 今回のような大事件ではDowndetectorは100%虚偽情報の発生源だという主張
    • おそらくこの検知ロジックもGoogle Cloud上で動いているのではないかというジョーク
  • ステータスページはどれも正常(緑表示)なのに、実際には多数の障害報告が発生中。Google Cloud障害モニター
    • ステータスページの存在意義に疑問。10万人以上のユーザーがGoogle Meetを使えない状況が報告されており、大企業が実情をステータスページに反映しないなら存在する意味がないとして、関連するGoogle Apps StatusおよびGCP Status Pageも追加共有。EDIT: 投稿から1分以内にGCPステータスページが更新され、Cloud Data Fusion、Cloud Memorystore、Cloud Shellなど多数のサービス障害が表示された
    • 今回の障害に関する公式案内リンク
    • 現在はconsole、dataproc、GCS、IAM、Identity Platformなどへの影響状況の更新案内リンク
    • うちの会社でも数百人がリモート勤務中だが、Google Meetingsへの接続で90%以上が504エラーになった経験
  • Cloudflare障害もたった今更新され、Workers KVなどの必須サービスがサードパーティサービスの障害でオフラインになり、それに依存していたCloudflare製品の情報提供に直接的な影響が出ている
  • Firebase Authもダウンして多くのアプリに影響。DiscordやSlackのコミュニティでも多数のユーザーが同時に経験したと報告されており、30分近くステータスページに何も出なかったことへの失望が語られている。Firebase Status
    • ようやくステータスページが更新。おそらく内部障害のせいでステータスページへの反映も遅れた影響
  • 今回の障害でRCSメッセージも一緒にダウンし、技術またはインフラ設計が脆弱だったことをはっきり示した
    • RCSも結局はインスタントメッセージングにすぎないのでは? だから障害も驚くことではないという反応
    • だから今日、両親から犬の写真を受け取れなかった理由が説明できた
    • さっきRCSチャットが失敗した原因の答えが見つかって驚いた
    • Erlangを使うべきだったというジョーク
  • BGPルーティング異常の確認に向いた良いダッシュボードを探しており、Cloudflare Radar Routingを参考にしているが、実際の経路リークが表示されないため追加でおすすめのダッシュボードを質問
    • Cloudflare Radarは初めて知ったが素晴らしいサービスだという反応。ただし現在の障害の影響でダッシュボード自体にも一部動作問題が出ている可能性があるとして、例としてRIPE AtlasIHRグローバルレポートIHRネットワークBGP He.netIODAダッシュボードを推薦
    • 私が普段使っているのはbgp.toolsだが、そもそも今回の障害がなぜBGP原因だと思ったのか気になる
    • 私も新人なので気になるのだが、「Announced IP Address Space」の区間が突然大きく跳ねる現象は平常時にもあることなのかという質問
    • BGP攻撃の疑いを提起
  • Hacker Newsがこのような複雑なインフラとは無関係に、単一のベアメタルサーバーで動いているので助かるというユーモラスな意見