Cloud Run GPU が正式サポートに — すべての人にとって AI ワークロードの実行がより簡単に

(cloud.google.com)

1 ポイント投稿者 GN⁺ 2025-06-05 | 1件のコメント | WhatsAppで共有

Cloud Run で GPU が正式サポート（GA）されたことで、AI ワークロードの実行がさらに容易に
Cloud Run jobs でも GPU を利用できるようになり、バッチ処理や非同期タスクに新たな可能性を提供
画像処理、自然言語分析、メディア変換など、大規模バッチ処理に最適化された環境

Cloud Run GPU の正式提供と主な変化

Cloud Run jobs で NVIDIA GPU のサポートを開始

Cloud Run の GPU 機能は、これまではリアルタイム推論のようなリクエストベースのサービスで活用されていた
今回、Cloud Run jobs でも GPU サポートが正式化され、新たな活用事例が可能に
- モデルのファインチューニング: 事前学習済みモデルを特定のデータセットに合わせて手軽に再学習可能
- バッチ AI 推論: 画像分析や自然言語処理、推薦生成といった大規模タスクに適している
- 大規模メディア処理: 動画トランスコーディング、サムネイル生成、画像変換などを GPU を活用して効率的に処理可能
GPU を搭載した Cloud Run job は、作業完了後に自動でリソースを縮小し、管理負担を最小限に抑える

初期導入企業の実体験

vivo: Cloud Run は AI アプリケーションの反復開発を加速し、運用・保守コストを大幅に削減。GPU のオートスケーリング機能が海外市場での AI 活用効率を飛躍的に高めた
Wayfair: L4 GPU は高い性能と手頃な価格帯を両立しており、Cloud Run の高速オートスケーリングと組み合わせることで、コストを約 85% 削減した経験がある
Midjourney: Cloud Run GPU は大規模画像処理に非常に有用で、シンプルで明快な開発環境のおかげで、インフラ管理の負担なくイノベーションに集中できる。GPU のスケーラビリティにより、数百万枚の画像の分析と処理が容易になる

開始方法とリソース

Cloud Run の GPU サポートにより、次世代アプリケーション開発に適した環境が整った
公式ドキュメント、クイックスタートガイド、最適化のベストプラクティスを通じて、誰でも簡単に始められる
GPU が適用された Cloud Run job のプライベートプレビューへの参加申請も可能

結論

Cloud Run の GPU 正式サポートは、AI、大規模バッチ処理、メディア変換など、さまざまな専門ワークロードに画期的な拡張可能性を提供する
コスト、運用効率、スケーラビリティに至るまで、多様な利点を実際の企業が証明している
シンプルな設定と多様な学習資料をもとに、誰でも簡単にクラウドベースの GPU ワークロードを始められる

1件のコメント

GN⁺ 2025-06-05

Hacker Newsの意見

私は Google Cloud Run が本当に好きで、最良の選択肢として積極的に勧める立場です。ただし Cloud Run GPU は勧めにくいと考えています。インスタンスベース課金は非効率で、GPU オプションも限られています。モデルを GPU メモリにロード／アンロードする際の性能低下により、サーバーレス環境では遅いという限界があります。実際のコストを比べると、1日30%だけ使う場合でも VM+GPU の組み合わせのほうが経済的という計算です。(関連ブログリンク)
- Google の副社長です。フィードバックをありがとう。現在の価格構造では、サービス容量をほぼ固定で必要とする場合、VM を事前にプロビジョニングしたほうがコスト効率が高いという点には一般的に同意します。一方で Cloud Run GPU は、ピーク需要が突然発生する新製品や AI アプリのように、最小限のアイドルコスト、非常に速い起動、まれで不規則なトラフィックに合う環境向けに最適化されていると考えています
- Cloud Run は本当に素晴らしいサービスだという印象です。AWS の ECS/Fargate よりはるかに扱いやすいという経験があります
- GCP で VM を信頼して使えないことが最大の問題です。主要クラウドにはどこもこうした問題があります。AWS では 80GB GPU を長期予約なしで確保できず、価格も法外です。GCP も同様に高価で可用性が低いです。大企業はスタートアップフレンドリーだと言いますが、実際の経験はそうではありません。runpod、nebius、lambda などのネオクラウドのほうがはるかに良いサービスを提供しています。大手クラウドは固定需要に安住し、スタートアップに配慮していないため、長期的な成長に大きな打撃を与える失策をしていると思います
- Cloud Run では逆の経験をしました。原因不明のスケールアウト／再起動のため、結局有料サポートを直接購入して問い合わせましたが、答えは得られませんでした。最終的には自分で VM のセルフマネージド運用に切り替えました。その後改善されたかはわかりません
- Cloud Run が最高だという意見については、実際に数値を確認したい立場です。おもちゃのようなプロジェクトには良いですが、実務ではコストの落とし穴です。プロジェクトの中でオートスケールの問題が継続的に発生しました。scale to zero は理論上は良さそうに見えますが、実際にはウォームアップの過程で1つのリクエストに対して複数のコンテナが立ち上がり、長時間維持されることがよくあります。目に見える CPU やネットワーク使用がない原因不明のコンテナにも課金され続けます。Java や Python のプロジェクトでは cold start が深刻に遅く、Go/C++/Rust は経験がないのでよくわかりません
大手クラウドの複雑さに加えて、無制限の YOLO（無差別）課金で一晩のうちにクレジットカードが空になる危険まである、という懸念があります。Modal と vast.ai に留まるつもりです
- 個人／小規模プロジェクトの利用者の立場では、コスト上限（CAP）を提供しないことは GCP の大きな弱点です。Cloud Run の場合は同時実行数（concurrency）制限、インスタンス数制限を通じて間接的にでもコストを防ぐことはできます。それでも完全な CAP には及びません
- AWS でインスタンス停止を忘れて高額請求になった記憶があるので、Cloud Run の scale to zero と秒単位課金は大きな利点です。起動が本当に速いなら、私のワークロードには完璧だという確信があります
- Cloud Run では最大インスタンス数の設定によって最大コストを間接的に制限できます。App Engine 時代の「ハードキャップ」は、サービスが実際に注目された瞬間（たとえば HN に載ったとき）に完全停止してしまう副作用がありました。個人的にはアラートベースの予算管理のほうが良い選択です
- 私が実際に Datadog を本番環境で捨てた理由もまさにこれです。プラットフォーム側が、ユーザーが誤って超過請求されて受ける悪印象を甘受するだけの価値があるのか疑問です
- Modal や vast.ai がどうやって YOLO 課金を防いでいるのか明確ではありません。前払い方式なのか、直接的な CAP を提供しているのか気になります
実際に価格を比較すると、確かにメリットを感じにくい印象です。Google、runpod.io、vast.ai の時間単価を具体的に表に整理すると:
```
  1x L4 24GB:  google: $0.71, runpod.io: $0.43, スポット: $0.22  
  4x L4 24GB:  google: $4.00, runpod.io: $1.72, スポット: $0.88  
  1x A100 80GB: google: $5.07, runpod.io: $1.64, スポット: $0.82, vast.ai $0.880, スポット: $0.501  
  1x H100 80GB: google: $11.06, runpod.io: $2.79, スポット: $1.65, vast.ai $1.535, スポット: $0.473  
  8x H200 141GB: google: $88.08, runpod.io: $31.92, vast.ai $15.470, スポット: $14.563
```
Google の価格は月間 24/7 稼働基準のように感じますが、runpod.io と vast.ai は秒単位課金です。Google GPU のスポット料金は見つけられませんでした
- 「Compute インスタンスの作成」でスポット料金をすぐ確認できます。たとえば GCP で 1xH100 spot は1時間あたり $2.55 で、長期利用するほど割引が適用されます。実際の企業顧客ならこうした価格もさらに割引可能でしょう。一般ユーザーだけがこの定価で払っています
- vast.ai の料金の出典が気になります。ホームページ基準では 8xH200 オプションの大半は1時間あたり $21.65 以上に見えます
- Google の価格設定が 24/7 前提だという根拠は何でしょうか。Cloud Run の公式料金ページを見ると、実際の使用量だけを100ミリ秒単位で課金し、オートスケーリングでもアイドルインスタンスは15分待機後に自動縮小されると説明されています（Cloud Run PM）
- Cloud Run GPU では 1xL4 しか選べないのではないか、という疑問があります
- Google の価格も秒単位課金なら、20分未満の利用ではむしろ Google のほうが有利かもしれないという意見です
私は Modal の熱烈なファンで、serverless scale-to-zero GPU を長く使っています。必要なときに大規模へ簡単にスケールアップでき、同時に開発負担も大幅に少ないです。大手プロバイダーがこの市場に参入してくるのは興味深いです。Modal に移ったきっかけも、既存の大手クラウドではこうした機能（AWS Lambda では GPU 非対応）が提供されていなかったからです。今やすべての主要クラウドがこの方向へ進むのか気になります
- Modal は本当に素晴らしいです。自社で公開した LP（線形計画）ソルバーの深い技術解説も印象的でした。Python 開発者なら Coiled もおすすめです。Modal ほど速くはありませんが、GPU VM を簡単にスピンアップでき、すべて自分のクラウドアカウント上で動作します。CUDA ドライバ／Python ライブラリの同期など、便利なパッケージ管理も提供します。（参考: Coiled 所属ですが、本気でおすすめです）
- HIPAA 準拠ワークロードまでサポートする点も予想外の長所です
- Modal の cold start 速度は 10GB 以上のモデル基準で最速です
- Modal のドキュメントも非常によく整理されている点が印象的です
Cloud Run が他サービスより優れている最大の理由は、オートスケールと scale-to-zero です。実際に使われていないときは実質的に課金が 0 で、インスタンス最大数を指定して最大コストも安定して管理できます。ただし、CPU 版だけを使う前提で、非常に信頼性が高く使いやすいです
- ただし通常の Cloud Run でも cold start の起動時間が長いとき（約 3〜30秒）が多く、scale-to-zero を活用すると遅延の問題があります
欧州の小規模 GPU クラウド事業者 DataCrunch（無関係）は RunPod などより安く Nvidia GPU VM を提供しています

1x A100 80GB 1.37ユーロ/時間
1x H100 80GB 2.19ユーロ/時間
- lambda.ai では 1x H100 80GB VM が1時間あたり $2.49 で提供されています。為替レートでちょうど 2.19ユーロです。これは偶然なのか、それとも業界に見えない上限があるのか気になります
- Vast.ai では P2P 方式で 2x A100 を $0.8/時間で使えます（つまり A100 1台あたり $0.4/時間）。私は単なる満足した利用者にすぎません。ネットワーク速度には注意が必要です。一部のホストは帯域を共有しているため、実際の速度が広告と異なることがあります。大容量データを移動する際は注意が必要です
Cloud Run/GKE 担当の VP/GM です。これについて質問を受ける準備ができています。大きな関心を寄せてくれてありがとう
Cloud Run は好きで、新機能も興味深く見ています。ただ残念なのは、self hosted GitHub runners を動かしたくても root 権限の問題でサポートされていなかったことです。また、新たに導入された worker pool 機能も実運用では scaler を自分で書く必要があり、組み込み機能ではなかった点です
- Serverless および Worker Pools Autoscaling 担当の Eng Manager です。現在ロードマップを積極的に定義しているところで、実際のワークロードの利用例をメールで知らせてもらえると大変助かります。worker pools とスケーリングが必要なワークロードについて意見をお待ちしています
vertex.ai でモデルをテスト用に動かし続けて、停止し忘れて $1000 請求された経験があるので、今回は Cloud Run が私の go to サービスになりそうです。何年も Cloud Run で本番マイクロサービスと趣味プロジェクトを運用しており、シンプルさとコスト効率の両方に満足しています
もし理解が正しければ、Hugging Face のような任意のモデルを立てた API を作れ、トークン単位課金ではないものの、利用負荷が低ければかなり安く運用できるという判断です。実際そうなら大きな革新です。既存の大半のプロバイダーはカスタムモデルを運用するには月額サブスクリプションを要求します
- 基本的にはその理解で合っています。ただし cold start は非常に遅い場合があります（30〜60秒）。これが scale to zero の欠点です。また、コンテナ保存などいくつかの少額な月額料金も発生する点に注意してください
- Runpod、vast、coreweave、replicate など、サーバーレス GPU 推論をサポートするさまざまな代替手段があります

Cloud Run GPU が正式サポートに — すべての人にとって AI ワークロードの実行がより簡単に

Cloud Run GPU の正式提供と主な変化

Cloud Run jobs で NVIDIA GPU のサポートを開始

初期導入企業の実体験

開始方法とリソース

結論

関連記事

1件のコメント

Hacker Newsの意見