GPUに関する誤解

(fly.io)

7 ポイント投稿者 GN⁺ 2025-02-15 | 1件のコメント | WhatsAppで共有

Fly.ioは独自ハードウェアを使用するパブリッククラウドを構築中であり、GPUを活用したAI/ML推論の提供を目標にFly GPU Machinesを開発した
Fly GPU MachinesはDocker/OCIコンテナを実行するVMで、NVIDIA GPUを直接マッピングして高速なCUDA演算を可能にするよう設計されている
AI/MLの重要性は予想以上に大きかったが、GPU製品は市場のニーズを十分に反映できていなかったようだ

GPU導入の技術的困難

Fly GPU MachinesはFirecrackerではなくIntelのCloud Hypervisorを使用し、PCIパススルーをサポートするよう設計された
NVIDIAのエコシステムはマイクロVMハイパーバイザーをサポートしておらず、GPUのセキュリティと性能最適化が難しかった
GPUはセキュリティチームの懸念対象であり、多方向DMA（Direct Memory Access）転送やユーザー制御の演算が可能なため、高いセキュリティリスクをもたらした
GPUと非GPUワークロードを分離するために別個のサーバーハードウェアを使用し、コスト効率の悪い構成が発生した
セキュリティ検証のため、AtredisおよびTetrelと大規模なセキュリティ評価を実施し、高い費用と時間を要した

技術的な試行錯誤

NVIDIAが推奨した方式（K8sクラスター構築またはQEMU使用）には従わず、Fly Machinesの高速な起動速度を維持しようと試みた
NVIDIAの仮想GPU（vGPU）ドライバーをIntel Cloud Hypervisorで使おうとしたが失敗した
NVIDIAの閉鎖的なドライバー環境のため、GPUを効率的に活用できる構造を作るのが難しかった
GPUを活用したモデル重みの読み込み最適化が必要だったが、開発者体験（DX）を維持しながら解決するのは難しかった
多数のGPUを購入したが、期待したほどの成果は得られなかった

GPUビジネスモデルが失敗した理由

一般の開発者はGPUよりもLLMを求めている
- AI/MLモデルの最適化より、OpenAIやAnthropicなどのLLM APIを活用する方が簡単で、性能差もそれほど大きくない
- ほとんどの開発者は「1秒あたりのトークン数（tokens per second）」単位の性能を重視しており、GPUが提供するミリ秒単位の最適化にはあまり関心がない
大規模なAI作業を行う企業は膨大なGPU演算能力を必要としており、単一のA100 GPUでは不足する
- 大規模AI研究所や企業はSXMベースのH100クラスターを求めている
軽量なML作業向けの小型GPU市場が存在する可能性はあるが、NVIDIA MIGを完全仮想化環境で活用するのは難しい
L40S GPUは有用に使われているが、Fly.ioの中核ビジネスの成長要因にはならなかった

得られた教訓

初期（2022年）には多様なAIモデルが登場すると予想していたが、現在はOpenAIやAnthropicなど少数のLLMモデルへと収束している
Fly.ioは「10,000人の開発者のための機能を設計する」という原則に従っている
- GPUは10,001人目の開発者のための機能にすぎず、主要製品として定着しにくかった
スタートアップは何度もの挑戦を通じて学ぶものであり、GPU導入は失敗した賭けの一つだった
GPU関連投資がすべて損失になったわけではなく、一部のハードウェアは後に売却可能である
Fly Machinesのセキュリティと開発者体験を維持しながら、GPUサポートを縮小する方向へ調整できる
Fly.ioの初期製品だったJavaScriptエッジコンピューティングランタイムも市場に求められず、最終的にコンテナ対応へ転換したように、GPUも市場の必要に合わない選択だった
スタートアップはしばしば誤った前提を通じて正しい答えを見つけていき、今回のGPUの事例もその過程の一つだった

1件のコメント

GN⁺ 2025-02-15

Hacker Newsの意見

開発者はGPUやAI/MLモデルよりもLLMsを求めている。システムエンジニアはCUDAやGPUを気にするが、ソフトウェア開発者はそうではない
- ソフトウェア開発者の間には大きな分断がある。コードがどこで実行され、どのように動作するかを理解したい人もいる
- 別のグループは git push だけで済ませたいのであって、DNSやLinuxのようなものを理解したがらない
- fly.io のような会社は後者にとって魅力的で、GPUインスタンスは前者にとって魅力的である
- 2つの市場には異なるアプローチが必要である。後者には抽象化と自動化を多く売ることができる
2012年以降、ムーアの法則は事実上終わった。シングルスレッド実行は2GHzで頭打ちになった
- 2012年から2022年にかけてクラウドへ移行したことで、シングルスレッドの停滞に気づかなかった
- 2022年、データセンターは、より多くのコアを持つ次世代チップを購入する必要がないことに気づいた
- LLMsは100%並列処理可能なので、再び資本を投じることができる
- 2024年にはウェハースケールシリコンが登場する。LlamaモデルをA100より10倍速く実行できる
- ソフトウェアはこの性能を活用する方法を見つける必要がある
fly GPUマシンは非常に高速で信頼性が高く、代替手段と比べて価格も高くない
- DXが素晴らしい。新しいコマンドを覚える必要がない
- 価格がもっと安くなり、より多くの地域で使えるようになってほしい
4090を購入したが、24GBのVRAMでは十分ではない
- 3090を2枚以上とカスタム電源ユニットのほうが良かっただろう
- 性能も品質もまだ不十分である
Flyを選ぶ顧客は、専用GPUサーバーを長期間使う最後の人たちになるだろう
- サーバーレスソリューションを使う可能性が高い
GPUスライスがないのは残念である。月額1,000ドルのコストを正当化するのは難しい
- AMDのコンシューマー向けGPUをRaspberry Piに接続するほうが経済的かもしれない
「私たちは間違っていた」という言葉は、英語で最も高潔で美しい言葉の1つである
Fly.io はCloudflareのWorkersプラットフォームに似た開発者を引きつけている
- PaaS環境の開発速度を求めている
- CloudflareはGPUとともにPaaSアプローチを維持しつつWorkers AIを構築した
Runpodでサーバーレスエンドポイントを設定するのに1か月かかり、高価で信頼性も低かった
- Google Cloudクレジットを使って、顧客に製品を提供できた
- GPUプロバイダーへの需要はある。Flyがこの市場に参入できるかどうかは定かではない

GPUに関する誤解

GPU導入の技術的困難

技術的な試行錯誤

GPUビジネスモデルが失敗した理由

得られた教訓

関連記事

1件のコメント

Hacker Newsの意見