- Fly.ioは独自ハードウェアを使用するパブリッククラウドを構築中であり、GPUを活用したAI/ML推論の提供を目標にFly GPU Machinesを開発した
- Fly GPU MachinesはDocker/OCIコンテナを実行するVMで、NVIDIA GPUを直接マッピングして高速なCUDA演算を可能にするよう設計されている
- AI/MLの重要性は予想以上に大きかったが、GPU製品は市場のニーズを十分に反映できていなかったようだ
GPU導入の技術的困難
- Fly GPU MachinesはFirecrackerではなくIntelのCloud Hypervisorを使用し、PCIパススルーをサポートするよう設計された
- NVIDIAのエコシステムはマイクロVMハイパーバイザーをサポートしておらず、GPUのセキュリティと性能最適化が難しかった
- GPUはセキュリティチームの懸念対象であり、多方向DMA(Direct Memory Access)転送やユーザー制御の演算が可能なため、高いセキュリティリスクをもたらした
- GPUと非GPUワークロードを分離するために別個のサーバーハードウェアを使用し、コスト効率の悪い構成が発生した
- セキュリティ検証のため、AtredisおよびTetrelと大規模なセキュリティ評価を実施し、高い費用と時間を要した
技術的な試行錯誤
- NVIDIAが推奨した方式(K8sクラスター構築またはQEMU使用)には従わず、Fly Machinesの高速な起動速度を維持しようと試みた
- NVIDIAの仮想GPU(vGPU)ドライバーをIntel Cloud Hypervisorで使おうとしたが失敗した
- NVIDIAの閉鎖的なドライバー環境のため、GPUを効率的に活用できる構造を作るのが難しかった
- GPUを活用したモデル重みの読み込み最適化が必要だったが、開発者体験(DX)を維持しながら解決するのは難しかった
- 多数のGPUを購入したが、期待したほどの成果は得られなかった
GPUビジネスモデルが失敗した理由
- 一般の開発者はGPUよりもLLMを求めている
- AI/MLモデルの最適化より、OpenAIやAnthropicなどのLLM APIを活用する方が簡単で、性能差もそれほど大きくない
- ほとんどの開発者は「1秒あたりのトークン数(tokens per second)」単位の性能を重視しており、GPUが提供するミリ秒単位の最適化にはあまり関心がない
- 大規模なAI作業を行う企業は膨大なGPU演算能力を必要としており、単一のA100 GPUでは不足する
- 大規模AI研究所や企業はSXMベースのH100クラスターを求めている
- 軽量なML作業向けの小型GPU市場が存在する可能性はあるが、NVIDIA MIGを完全仮想化環境で活用するのは難しい
- L40S GPUは有用に使われているが、Fly.ioの中核ビジネスの成長要因にはならなかった
得られた教訓
- 初期(2022年)には多様なAIモデルが登場すると予想していたが、現在はOpenAIやAnthropicなど少数のLLMモデルへと収束している
- Fly.ioは「10,000人の開発者のための機能を設計する」という原則に従っている
- GPUは10,001人目の開発者のための機能にすぎず、主要製品として定着しにくかった
- スタートアップは何度もの挑戦を通じて学ぶものであり、GPU導入は失敗した賭けの一つだった
- GPU関連投資がすべて損失になったわけではなく、一部のハードウェアは後に売却可能である
- Fly Machinesのセキュリティと開発者体験を維持しながら、GPUサポートを縮小する方向へ調整できる
- Fly.ioの初期製品だったJavaScriptエッジコンピューティングランタイムも市場に求められず、最終的にコンテナ対応へ転換したように、GPUも市場の必要に合わない選択だった
- スタートアップはしばしば誤った前提を通じて正しい答えを見つけていき、今回のGPUの事例もその過程の一つだった
1件のコメント
Hacker Newsの意見
開発者はGPUやAI/MLモデルよりもLLMsを求めている。システムエンジニアはCUDAやGPUを気にするが、ソフトウェア開発者はそうではない
git pushだけで済ませたいのであって、DNSやLinuxのようなものを理解したがらない2012年以降、ムーアの法則は事実上終わった。シングルスレッド実行は2GHzで頭打ちになった
fly GPUマシンは非常に高速で信頼性が高く、代替手段と比べて価格も高くない
4090を購入したが、24GBのVRAMでは十分ではない
Flyを選ぶ顧客は、専用GPUサーバーを長期間使う最後の人たちになるだろう
GPUスライスがないのは残念である。月額1,000ドルのコストを正当化するのは難しい
「私たちは間違っていた」という言葉は、英語で最も高潔で美しい言葉の1つである
Fly.io はCloudflareのWorkersプラットフォームに似た開発者を引きつけている
Runpodでサーバーレスエンドポイントを設定するのに1か月かかり、高価で信頼性も低かった