- サンフランシスコ・コンピュートは、スタートアップと研究機関を集め、大規模モデルの学習向けコンピューティング資源を共同購入・共有するグループです。
- 各スタートアップが独自のGPUクラスターを購入する代わりに、このグループは参加するスタートアップ数に比例した総GPU数を持つクラスターを購入します。
- 所有権に基づいて、ジョブスケジューラがすべてのスタートアップに公正にコンピューティング資源を割り当てます。
- これにより、スタートアップは1週間にわたって512基のGPUを使ってモデル学習を迅速に進められ、1か月間128基のGPUを継続的に埋め続ける手間を避けられます。
- もし遊休のコンピューティング資源があれば、スケジューラはスタートアップに対して公正な割当量を超える資源を配分できます。
- このモデルは、OpenAIやDeepMindのような大規模研究機関で使われているものと似ていますが、通常は小規模クラスターと長期契約しか選べないスタートアップにとって、より利用しやすいものです。
- 目標は、H100 GPU 1基あたり約$2.00、バースト型の割り当てと短期契約付きでコンピューティング資源を提供することです。
- スタートアップはフォームに記入するか、主催者に連絡することでグループに参加できます。
- スタートアップは事前通知期間を経てクラスターから離脱でき、新しいスタートアップはバッチ方式で追加できます。
- このグループは、小規模な実験や、良い価格で友人たちのリクエストに応えるために、多少の過剰供給を行う場合があります。
- クラスター購入の資金調達は、銀行の支援を受けて分散できます。
- グループは4〜6週間以内に512基のH100 GPUをオンラインにする計画で、需要が高ければさらに多くの資源を追加できます。
- インフラのデバッグ用メーリングリストとSlackグループが提供され、メンバーはインフラ上の問題について支援を求められます。
1件のコメント
Hacker Newsのコメント