サンフランシスコ・コンピュート: スタートアップ向けに512台のH100を時間単価2ドル未満で提供

(sfcompute.org)

2 ポイント投稿者 GN⁺ 2023-07-31 | 1件のコメント | WhatsAppで共有

複数のスタートアップや研究所が 共同でGPUクラスターを購入 し、大規模モデル学習に必要な計算資源を一緒に確保する方式
個別にN台のGPUを買う代わりに、K社のスタートアップが集まって N×K規模のクラスター を共同購入
ジョブスケジューラ が持分に比例して計算資源を公平に配分し、遊休計算資源が出れば追加で割り当て
128台のA100を1か月ずっと埋める代わりに、1週間だけ 512台のA100へバースト でき、モデルをより速く学習可能
OpenAI、DeepMindのような大規模研究所だけが享受していた バースト割り当て方式 をスタートアップにも提供する構想

核心アイデア

K社のスタートアップが各自でN台のGPUクラスターを買う代わりに、共同で N×K台のGPUクラスター を購入
ジョブスケジューラ を置き、各スタートアップが保有する持分に比例して計算資源を公平に配分
遊休計算資源が発生した場合はスケジューラがそのまま割り当てるため、運が良ければ自分の持分以上の計算資源を使える
128台のA100を1か月間常時埋める代わりに、1週間だけ 512台のA100までバースト してモデルをより速く確保
OpenAI、DeepMindのような大規模研究所は、研究者向けのバースト割り当てを支える大規模クラスターを保有
- 一方でスタートアップはこれまで、非常に長期の契約 でごく小さなクラスターしか確保できず、数か月待ちで、常に高稼働を維持する必要があった
バースト割り当てと短期契約を適用しつつ、H100あたり約$2.00 を目標
参加希望のスタートアップは申込フォームを記入、問い合わせは evan@roomservice.dev までメール

参加・離脱・拡張

ハッカーハウスのように、クラスターを離れる場合（例: 自前のクラスターを構築する場合）は、他の参加者で枠を埋められるよう 1〜2か月前の通知 が必要
新規スタートアップは バッチ単位 でグループに追加し、数か月ごとにクラスターへ新しいH100を追加
すでにグループに属している企業が計算資源を拡張したい場合も同様に適用
多少の オーバープロビジョニング (overprovision) も考慮 — たとえば友人が小規模実験のために数ノード欲しい場合、良い価格ですぐ提供可能
- 10%のオーバープロビジョニングでは、H100の時間単価が10%上昇

財務

512台のH100 を4〜6週間以内に稼働させられる有力なルートを確保
これを超える需要があれば、約8週間以内に追加のH100を確保可能
銀行から有利な条件でクラスター購入費用を分散できるため、短期契約とバースト割り当てを維持しつつ H100あたり$2.00 水準を実現可能

インフラ

インフラのデバッグ用メーリングリスト/Slack を共有し、InfiniBandなどの問題が発生した際にグループへ質問可能
同じ問題を扱ったことのある人がいれば、互いに支援を提供

1件のコメント

GN⁺ 2023-07-31

Hacker News のコメント

成功してほしい。TPU Research Cloud（TRC） が2019年にこうした試みをしていて、それが自分が始められたきっかけだった
2023年には TPU を1つ1時間以上確保するのも難しいが、当時は文字どおり数百個を受け取ることができた。TRCを信じていたし、規模を拡大して TPU の大陸を作れば解決すると思っていたが、結局 TPU 時間は社内研究者に優先配分され、減っていった。いま H100 で GPT にチェスを学習させたいと提案したら笑われるほど、世の中は変わってしまった
このプロジェクトには、失ってほしくない若い楽観主義があり、長期的にはそれこそが勝つ方法なのかもしれない。誰かが突拍子もないアイデアで H100 のごく小さな一片を使わせてほしいと頼みに来たら、受け入れてほしい。自分が何者かになれた唯一の理由がそれだった
- 「プロジェクトに若い楽観主義がある」という言葉は、これまで聞いた中でいちばんいい。額に入れて壁に飾りたいくらいだ
  H100 の小さな一片を求める突拍子もないリクエストも、もちろん受け入れるつもりだ
- 実は TPU Research Cloud プログラムはいまも順調に運営されている。計算資源のプールを大きく拡張し、Cloud TPU v4 Pod slice も含めるようになったし、大きなプロジェクトでは今でも一度に数百チップを使っている。TRC の容量が社内用途に回収されたわけではない
  最近の TRC 支援論文の一覧は https://sites.research.google/trc/publications/ で見られる
  Cloud TPU の需要が非常に強いため、プリエンプティブル容量を使うと中断が以前より頻繁に見えるかもしれないが、予約容量も利用できる。TRC サポートチームに連絡してみるといい
- 驚いたことに、ようやくその光を見た気がする。以前の投稿では TRC への称賛ばかり見ていたが、もっと遅く始めた立場としては、自前のゲーミング GPU のほうがはるかに多くの成果を出せた
  比較対象が完全に同じではないが、TRC は扱うのが非常に難しく、TPUv3 へのアクセスは一度きりで、基本を身につけるにも時間が足りなかった。どのメールアドレスを使うか、Twitter アカウントがどれだけ有名かによって状況が大きく変わるのだと理解した
- 私の経験は違った。申請が比較的簡単なことを考えると、今でもかなり気前がいいと思う。最近6か月の間に、複数のプロジェクトについて v3-8、v3-32 30日、プリエンプティブル v3-64 28日 を提案された
  学術機関に所属しているのか気になる。そうでないなら、なぜ私にはより手厚かったのか分からないし、私のプロジェクトもせいぜい少し興味深い程度だった。ただ、以前より大きな Pod にはかなり渋くなったのは確かだ
- Shawn の言うことは完全に正しい。いまは競争があまりに過熱していて、こうした余裕はない。1社の顧客が GPU 512個を3年間 持っていくこともあり得る
「各スタートアップ K 社が N 個の GPU クラスタを別々に買う代わりに、共同で NK 個の GPU クラスタを買い、ジョブスケジューラで計算を配分する」というのは、理論上は AWS や Azure のようなクラウド事業者のモデルとほぼ同じに見える
「全員が固定ハードウェアを個別に購入する代わりに、我々が巨大なハードウェアプールを買ってタイムシェアさせる」という構造だ。クラウド事業者が純利益率のために価格を上げなければならない点を除いて、こうしたプロジェクトが必要になるほど見落としているものが他にあるのか気になる
- 主に価格と可用性のためだ
  第一に、パブリッククラウドの投資家は特定のマージン構造を期待しているため、Lambda や Fluidstack のマージンと競争するのは難しい。第二に、大手クラウドは大規模言語モデルの学習向けネットワーキングでもある程度不利だ。Azure だけが InfiniBand を持っていると理解しており、Oracle は 3200Gbps だが InfiniBand ではなく、AWS も似たようなものだと思う。GCP は確かではないが、A100 のネットワーク速度は 1600Gbps ではなく 100Gbps だったと記憶している。一方で Lambda、Fluidstack、CoreWeave はいずれも InfiniBand を持っている。第三に、Nvidia が大手クラウドに望むだけの数量を割り当てていない
- 主要クラウドもこれをやっている。すべての大手クラウドが短期リクエスト/予約機能を準備中だ。生成AI以前には、それほど大きな用途のある機能ではなかった。1つのアベイラビリティゾーンで48時間、CPU ノード1000台を要求することがどれだけあっただろうか
  第二に、ここにはリソース共有という根本的な問題がある。Evan と AI Grant のこのプロジェクトでも、1チームがクラスタ全体を継続的に占有できるだけの資金を持っているなら、なぜ止めるのかという疑問が生じる。フェアユースの正確な基準は何かが問題だ。ネットワーキングには TCP fairness のような帯域共有アルゴリズムがあるが、こうした塊状のジョブにはうまく合わない
  今後数か月以内に AWS などは、計算資源の塊を一時的に割り当ててもらうキューサービスを出そうとするだろうし、おそらく前払いと高い費用が伴う可能性が高い。オンデマンド料金より高くなるかもしれない
- AWS と Azure は、顧客がインスタンスをまとめてコストを節約する方法を作るくらいなら、自分の首を切るほうを選ぶだろう
  彼らはそのプーリングを自分たちで行い、顧客関係と利益を仲介者や顧客に渡したくないのだ
カリフォルニア州の複数のコロケーションでインフラを運用した経験から言うと、可能なら別の場所に置くほうがいい。カリフォルニアの電力費とその他のインフラ費用は、アリゾナ州やネバダ州よりずっと高い
- 安い電力と CAD-USD 為替レートの利点まで考えると、Montreal が適していそうだ
- GPU 計算コストにおいて、電力はごく小さな割合に見える
「世界中のどのクラウド事業者も、わずか数週間だけ10万ドル分の計算資源を提供することはない」という文を見たが、非常に大規模な計算資源を買ったことはないものの、それこそがクラウドの核心だと思っていた
https://lambdalabs.com/とはどう違うのか気になる
- 私たちは中規模の計算をゼロマージンで運用する側です。Fortune 500企業に売るのではなく、大学院生が5万ドルの研究費を使えるようにするのが目標です
  今はA100/H100を数個確保するのはかなり簡単で、Lambdaもこの用途には素晴らしいです。しかし24個以上を妥当な価格、だいたい1時間あたり2ドルで確保するのは非常に難しいです。H100で8時間だけ学習を回したい場合でも、6か月以上の契約を求められることがよくあります
  GPUブローカーが長期予約を好むのはビジネスとしては正しい判断で、私たちもその立場ならそうするでしょう。ただ、私たちの目標は違います。反乱軍に武器を持たせることです。BigCorpではない誰かにもモデルを学習できるようにしたいのです
- 価格はかなり似ていますが、モデルはかなり違って見えます。重要な違いは、複数GPUで短い学習を頻繁に回す場合かもしれません。Lambdalabsが今すぐ256個のインスタンスを用意できない可能性があります
  元記事の方式は、512 GPUクラスタのジョブキューにジョブを入れる権利を買うことに近いので、256 GPUが必要なジョブでも問題にはなりません。ただし、512 GPUジョブを回している誰かの後ろで待つことはありえます
  Lambdalabsの実際の容量がどうなのかは分かりません。そこでインスタンスを2〜3個以上立ち上げるのがどれくらい簡単なのか、知っている人がいるのか気になります
- 通常、長期のリザーブドインスタンス契約をしない限り、H100は一度に数個しか受け取れません
- 契約なしで大きなブロックを得る実質的な方法はありません。記憶では、H100の最小契約はGPU 64個で3年、約300万ドルでした
- H100が1時間あたり2ドルなら、より柔軟に見えますが、こうしたサービスで1万GPU時間を確保したことはありません。おそらくそのあたりがボトルネックかもしれません
個人的にAIには非常に関心があり、数年にわたって関わってきましたが、今のようなGPU不足は見たことがありません。趣味で機械学習を試したい人にはvast.aiを強くおすすめします
- 追加のクラウドとして、H100とA100ではLambda、Fluidstack、RunPod、CoreWeave、Crusoe、Oblivus、Latitudeがあります
  A100/H100以外のGPUでは、vast、TensorDock、そしてRunPodも該当します
- 趣味の範囲をどう見るかにもよりますが、ツールや概念を学ぶためにT4を数分ずつ回す用途では、modal.comがかなり良かったです
  現在AWSとGCPを再販していてA100もありますが、今のところT4で十分です
- vast.aiはGPU向けのギグエコノミー型マーケットプレイスに近いです。さっき初めてマシンを使ってみましたが、うまく動作し、RAM 512GB、AMD CPU 256個、A100 GPUがあり、0.05ドルで約4分使えました。その金額も無料で提供されていました
AWS/GCP/Azureにオーバーヘッドがあり、多くの会社が運用でベアメタルを選ぶ理由も理解できます。個人的には時間と労力をかける価値があるケースは少ないと思っていますが、規模が大きければ削減額がかなり大きくなり得る点は納得できます
ただ、AI学習でもパブリッククラウドがバースト的な需要に対して競争力を持てないのだとしたら、彼らのマージンは予想よりずっと高いということです。元記事の10〜20倍のコスト削減は何と比較したものなのか気になります。AWS基準でしょうか
- AWSのp5.48xlargeはH100 8個で1時間あたり98.32ドルなので、H100 1個あたり1時間12.29ドルです。およそ6倍の価格です
SFが好きな立場として、名前に何か興味深い点があるのか気になります。ハードウェアが実際にSFに置かれるのか、ミートアップを開いたり顧客を集めて交流させたりする計画があるのかも気になります
まだXerces blueのように消えたわけではなく、私たちはまだ存在しています
https://en.wikipedia.org/wiki/Xerces_blue
- ハードウェアはSFには置かない予定です。最も安いデータセンター空間ではないためです
  ただ、顧客のかなり多くはこちらにいると思います。SFは今でもスタートアップをするにはおそらく最も良い場所です。難しい技術課題を解いている人が本当にたくさんいます。私がSFで住んだどの場所でも、上の階か下の階に別のスタートアップがありました
  オフラインイベントを開くのも良いアイデアです
コミュニティ資産というアイデアは良いですね。GPU協同組合の始まりになり得るでしょうか
- コンシューマー向けカードなら、すでにそうした形があります。vast.AIで自分のGPUから収益を得られます
  https://cloud.vast.ai/host/setup
- Twitter内部のインフラについてはまったく知りませんが、広告収入の減少やユーザーエンゲージメントの低下、Threadsへの流入といった状況を見ると、Twitterがインフラの一部をこうしたスタートアップ支援に使うこともあり得るのではないかと思います
  ラックスペース、VM、コンテナ、接続性など、何でもあり得ます。基本的にはTwitterが90年代後半のコロケーション事業者のように退化するということです
  気づかなかった人のために付け加えると、冗談です
H100を512個買うお金をどうやって用意したのか気になります
- 記事の最初の文に明確に書かれているとおり、彼らは投資したばかりのスタートアップのためにこれを行っているVC投資家で、他の参加者も探しています

サンフランシスコ・コンピュート: スタートアップ向けに512台のH100を時間単価2ドル未満で提供

核心アイデア

参加・離脱・拡張

財務

インフラ

関連記事

1件のコメント

Hacker News のコメント