Cerebras Inference、Llama 3.1 405Bで毎秒969トークンを処理

(cerebras.ai)

3 ポイント投稿者 GN⁺ 2024-11-20 | 1件のコメント | WhatsAppで共有

大規模フロンティアモデルは通常、速度とレイテンシがボトルネックだったが、Cerebras Inference は Llama 3.1 405B の顧客ワークロードで毎秒969出力トークンを記録した
1,000トークンのプロンプト基準で、SambaNovaの8倍、最速のGPUクラウドの12倍、AWSの75倍速い結果となった
100,000トークン入力では6社のベンダーだけが結果を返し、Cerebrasは非GPUベンダーで唯一ベンチマークを完了して毎秒539トークンを達成した
最初のトークンまでの時間は 240ms で、GPT-4 から移行した顧客は全体のレイテンシが75%減少したと報告している
Llama 3.1 405B向け Cerebras Inference は現在顧客向けプレビューとして提供されており、2025年第1四半期の一般提供と、入力 $6/M・出力 $12/M トークン の価格設定が予定されている

Llama 3.1 405B の性能記録

Cerebras Inference は Llama 3.1 405B の実行で 969 output tokens/s を達成した
- 1,000トークンのプロンプト基準の結果である
- Artificial Analysis の測定基準で、出力速度、長いコンテキスト性能、最初のトークン時間で記録を打ち立てた
同じ比較では、Llama 3.1 405B on Cerebras は GPT-4o より 12倍、Claude 3.5 Sonnet より 18倍 速いと紹介されている
今年、Cerebras は Llama 3.1 8B と 70B を 2,000 tokens/s 以上まで引き上げた一方で、GPT-4o、Claude 3.5 Sonnet、Llama 3.1 405B のようなフロンティアモデルは GPU、ASIC、クラウドのいずれでも 200 tokens/s を超えられなかったと説明している
1,000トークンのプロンプト基準の比較は以下の通り
- SambaNova より 8倍速い
- 最速の GPU クラウドより 12倍速い
- AWS より 75倍速い
100,000トークン入力プロンプトでは 539 tokens/s を記録した
- 6社のベンダーだけが結果を返した
- Cerebras はベンチマークを完了した唯一の非GPUベンダーだった
- Fireworks より 11倍、AWS より 44倍速い

レイテンシ、提供時期、価格

Llama 3.1 405B向け Cerebras Inference は 240ms の最初のトークン時間 を記録した
- 最初のトークン時間は、実際のアプリケーションでユーザーが体感する中核的なレイテンシ指標である
- GPU ベースのソリューションでは、初期応答時間が数秒まで伸びることがある
GPT-4 から Cerebras Inference に移行した顧客は、全体のレイテンシが 75%減少 したと報告している
- 音声および動画 AI アプリケーションのように、リアルタイムなインタラクションが重要なユースケースでユーザー体験の改善につながる
Llama 3.1 405B向け Cerebras Inference は現在 顧客向けプレビュー として提供されている
- 一般提供は2025年第1四半期の予定である
- 価格は入力100万トークンあたり $6、出力100万トークンあたり $12 である
- 出力価格は AWS、Azure、GCP より 20%低い
Meta のオープンなアプローチと Cerebras の推論技術の組み合わせにより、Llama 3.1 405B はクローズドなフロンティアモデルより 10倍以上速く実行されるという説明である
- 低レイテンシと多くの推論ステップが重要な音声、動画、推論アプリケーションに適した基盤として紹介されている

1件のコメント

GN⁺ 2024-11-20

Hacker News のコメント

本当に驚くほど速い。8x H100 クラスターで自前実装した Llama 3.1 70B でも 100 トークン/秒を超えるのは難しいのに、どうやっているのか気になる。
一般的な手法、たとえば投機的デコーディングや FlashAttention だけでは近くにも届かなさそうで、少なくともマルチノード推論やスパースアテンションのようなものが必要に見える。
- Cerebras は約 100万コア CPU を作り、GPU ではなくその上で推論している。まったく別のアーキテクチャなので、ネットワークが介在しない。
  HBM よりも CPU キャッシュ側でかなりの部分を処理している可能性もある。チップ設計を理解するには、TechTechPotato の Cerebras 関連 YouTube 動画がおすすめ。
- 8x H100 より数倍大きい面積の カスタムシリコン で実現している。実行時/ランタイムの最適化も当然あるだろうが、核心的な違いは圧倒的なトランジスタ数だと思う。
  https://cerebras.ai/product-chip/
- チップが 皿ほどの大きさ。写真を見ると実感できる: https://cerebras.ai/product-chip/
- Cerebras はチップ企業で、GPU は使っていない。このチップは ウェハースケール集積を使っており、物理的にウェハー丸ごとの大きさで、GPU 数十個を一つにまとめたようなもの。
  オンチップメモリは限られており、すべて SRAM で、ウェハーあたりの HBM 帯域がどの程度かは明確ではない。GPU クラスターで動かすのとはまったく別の最適化問題だ。
- 大きな秘訣は二つ。チップがものすごく大きいこと、そしてメモリに SRAM を使っていて GPU の HBM よりはるかに速いこと。
  実際、これがここまで速い主な理由。Groq も同じ理由で速度が出ている。
ここでレイテンシを本当に同じ条件で比較しているのかはよく分からない。レイテンシは大まかに三つ、つまりコンテキスト/プロンプト処理量、ハードウェアアクセスを待つ キュー時間、ネットワークのような一般的な API オーバーヘッドに分かれる。
比較対象のサービスのうち複数、もしかすると全部が予約済み容量ベースではないため、測定値にキュー時間が含まれていると理解している。LLM ではこの時間がかなり大きくなり得る。一方で Cerebras の数値は、保証されたハードウェアアクセスを得ていた可能性が高く、無限に伸び得るキュー時間はほとんど含まれていないように思う。
スループット自体はすごいが、エンドユーザーに低レイテンシでそのスループットを提供するには過剰プロビジョニングが必要で、キューがそこにどう影響するかは不明。また、モデルがすでに準備されたマシンを基準にしているのか、必要時のモデルロード時間まで含むのかも気になる。ファインチューニングモデルを使うとレイテンシが変わるのかも見る必要がある。
Cerebras マシンを 100% 活用しながら継続的に 1,000 トークン/秒を出せるバッチ処理には、明らかに有利に見える。
- 全員が理想的な条件だと仮定してもすごい。バッチサイズ 1 で、405B パラメータモデル が 1,000 トークン/秒なんて、信じられないほど速い。
現世代モデルに RAG、マルチエージェント、コードインタープリタまで組み合わせてできることを見ると、いまや壁は精度ではなく モデルレイテンシ に近い。
405B 級モデルでこの程度のトークン処理量が出るなら、可能になるインタラクティブな体験は非常に多い。
- ルールブックが障害対応にどう役立つのかよく分からない。障害は毎回新しいものであるべきだと思う。根本原因を直すからだ。
  だから毎回コードや最近デプロイされたコードを掘り下げ、運用指標との相関を見る必要がある。あるいは、そのルールブックが単なるロールバック手順という意味なのか気になる。
明確にしておくと、Cerebras のチップ 1 個は ウェハー全体を使っていながら、その上の SRAM は 44GB しかない。bf16 精度で 405B モデルを載せるには、KV キャッシュとアクティベーションメモリを除いても、こうした「チップ」が 19 個必要になる。
シーケンス長が伸びると KV キャッシュのために要求量はさらに増える。調べると、ウェハー 1 枚に H100 チップを 60〜80 個ほど載せられるらしいので、ウェハー製造コスト基準では H100 を 1,500 個以上使うのに近い。
- これらの企業がこの技術に投じている予算は本当に想像を超えている。
- ウェハーコストが実際のチップ価格で大きな比重を占めるのか気になる。
本当に印象的な性能だ。Nvidia が Cerebras の買収を試みる可能性はかなり高いと思う。
- Cerebras は IPO を検討中。買収の可能性は低そうだ。それでも買収されるなら、Facebook や MS のほうにとって価値が大きい気がする。
API を試すにはウェイトリストに入る必要がある。会社がこうした主張をしながら、サービスを購入できる形で提供していないなら、ある程度 懐疑的に見る必要がある。
AI チップスタートアップの中では、Cerebras がたぶん本物だと思う。
- Groq も本物。ただ Cerebras は今のところ Groq ほど広くスケールできていないように見える。今後を見たい。
- IPO にぴったり合わせたタイミングだ。
直接の競合である Groq への言及はないのか？
- Groq の有料顧客として満足して使っているが、405B 領域では Cerebras と競争にならない。
  Groq には、エンタープライズ未満の有料顧客も受け入れ、Cerebras のように非常に選別的に提供するのではなく、さまざまなモデルを広く提供しているという利点はある。しかし純粋な速度と最大級モデルという基準では、Groq は比較になりにくい。
- Sambanova もあまり言及されない [0]。共同創業者の一人は「マルチコアプロセッサの父」として知られている [1]。
  [0]: https://sambanova.ai/
  [1]: https://en.wikipedia.org/wiki/Kunle_Olukotun
こうしたレイテンシでサービス提供するのに、どれくらいコストがかかるのか気になる。顧客側から見ると固定費は価格戦略によって変わるだろうが、結局はコストがこの技術の 普及範囲を決める。
レイテンシが本当に必要なビジネスにだけ合うのか、それとも一般的にデプロイできる水準なのかが重要だ。
- みんなが巨大なチップを作って SRAM を使うのが標準になることもあり得るのだろうか？
  SRAM メーカーはどれくらいあるのだろう。あるいは、必ずチップ内に完全統合されていなければならない構造なのだろうか？
新しいハードウェアでこうした性能向上が可能なら、学習性能もハードウェアでどこまでさらに引き上げられるのか気になる。
- 機械学習側に大きな変化がなければ、ものすごく大きくはならないと思う。ここには効率向上と 演算量向上 という二つの軸がある。
  演算量を増やすのが速度を上げる最も明確な方法だが、特定のプロセスノードとデータ型精度では物理的限界にかなり近いように思う。確実な証明は難しいが、根拠はいくつかある。LLM の基本演算である行列乗算は CPU の処理と違って非常に単純で、制御フローロジックのような部分が大きく最小化されている。電力の大半を行列乗算そのものに使っており、行列乗算は実際に電力制約を受ける[1]。精度を変えれば利得はあるだろうが難しく、すでに fp8 のような非常に低い精度を使っており、fp8 は 17 すら表現できない。最近の研究も限界を示している。
  LLM の学習効率は「モデル FLOPS 利用率（MFU）」という非常に厳しい基準で測定する。ハードウェアが提供できる理論上の FLOPS を、数学演算を実装するために必要な理論上の FLOPS で割る方式だ。FSDP だけでも 30% は容易に出せ、50〜60% も不可能だったり前例がない水準だったりするわけではない。非効率は主に、1) ハードウェアがさまざまな理由で表示された FLOPS を実際には提供できないこと、2) 数万台のマシン間でテラバイト単位のデータを同期しなければならないことから生じる。理論的限界は 2 倍だが、実際にさらに絞り出せる余地は多くない。
  今後の利得は、おおむね Nvidia のマージンを削る TPU、プロセスノード改善、B100 のようなデータ型縮小、またはコストの大きいチップ間通信を減らすためのチップ大型化に集中するだろう。同じ精度、同じプロセスノードで 10 倍向上する余地はなさそうだ。
  [1]: https://www.thonking.ai/p/strangely-matrix-multiplications
- 究極の解決策は、LLM を純粋な ASIC に変えることになりそうだ。
  性能は 10 倍くらい上がりそうだが、非常に高価な解決策になる。

Cerebras Inference、Llama 3.1 405Bで毎秒969トークンを処理

Llama 3.1 405B の性能記録

レイテンシ、提供時期、価格

関連記事

1件のコメント

Hacker News のコメント