Llama 3.1 405B on Cerebras Inference ハイライト
- 毎秒969個の出力トークンを生成 - 最高のGPU結果より12倍高速
- 最初のトークンまでの時間は240ms - ほとんどのAPIより短い
- 128Kコンテキスト長をサポート - 記録上最高の性能
- 16ビット重み - モデル全体の精度を維持
- 2025年第1四半期に一般提供予定、入力トークン100万個あたり6ドル、出力トークン100万個あたり12ドル
インスタント速度のフロンティアAI
- Cerebrasは今年、Llama 3.1 8Bと70Bを毎秒2,000トークン以上へと押し上げた
- GPT-4o、Claude 3.5 Sonnet、Llama 3.1 405Bのようなフロンティアモデルは、GPU、ASIC、クラウドで毎秒200トークンを超えたことがなかった
- Cerebras Inferenceはこの問題を解決し、Llama 3.1 405Bが128Kコンテキストで完全な性能を発揮できるようにした
- 1,000トークンのプロンプトで毎秒969個の出力トークンを生成し、記録を更新した
- 100,000トークン入力プロンプトで539トークン/秒を達成し、Fireworksより11倍、AWSより44倍高速
最良のレイテンシ
- 最初のトークンまでの時間は、実際のアプリケーションで最も重要な指標の1つ
- Cerebrasは240ミリ秒で、Llama 3.1-405Bを実行するあらゆるプラットフォームの中で最速のファーストトークン時間を提供
- GPUベースのソリューションよりはるかに速い応答時間で、ユーザー体験を大幅に改善
提供状況
- Llama 3.1-405B向けCerebras Inferenceは現在顧客向け試験中で、2025年第1四半期に一般提供予定
- 出力価格はAWS、Azure、GCPより20%安価
オープンモデルが最速のモデル
- MetaのオープンなアプローチとCerebrasの革新的な推論技術のおかげで、Llama 3.1-405Bはクローズドなフロンティアモデルより10倍以上速く動作する
- 音声、動画、推論アプリケーションに適した基盤を提供する
1件のコメント
Hacker Newsの意見
8x H100クラスタでLlama 3.1 70bモデルを動かしても、100 tok/sを超えるのは難しい
レイテンシ比較が公平なのか確信が持てない
高いスループットを良好なレイテンシで提供するには、過剰なプロビジョニングが必要
現世代のモデルとRAG、マルチエージェント、コードインタープリタを使うと、モデルのレイテンシがボトルネックになる
Cerebrasチップはウェハ全体を使用しており、44GBのSRAMしか搭載していない
APIを試すためのウェイトリストがある
NvidiaがCerebrasを買収する可能性は高いと思う
新しいハードウェアで性能向上が可能だという事実は印象的
tokens/秒/ワットの比較を見たい
競合のGroqへの言及がない
このようなレイテンシでサービスを提供するのに必要なコストが気になる