3 ポイント 投稿者 GN⁺ 2024-11-20 | 1件のコメント | WhatsAppで共有

Llama 3.1 405B on Cerebras Inference ハイライト

  • 毎秒969個の出力トークンを生成 - 最高のGPU結果より12倍高速
  • 最初のトークンまでの時間は240ms - ほとんどのAPIより短い
  • 128Kコンテキスト長をサポート - 記録上最高の性能
  • 16ビット重み - モデル全体の精度を維持
  • 2025年第1四半期に一般提供予定、入力トークン100万個あたり6ドル、出力トークン100万個あたり12ドル

インスタント速度のフロンティアAI

  • Cerebrasは今年、Llama 3.1 8Bと70Bを毎秒2,000トークン以上へと押し上げた
  • GPT-4o、Claude 3.5 Sonnet、Llama 3.1 405Bのようなフロンティアモデルは、GPU、ASIC、クラウドで毎秒200トークンを超えたことがなかった
  • Cerebras Inferenceはこの問題を解決し、Llama 3.1 405Bが128Kコンテキストで完全な性能を発揮できるようにした
  • 1,000トークンのプロンプトで毎秒969個の出力トークンを生成し、記録を更新した
  • 100,000トークン入力プロンプトで539トークン/秒を達成し、Fireworksより11倍、AWSより44倍高速

最良のレイテンシ

  • 最初のトークンまでの時間は、実際のアプリケーションで最も重要な指標の1つ
  • Cerebrasは240ミリ秒で、Llama 3.1-405Bを実行するあらゆるプラットフォームの中で最速のファーストトークン時間を提供
  • GPUベースのソリューションよりはるかに速い応答時間で、ユーザー体験を大幅に改善

提供状況

  • Llama 3.1-405B向けCerebras Inferenceは現在顧客向け試験中で、2025年第1四半期に一般提供予定
  • 出力価格はAWS、Azure、GCPより20%安価

オープンモデルが最速のモデル

  • MetaのオープンなアプローチとCerebrasの革新的な推論技術のおかげで、Llama 3.1-405Bはクローズドなフロンティアモデルより10倍以上速く動作する
  • 音声、動画、推論アプリケーションに適した基盤を提供する

1件のコメント

 
GN⁺ 2024-11-20
Hacker Newsの意見
  • 8x H100クラスタでLlama 3.1 70bモデルを動かしても、100 tok/sを超えるのは難しい

    • この速度をどうやって達成したのか気になる
    • マルチノード推論やスパースアテンション機構が必要そう
  • レイテンシ比較が公平なのか確信が持てない

    • レイテンシにはコンテキスト/プロンプトのスループット、ハードウェアアクセス待ち時間、そのほかのAPIオーバーヘッドが含まれる
    • Cerebrasの数値は待ち時間がほとんど含まれていない可能性が高い
  • 高いスループットを良好なレイテンシで提供するには、過剰なプロビジョニングが必要

    • レイテンシにモデルロードが含まれるかどうかが不明
    • バッチ処理では、Cerebrasマシンを100%活用して1k tokens/sを継続的に得られる
  • 現世代のモデルとRAG、マルチエージェント、コードインタープリタを使うと、モデルのレイテンシがボトルネックになる

    • 405Bクラスのモデルのトークン処理量があれば、多くのインタラクティブな体験が可能になる
  • Cerebrasチップはウェハ全体を使用しており、44GBのSRAMしか搭載していない

    • 405Bモデルをbf16精度で載せるには19個のチップが必要
    • ウェハ製造コストで見ると、H100を1500個以上使うのと同等
  • APIを試すためのウェイトリストがある

    • サービスを購入できないなら、その会社の主張には懐疑的であるべき
  • NvidiaがCerebrasを買収する可能性は高いと思う

  • 新しいハードウェアで性能向上が可能だという事実は印象的

    • ハードウェアによる学習性能改善の限界が気になる
  • tokens/秒/ワットの比較を見たい

  • 競合のGroqへの言及がない

  • このようなレイテンシでサービスを提供するのに必要なコストが気になる

    • コストがどれだけ広く採用されるかを決める
    • 本当に低レイテンシが必要なビジネス向けなのか、それとも一般的に展開できるのか気になる