Groq、Mixtral 8x7B-32kを500 T/sで駆動

(groq.com)

1 ポイント投稿者 GN⁺ 2024-02-21 | 1件のコメント | WhatsAppで共有

AIサービスで応答速度と推論コストがボトルネックになる状況に対し、Groqは高速で低コストな推論インフラを前面に打ち出している
差別化ポイントはGPU中心のアプローチではなく、2016年から推論専用として開発してきたLPUベースのスタックを使っている点にある
GroqCloudは世界中のデータセンターでLPUスタックを運用し、低遅延を提供しており、300万人の開発者とチームが利用しているとしている
開発者はOpenAI互換クライアントでbase_urlとGROQ_API_KEYだけを変更する形で、比較的簡単に連携できる
FintoolはGroqCloud導入後、チャット速度が7.41倍向上し、コストが**89%**削減され、McLaren Formula 1 TeamもGroqを推論パートナーとして選定している

高速で低コストな推論プラットフォーム

GroqはAIにおいて**推論（inference）**を中核の燃料と捉え、実際のワークロードでも安定して動作する高速かつ低コストな推論プラットフォームを掲げている
ホームページの中核メッセージは、「実環境でもぶれない高速で低コストな推論」に近い
2016年に設立され、設立目的は推論ひとつに集中することだと紹介している

LPUで構築した推論専用スタック

Groqは他社がGPUに依存するのとは異なり、自社シリコンを中核の強みとしている
2016年にLPUを切り開き、これを推論専用に作られた最初のチップだと説明している
LPUの設計上の選択は、インテリジェントなモデル応答を高速かつ低コストに保つことに焦点を当てている
「ベンチマークではなく、ワークロードが実際にデプロイされる」というメッセージで、本番配備環境を強調している

世界中のデータセンターとGroqCloud

LPUベースのスタックは世界中のデータセンターで稼働しており、低遅延の応答提供に重点を置いている
推論はローカルで動作するときが最適だという前提のもと、モデル応答をユーザーにより近い場所から提供する構成を強調している
GroqCloudは開発者が高速で低コストな推論を利用できるクラウドサービスである
Groqは300万人の開発者とチームがGroqを利用していると述べている

OpenAI互換の開発者連携

GroqはOpenAI互換の連携を強調し、「2行」で切り替えられると案内している
Pythonの例ではopenai.OpenAIクライアントで次の値を設定する
- base_url="https://api.groq.com/openai/v1";
- api_key=os.environ.get("GROQ_API_KEY")
開発者はGroqコンソールから開始するか、無料のAPIキーを発行して利用できる

顧客事例とパートナーシップ

McLaren Formula 1 Teamは、世界規模の推論のためにGroqを選んだパートナー事例として紹介されている
McLaren F1 Teamは意思決定、分析、開発、リアルタイムのインサイトのためにGroqを選択している
PGA of AmericaのCTO Kevin Scottは、性能がより重要な作業にはGroqを使っていると述べている
FintoolのCEO Nicolas Bustamanteは、GroqCloud導入後に次の変化を経験したとしている
- チャット速度が7.41倍向上
- コストが**89%**減少
- トークン消費量が3倍増加
OpennoteのCTO Abhigyan Aryaは、Groqがコスト削減と運用負荷の軽減をもたらし、学生向けプレミアムプランの価格を妥当な水準に保つのに役立ったと述べている

あわせて公開されたニュース項目

Groq Raises $750 Million as Inference Demand Surges: 2025年9月17日の項目
Day Zero Support for OpenAI Open Models: 2025年8月5日の項目
From Speed to Scale: How Groq Is Optimized for MoE & Other Large Models: 2025年5月27日の項目

1件のコメント

GN⁺ 2024-02-21

Hacker News の意見

これはこれまで見てきた技術デモの中でも屈指に印象的で、登録なしで誰でもすぐ試せる本物の公開デモである点が良い。
トークンがとんでもない速度で流れ出てくるのを見るのは非現実的なほどで、普段はその 1/5 にも満たない速度に慣れているのでなおさら驚く。Microsoft、Apple、Google のような企業に高額なプレミアムでまだ買収されていないのが不思議なくらい。
- 正しく理解しているなら、チップごとの RAM が 200MB なので、単一の LLM を1つ動かすのに複数ラックが必要という意味だが、これは進歩には聞こえない。
  数十〜数百 GB の RAM と、それをうまく扱えるプロセッサを載せた単一の PCIe ボードが必要だ。
- Perplexity Labs にも Mixtral 8x7b の公開デモがあるが、ここまで速くはない。
  https://labs.perplexity.ai/
- なぜそんなにすごいのか本当に分からず、気になっている。
  重要なのは TFLOPS/$ と TFLOPS/W がいくらで、Nvidia、AMD、TPU と比べてどうなのかだ。ざっと調べると、Groq は 2020 年ごろから同じような主張をしているようだが、それでも人々は Nvidia に大きなプレミアムを払い続けており、Groq がその市場を大きく揺さぶっているようには見えない。ChatGPT よりずっと小さいモデルを同等またはより強力なハードウェアで動かせば速くはなり得るが、レイテンシが主要指標ではない大半のモデルやユースケースにとってブレークスルーという意味ではない。
- なぜ売る必要がある？彼らの土俵で彼らに勝つほうが、はるかに楽しいと思う。
Groq LPU の根本的な問題は、HBM がまったくなく、非常に小さい超高速 SRAM 230MiBしかない点だ。
HBM3 より 20 倍速いのは確かだが、そのため単一モデルを1つサービングするのに LPU が約 256 個、つまりサーバーラック 4 本規模が必要になる。一方で H200 1 枚でもこうしたモデルをかなり合理的にサービングできる。利用者の多い単一モデルであればよく合うかもしれないが、複数モデルや多数のファインチューニング、高ランク LoRA が必要になった瞬間に使いにくくなる。オンプレミス配備にも向かない。中核的な利点が、複数のユーザーを同じモデルに集約することにあるためだ。
https://wow.groq.com/groqcard-accelerator/
https://twitter.com/tomjaguarpaw/status/1759615563586744334
- Groq のエンジニアの立場からすると、単一カードや単一ノードの外へ計算を拡張できることがなぜ問題なのか、よく分からない。
  自動車工場の比喩が好きなのだが、ドリルが1本や2本でも車を作ることはできる。しかし現代の自動化工場にはドリルが何百本もある。ドリル1本なら複数種類の車を作れるかもしれないが、工場の組立ラインは特定構成の車しか作れない。だからといって工場が非効率という意味ではない。H200 がかなりうまく動くという話も、同期的な人間とのやり取り用途では妥当かもしれないが、議論の余地はある。Nvidia 上で 30B+ パラメータのモデルが会話中に RAG を実行し、音声応答まで 1 秒以内に返す例を見てみたい。
- Groq は記事の中で、この結果のために576 個のチップを使ったと明かしている。
  さらにユーザーごとに別個の KV キャッシュが必要で、これはユーザーあたり数 GB 追加され得る点も計算に入れる必要がある。独立した観察者としての職業的判断では、この性能数値を出すための売上原価は数百万ドルを超える可能性が高そうで、それを想定利用量で償却して公開されている理論価格に合わせるのは非現実的に見える。ドルあたりの実性能という観点では実行可能性は低そうだが、コストを無視すれば、常軌を逸したレベルの性能を見せる非常に見事なデモであることは確かだ。
  https://www.nextplatform.com/2023/11/27/groq-says-it-can-dep...
- 低レイテンシが目標なら、HBM には非常に注意が必要だ。レイテンシそのものだけでなく、非決定性も問題になる。
  LPU アーキテクチャの大きな利点は、高速インターコネクトで数百個のチップからなるシステムを作りながらも、システム全体の正確なタイミングを ppm 単位まで把握できる点にある。非決定的な構成要素を入れ始めると、レイテンシ保証は非常に急速に失われる。
- Groq のデバイスは SRAM のおかげで、小規模バッチ推論に非常によく合っている。
  ただしトークン/秒/ドルの利点があるかは確信が持てず、特に多くのシリコンを購入できる中〜大規模バッチのユーザーにとってはなおさらだと思う。アーキテクチャ上、Groq はバッチサイズ 1 を超えても速くならなさそうで、Nvidia カードはバッチサイズが 100 単位に上がるとスループットが有意に向上しそうだ。
- 基本モデル1つと複数の LoRA を載せつつ、基本モデル分の RAM からほとんど増やさずに済む方法が可能かもしれない。
  ファインチューニングで重みの 0.1% 程度だけを変更する形にし、各計算で重み差分ではなく出力層の活性値の差分を計算する方式があり得る。
一見すると非常に印象的。ただしベンチマークなしでは、ある程度は懐疑的に見るのがよい
速度を上げるために品質を犠牲にする強い量子化のような迂回策は多いから。そうでないなら、LLM のトークン/秒の進歩が、数十年前の CPU の命令/秒のように続いていく様子を見てみたい
- 基本的に懐疑的にアプローチすべきだという科学者の姿勢には同意する
  チャットアプリと API は、誰でも試して他のプロバイダーと出力品質を比較できるように公開している
- 先に tome が言ったように、私たちは量子化しておらず、すべての活性値は FP16 である
  独立したベンチマークもある: https://artificialanalysis.ai/models/llama-2-chat-70b
- 以前の Llama 70B デモでは、非量子化で動かしていると主張していた
  https://twitter.com/lifebypixels/status/1757619926360096852
  ただしこのコメントでは「一部のデータは保存時に FP8 で保存される」と言っているが、それが正確に何を意味するのかは分からない: https://news.ycombinator.com/item?id=39432025
- Groq のベンチマーク中に量子化の有無を尋ね、モデルを完全な FP-16で実行していると確認した
  確認するには良いポイントで、重要な部分だ。ベンチマークのリンク: https://artificialanalysis.ai/
  質問対象はチャットデモではなく API だった
- 比喩を押し広げすぎかもしれないが、LLM はすでにトランジスタ時代に入ったのだろうか？
  700億パラメータの怪物を見ると、まだ真空管で ENIAC を作っているようにも思える。言い換えると、これから毎年 LLM のトークン/秒を着実に改善していく準備が整ったのか、それともその前に大きなブレークスルーがあと1つか2つ必要な段階なのかが気になる
Groq で働いている。何でも質問してよい
HN の投稿履歴を見ると Haskell の話をたくさんしているが、その通り。Groq のコンパイルパイプラインの一部は Haskell で書かれている
- Web インターフェースのバグかもしれないが、Mixtral モデルでプロンプトを入れて応答を受け取った後、ドロップダウンを Llama に変えて同じプロンプトを入れたところ、完全に同じ応答が返ってきた
  キャッシュか、問い合わせ先モデルが実際には変わっていないか、あるいは別の何かかもしれない
- Haskell は機械学習の領域ではかなり独特に見える
  この選択に特別な利点があるのか、他のチームにも勧められるものなのかが気になる。プロジェクトのどの部分で Haskell を使い、どの部分では使っていないのかも知りたい
- 私の理解では、特殊ハードウェアでトークン生成速度を上げているが、トークン生成は計算速度のレイテンシに大きく縛られている
  しかしトークン生成には通常、1次元の行列積だけが必要だ。約100トークンのプロンプトを入れるとサービスがかなり遅くなるが、おそらく2次元行列を掛ける必要があるためだと思う。プロンプト処理の計算速度を上げるために何をしているのか気になる
- 低レイテンシ推論を目標にする、ほぼ唯一の会社の1つに見え、スループットとそれに伴う推論あたりのコストだけに集中しているわけではないように見える
  主要市場をどこに見ているのか気になる
- AMA ありがとう。デモを動かすのに GroqCard を何枚使っているのか、オンラインで見かける 230MB SRAM より多くの SRAM を持つ新型を使っているのかが気になる
  この数字はバッチ処理の活用とコスト削減に影響しそうだ。また TTS パイプラインをスタックに統合できれば、本当に低レイテンシな通話が可能になりそうだ。使っているのはこの製品だと仮定している: https://www.bittware.com/products/groq/
印象的なデモだ
ただしハードウェア要件とコストのため、大企業でなければ手が届きにくそうに見える。趣味の開発者でも負担できる価格帯はいつ頃可能になると見ているのか気になる。CNN Vapi デモも印象的だったが、数週間前に共有された https://smarterchild.chat/ も、非常に低い音声レイテンシで自然な会話が可能だった。その議論を見ると https://www.sindarin.tech/ が作ったもののようだが、Groq LPU を使っているのか、それとも別のものを使っているのか気になる。約 50 t/s に達すればリアルタイムの相互作用は可能になると思う。それ以上は大量のデータ生成を高速化するのに有用だが、人間が処理できる速度を大きく超えるため、体感上の利点は小さくなる。AI 同士の通信、知識・文脈の転送のような用途には有用かもしれない。だとすれば、AI-人間の相互作用だけに集中した LPU 製品は、はるかに低い性能とはるかに低いコストでも可能なのではないかと思う
https://news.ycombinator.com/item?id=39180237
- サービスとしてのトークン API へのアクセスは、他のどのプロバイダーよりもトークンあたりのコストを低く保証している
  https://wow.groq.com を参照。ハードウェア販売の方はシステム全体の販売に集中しており、実際には企業や研究機関にのみ適している
- AI システムとリアルタイムに相互作用するには、50 t/s よりはるかに高い速度が必ず必要になる
  LLM の出力の大半は内部独白、計画、RAG、要約などに使われ、最終出力だけがユーザーに渡されることになるだろう。途方もなく高速な GPT-5 が、まばたき数回の間に回答計画を何度も立て、Web を検索し、読書感想文を書き、自分同士で議論し、見つけた内容を精製し、答えを批判して書き直す様子を想像すればよい
- Sindarin チームの規模が3人程度に見えることを考えると、既存技術を非常に賢く組み合わせたものに近そうだ
  単語単位のリアルタイム文字起こしを提供する音声 API もあり、Google にもそうしたものがある。核心となる秘訣は、音声認識 → LLM → TTS の間を非常にうまく設計したパイプライニングである可能性が高い。成果をけなすつもりはなく、むしろその結果をどう再現できるのか気になって関心を持った
常に速いわけではなく、複雑な質問をしたり、別の口調で話すようにという事前プロンプトを入れたりすると、依然としてロードに時間がかかる
興味深くはあるが、結局は失敗作になる可能性が高そうに見える
ページが特定のフォントにアクセスできないと動作に失敗し、リクエストを繰り返し再試行する
ブラウザがこうした事実上のトラッカーをデフォルトでブロックするため気づいた
https://fonts.gstatic.com/s/notosansarabic/[...]
https://fonts.gstatic.com/s/notosanshebrew/[...]
https://fonts.gstatic.com/s/notosanssc/[...]
- Google のトラッカーをウェブサイトに直接設置しなくても、買収対象としてどれほど人気があり興味深いかを Google に示す方法のように見える
- プライバシー保護プラグインでフォント置換を使おうとしても同じ問題が起きる
  こういう依存関係があるのはかなり奇妙だ
この分野について少し素朴なので聞きたい。これはなぜ印象的なのか？
応答を速くするには、演算をもっと投入すればよいのではないか？負荷があるとキューができるという事実は、単位時間あたりに処理できるリクエスト数と、より速く応答するために投入する演算量とのトレードオフを示しているだけではないのか？ NVIDIA のこのチャートは、H100 が llama v2 70B を 500 tok/s 以上で動かすという意味に見える
https://raw.githubusercontent.com/NVIDIA/TensorRT-LLM/rel/do...
- 演算を増やせばスループットは改善できるかもしれないが、トークン間レイテンシは簡単には改善しない
  生成では通常、各トークンごとにネットワークを通過するのにかかる時間がボトルネックになる。これを速くするには計算そのものをより高速に実行する必要があり、最速のアクセラレータの使用やキャッシュのような明白な選択肢を使い切った後は難しい問題になる
- LLM 推論は本質的に逐次的な問題である
  並列にもっと多く実行しても速くならない。100 番目のトークンを作る前に 101 番目のトークンを作ることはできない
- トークンスループットとレイテンシは別物である
  トークンスループットは GPU・システム全体の処理量であり、レイテンシは個々のユーザー基準のトークンスループットである。Groq は極めて低いレイテンシ、つまりユーザーあたり非常に高いトークンスループットを提供するが、システム全体の総トークンスループットの数値はまだない。一方、ここでの Nvidia の指標は GPU・システム全体のトークンスループットを示している。実際に H100 で 1.5k t/s が得られるとしても、レイテンシ基準のユーザーあたりトークンスループットは 20 t/s のようにずっと低い可能性がある。本当に重要な指標はトークンあたりのコストである。Groq が低レイテンシで実行できるからといって、安く実行できるという意味ではない。有用な近似方法はシステムコストをシステム全体の秒あたりトークン処理量で割ることだが、Groq システムの総秒間トークン処理量がないため効率性を語るのは難しく、現時点では PR のためにシステムコストを補助し、後で価格を上げる可能性もある
- 結局は本文のインフラコストがいくらなのかに依存するように思う
  H100 の製造コストは約 3,300 ドルにすぎないが、平均して約 3 万ドルで売られている
  https://www.hpcwire.com/2023/08/17/nvidia-h100-are-550000-gp...
- Nvidia はバッチ処理基準の最大スループットを書いているように思う。例えば同時に異なるプロンプト 10 個に対してそれぞれ 50 tok/s、というような形だ
  Groq LPU は純粋な速度では H100 を確実に上回る。しかし根本的には、価格は 500 倍なのに速度は 10 倍のシステムであり、ブロックチェーンを運営する会社が、もともと暗号資産マイニング用に意図されていたチップを LLM 推論向けに強くマーケティングしているような構図だ。毎週誰かが驚いてこのリンクを投稿するたびに、コメント欄で Groq のエンジニアたちが待機していて、あらゆる回答をする準備ができているのも、かなり笑える偶然だ
これは x.ai が提供する Grok モデルとは何の関係もないのか？
使ってみたが、速度は非常に印象的だった
- Elon とは何の関係もなく、私たち Groq のほうが先に名前を使っていた
  AI 分野ではハッカー精神とのつながりから自然な命名だが、商標は私たちが持っていて Elon は持っていない
  https://wow.groq.com/hey-elon-its-time-to-cease-de-grok/
- このコメントがなければ、Twitter が作ったものだと思っていたかもしれない
- LLM を使って子どもと会話する Grok という子ども向けおもちゃもある
Groq と Mixtral はどちらも開いた口がふさがらないほどすごい
次のプロンプトを試してみた: /frontend 以下には yarn でパッケージングし、vite でビルドして /backend/public に入れる Node フロントエンドがあり、バックエンドは Python Flask サーバーであるハイブリッドなフロントエンド/バックエンドプロジェクト用の GitLab CI yaml ファイルを生成せよ
- それでも簡単な Python コードでミスをしていた
  particles = np.zeros((2, 3)) # position, velocity, and acceleration
  particles[:, 0] = [0.0, 0.0, 0.0] # initial position

Groq、Mixtral 8x7B-32kを500 T/sで駆動

高速で低コストな推論プラットフォーム

LPUで構築した推論専用スタック

世界中のデータセンターとGroqCloud

OpenAI互換の開発者連携

顧客事例とパートナーシップ

あわせて公開されたニュース項目

関連記事

1件のコメント

Hacker News の意見