Groq、Mixtral 8x7B-32kを500 T/sで駆動 (groq.com) 1 ポイント 投稿者 GN⁺ 2024-02-21 | 1件のコメント | WhatsAppで共有 関連記事 Mistral AI、Llama 2 70Bモデルを上回るMixtral 8x7Bモデルを公開 12 ポイント · 2件のコメント · 2023-12-12 Mistral「Mixtral」8x7B 32kモデル【マグネット】 2 ポイント · 1件のコメント · 2023-12-09 2つの異なる方式による高速LLM推論技法 6 ポイント · 1件のコメント · 2026-02-16 Grok-1.5を発表 9 ポイント · 0件のコメント · 2024-03-31 NVIDIA GPUでGPT-OSS-120Bを毎秒500トークン以上で実行する方法 7 ポイント · 2件のコメント · 2025-08-12 1件のコメント GN⁺ 2024-02-21 Hacker News コメント 第1コメントの要約: この技術デモは非常にインパクトがあり、アカウント登録なしで誰でも試せる真のオープンデモになっている点が良いです。 これまで見たものよりもはるかに高速でトークンを生成するのを目にするのは、非現実的なほど印象的です。 マイクロソフト、アップル、グーグルなどの大企業に買収されていない点が驚きだと指摘しています。 第2コメントの要約: Groq LPUsの主要な問題はHBMが全くなく、非常に少量(230 MiB)の超高速SRAMしか搭載していないことです。 単一モデルを提供するには256個のLPU(サーバーラック4台分)が必要になります。 単一モデルに対する顧客が多い場合には有用ですが、複数モデルやファインチューニングが必要な場合には扱いにくいです。 第3コメントの要約: デモはインパクトがありますが、ベンチマークがない以上、慎重になるべきです。 モデル品質を犠牲にしてモデルを高速化する手段として、例えばモデル量子化があります。 LLMのトークン/秒の進歩が、かつてCPU命令/秒が何十年か前にあれだけ進歩したように発展してほしいです。 第4コメントの要約: Groqで働いている者として、質問があればいつでも聞いてほしいと述べています。 Groqのコンパイルパイプラインの一部はHaskellで書かれていると明かしています。 第5コメントの要約: デモはインパクトがありますが、ハードウェア要件とコストが高いため、大手企業だけがアクセスできるかのようです。 趣味で触るユーザーにも手頃な価格帯になる時期があるのか疑問を示しています。 CNN Vapiのデモもインパクトがありましたが、他のサービスではより低い音声遅延で自然な会話が可能であるという点を挙げています。 リアルタイムのやり取りが可能となるトークン/秒の閾値や、それを超える速度がAI同士のコミュニケーションに役立つ可能性があるという考えを共有しています。 第6コメントの要約: この技術がなぜインパクトがあるのか、より多くの計算リソースを使って応答速度を上げられないのか疑問を投げかけています。 NVIDIAのグラフを引用し、H100が70Bモデルを500トークン/秒以上で実行すると述べています。 第7コメントの要約: 特定フォントにアクセスできないとページが動作せず、リクエストを繰り返し再試行することを指摘しています。 ブラウザがこの種のトラッカーをデフォルトでブロックするため、この問題を確認できたと述べています。 第8コメントの要約: この技術がx.aiのGrokモデルと何らかの関連があるのか質問しています。 実際に使ってみたところ、速度が非常に印象的だったと述べています。 第9コメントの要約: GroqとMixtralの両方に感銘を受けています。 特定のプロンプトを使ってGitLab CIのYAMLファイルを生成するデモを体験したと述べています。 第10コメントの要約: GroqのAPI性能もこのレベルにかなり近いです。 時系列の性能ベンチマークで400トークン/秒以上を継続して達成できていることを共有しています。
1件のコメント
Hacker News コメント
第1コメントの要約:
第2コメントの要約:
第3コメントの要約:
第4コメントの要約:
第5コメントの要約:
第6コメントの要約:
第7コメントの要約:
第8コメントの要約:
Grokモデルと何らかの関連があるのか質問しています。第9コメントの要約:
第10コメントの要約: