Cerebras、Qwen3-235Bの公開で毎秒1,500トークンを達成

(cerebras.ai)

1 ポイント投稿者 GN⁺ 2025-07-24 | 1件のコメント | WhatsAppで共有

CerebrasがQwen3-235B AIモデルを公開し、毎秒1,500トークン生成による即時推論性能を提供
既存のクローズドモデル比で1/10のコスト、30倍高速な生産性とコード生成を実現
131Kコンテキスト対応により、大規模なコードベースと複雑な文書処理を実現
Clineとの協業により、Microsoft VS Code内でのリアルタイムコード生成体験を拡大
今回の公開により、オープンソースベースのOpenAI、Anthropicの代替として、高性能かつ合理的なコストを実現

Qwen3-235B: Cerebrasの超高速AI推論モデル公開と主な成果

世界最速のAI推論モデルをCerebras Inference Cloudで公開

Cerebras Systemsは2025年7月8日、Qwen3-235Bを正式ローンチし、131Kコンテキストまで全面対応する新しいAI推論モデルを公開
本モデルはクローズドな代替手段と比べて1/10水準のコストで、フロンティア級の人工知能能力と超高速推論性能を組み合わせ、企業のAI導入に変革を提示

フロンティアモデル級の知能

AlibabaのQwen3-235Bは、Claude 4 Sonnet、Gemini 2.5 Flash、DeepSeek R1など最先端の競合モデルと肩を並べる科学、コード、一般知識ベンチマーク性能を、Artificial Analysisの独立評価で実証
Mixture-of-Experts構造で計算効率を最大化し、入力100万トークンあたり0.60ドル、出力100万トークンあたり1.20ドルで提供され、既存のクローズドモデルと比べて極めて低コストで利用可能

推論速度: 分単位から秒単位への革新

従来の推論AIは、一般的な問い合わせでも数分を要することが多い
Wafer Scale Engineを活用し、Qwen3-235Bは毎秒1,500トークンの出力を達成、問い合わせ応答時間を1〜2分から0.6秒へ短縮
これにより、コード生成、推論、大規模RAGワークフローが即時応答を実現し、リアルタイムAI性能の新たな基準を確立
Artificial Analysisの測定結果では、世界で唯一、毎秒1,000トークン以上を生成するフロンティアAIモデルと評価

131Kコンテキスト: 実運用環境のコード生成を支援

Qwen3-235Bの公開に合わせ、Cerebrasは従来の32Kコンテキストから131Kまで4倍拡張して対応
これにより、大規模コードベースや複雑な文書も一度に推論可能となり、数十ファイル・数万行を同時に扱うコード生成によって、本番環境向け開発の可能性が大きく向上
従来の32Kコンテキストでは簡単なコード生成しかできなかったが、131Kコンテキストは大規模アプリケーション開発も直接支援
これを通じて、企業向けコード生成市場という生成AI最大かつ最も急成長している分野に直接対応可能に

Clineとの戦略的提携でVS Code統合体験を強化

Cerebrasは、180万件以上インストールされている最大のVS Codeコーディングエージェント Clineとパートナーシップを締結
すべてのClineユーザーはQwen3-32B（64Kコンテキスト、無料）をエディタから直接利用可能で、今後Qwen3-235B（131Kコンテキスト）にも対応予定
DeepSeek R1などの競合と比べて10〜20倍高速なコード生成速度を提供予定
ClineのCEOであるSaoud Rizwanは、「リアルタイム推論のおかげで、開発者はコードや問題を探索しながら、思考の速度と同じまま作業フローを維持できる」と強調

30倍の速度・1/10のコストでフロンティアAIの代替を提供

Cerebrasの今回の公開は、OpenAI・Anthropicなどの商用モデルに近い水準のオープンベースモデルの知能とコード生成を求める開発者に新たな選択肢を提供
特に、毎秒1,500トークン超の即時推論速度を世界で唯一実現し、GPUベースと比べて生産性を10倍向上
トークンコストも競合比で1/10以下となり、合理的なコストで超高速AIを提供

Cerebras Systemsについて

Cerebras Systemsは、コンピュータアーキテクチャ、ディープラーニング、リサーチ、エンジニアリングの専門家チームとして、大規模AIコンピューティングインフラの革新に注力
代表製品のCS-3システムは、世界最大規模の商用AIプロセッサ（Wafer-Scale Engine-3）を搭載し、容易かつ高速なクラスタリングを通じて大規模AIスーパーコンピュータを構成可能
Cerebras Inferenceは革新的な推論速度を提供し、研究機関・企業・政府で高性能な専用モデル開発やオープンソース学習に活用中
Cerebras Cloudおよびオンプレミス環境の両方でソリューションを提供

1件のコメント

GN⁺ 2025-07-24

Hacker Newsの意見

このニュースは「旧版」かもしれない。7月8日付のものに見え、昨日公開された Qwen 3 coder 405B のリリースと混同して紹介されたようだ。2つのモデルはスペックが異なる
- 最初はこのニュースが2日前に発表された Qwen3-235B-A22B-Instruct-2507（リンク）のことだと思っていた。このモデルは reasoning なしのモデルで、Cerebras の発表では reasoning に言及していたため、今回のニュースは4月に出た Qwen3-235B-A22B だと分かった。モデル名が紛らわしい
もしこれが完全な fp16 quant だったら、131k のフルコンテキストで使うには 2TB のメモリが必要になる。Cerebras チップ1個の SRAM は 44GB なので、45個を直列接続する必要があり、1個あたり $3M なら合計 $135M 必要だ。比較すると、DGX B200 を2台で 2.8TB を確保でき、費用は $1M で済む。つまり $1M 対 $135M だ。非常に高速な推論速度を必要とする高付加価値の仕事（ヘッジファンド、金融市場など）でない限り効率的ではない。将来、Claude Opus 4 級（あるいはそれ以上）のモデルを数千万コンテキストトークンかつ毎秒1500トークンで非常に安価に回せるようになったら何が起きるのか想像もつかない。ハードウェアの進歩はまだ数世代以上必要そうだ
- 「Cerebras チップあたり 44GB SRAM、45個直列必要、合計 $135M」という計算は間違っている。44GB は SRAM、つまりオンチップメモリであり、モデルパラメータの大半は HBM に保存される。たとえば GB200 の SRAM は 126MB しかないが、キャッシュ容量だけを見て 2TB モデルに必要なチップ数を計算すると、とんでもない結果になる。Cerebras は HBM をチップとは別に拡張可能で、MemoryX のようなシステムでほぼ 2PB まで接続できる（関連記事）。専門家ではないが、Cerebras アーキテクチャではメモリの限界はずっと広い
- チップ内 SRAM は完全に一時的な作業メモリであり、モデル全体の重みを保持する必要はない。Cerebras は sparse weight 方式で外部メモリから必要なデータだけをストリーミングし、コアは転送トリガー方式で動作する
- 「運用可能／不可能」という観点だけでは単純すぎる。実際には、システム全体を複数ユーザーに分配できるスループットが重要なポイントだ。ゴルフカートも列車も東海岸から西海岸まで行けるが、経済性は違う。最小配備規模も重要ではあるが、大規模クラウド API としてトークンを売るなら、顧客側には関係ない
- 推論を固定 fp16 で回す必要はない。最近の量子化フォーマットは必要な層ごとに精度を変えて割り当てられるので、平均 6bit/parameter でもほとんど差を感じない。かなり攻めても 8bit/parameter で十分だ。これは非常に大きなメモリ節約になる
- 私たちのチップは1個あたり $3M ではない。その数字がどこから出たのか分からないが、完全に誤った情報だ
litellm proxy を設定し、Qwen-235B を持つ新しい Cerebras API に接続して Aider をつないでテストしてみた。Claude code ほどではないが、速度はものすごく速い。leaked claude code プロンプトでも Aider を動かしてみたが、思ったようには動かなかった。Claude code プロンプトは Claude に最適化されているようだ。それでも試す価値は十分あり、可能性が大きいと感じた。Aider がものすごい勢いでテキストを吐き出し、何かをインストールし、Web コールをして終了する。本当に一瞬だ。自分の環境を再現するには次の設定が使える:
```
model_list:
 - model_name: qwen3-235b
  litellm_params:
   model: cerebras/qwen-3-235b-a22b
   api_key: os.environ/CEREBRAS_API_KEY
   api_base: https://api.cerebras.ai/v1
```
実行方法:
```
litellm --config config.yaml --port 4000 --debug
```
そして
```
aider --model cerebras/qwen-3-235b-a22b --openai-api-base http://localhost:4000 --openai-api-key fake-key --no-show-model-warnings --auto-commits --system-file ./prompt.txt --yes
```
必要なパッケージは pip などでインストール。prompt.txt には leaked claude code プロンプトを自分で探して保存する
Qwen 3 coder が Cerebras でサポートされるのを首を長くして待っている。自分はエージェントループをよく回すので、実行速度がものすごい時間圧縮効果を生む。Claude 4 Sonnet 級のモデルが 1000～1500 トークン/秒で動けば本当に革命的だ。速度感を知りたければ、Cerebras Inference ページや API、あるいは Mistral / Le Chat の「Flash Answers」（Cerebras ベース）などで直接体験できる。1000tok/s でコード反復実行をすると魔法のようだ
- まさにこれ。こういう速度なら自分の作業効率は一気に上がる。エージェントを待つたびに集中力とコンテキストが途切れる。並列で回せば速くはなるが、集中力を犠牲にする。Cursor のような IDE でほぼ即時に反復ループが回れば、本当にさらに魔法っぽく感じるだろう。そしてこの速度なら、作業のやり方そのものが変わる。Cursor のようなインタラクティブ IDE は、コマンドラインベースの Claude code よりずっと自然に感じられるはずだ
- 自分も同じだ。ただ、Cerebras の API はもっと OpenAI 互換性が高くなる必要がある。さまざまなコードエージェント（Cline を含む）で既存モデルを試したが、400 エラーやツール呼び出しフォーマットの問題で全部だめだった。がっかりした
- 数日前に Groq で Kimi K2 を設定してみて、その速度に衝撃を受けた。Qwen 3 と Cerebras に切り替えるべきか考えている。（余談だが、名前から Starcraft の zerg の階級体系にある cerebrate を連想して、子どものころ興味を持った記憶がある）
- こうして LLM エージェントの速度が速くなると、最終的には開発プロセスでコンパイル時間がボトルネックになる状況が生まれるかもしれない。そうなれば、コンパイラ性能を高める経済的インセンティブが生まれるだろう
たしかに速度は驚異的だが、私の経験では Cerebras で実際のプロダクション段階のレートリミットやトークン割り当てをもらうのは非常に難しい。このため、これを前提にシステム設計ができず、私たちは別のベンダーを使っている。営業チームともかなり話したが、無理だと言われた
Claude Code と sonnet-4 を多く使ってきた人で、Claude Code と Qwen3-Coder を比較テストした方はいるだろうか。Cerebras が提供する高速さには惹かれるが、どれだけ速くてもモデル品質が劣るなら乗り換えるつもりはない
- Qwen は使ったことがないが、Groq などの「瞬間トークン」推論サービスや diffusion モデルで LLaMA ベースのコード生成器を使ったことはある。ただ、結果は満足できるものではなかった。もし Gemini 2.5 pro や Sonnet 4 級のモデルが Cerebras 上で何万行ものコードを数秒で出せるようになれば、本当に勢力図が変わるだろう
「Full 131k」コンテキストとのことだが、実際には 262144 と2倍で、yarn 8倍まで行けば 200万まで行くという。実は Cerebras にも理論上のコンテキスト長の限界があり、これは Transformer 構造の限界なので、メモリ要求量はほぼ線形に、計算要求量は4倍で増えていく。つまり、Cerebras もコンテキスト長の問題で 100% 使い切れないように見える。さらに、量子化方式が正確に何なのか顧客には分からないのか気になる
- モデルページには 32768 が native で、4x YaRN で性能検証済みと書かれている（リンク）。これが 131k とだいたい一致しているようだ
速度は本当に印象的だ。少し違う話題だが、Qwen や Kimi のようなモデルが自国の検閲やバイアスに対してどうなのか気になる
- Qwen モデルは、オープンモデルの中でも品質が非常に高いと評価されている（特に MoE 構造）。その一方で、かなり強い検閲がかかっている。「天安門広場で何があったのか」から「主要な抗議」「もしかして戦車関連？」まで何を聞いても、ただ広場が美しく由緒ある場所だというように曖昧にはぐらかす
Cerebras はこの10年間でシリコンバレーから出てきた技術的成果の中でも、最も狂っていて（最高にクールな）ものの1つだ。7～8年前に Andy に会ったとき、ディナープレートみたいな大きさのチップに 6トンのクランプ……あり得ないと思った。でも本当に作ってしまい、今見るとものすごく先見の明があった
- コンセプトはクールだけど、実際に Nvidia の代わりに Cerebras を使っている人はいるのか？
- 実際には HPC、FLOPS 向けの設計なので、LLM 推論では結局メモリ帯域幅のほうが重要だ
- これは古いアイデアの現代的解釈だ。私はヨーロッパの研究で wafer-scale、アナログ、ニューラルネットワーク関連の論文を最初に見た。その後、別のプロジェクトも見つけた。（論文1、論文2）。2本目の論文は1989年のもので、特許もすでにすべて期限切れだ
- wafer-scale integration も数十年前にすでに試みられていた
Macbook でローカル qwen 開発環境を探している。localforge + mlx_lm.server の組み合わせを試したが、ページでは proof-of-concept 成功とある一方、実際には「empty response」エラーが出る。似た経験のある方、助言をお願いしたい
- もしかすると質問を取り違えているかもしれないが、ollama なら Macbook Pro（32GB）で qwen のローカル推論をかなり快適に使えている

Cerebras、Qwen3-235Bの公開で毎秒1,500トークンを達成

Qwen3-235B: Cerebrasの超高速AI推論モデル公開と主な成果

世界最速のAI推論モデルをCerebras Inference Cloudで公開

フロンティアモデル級の知能

推論速度: 分単位から秒単位への革新

131Kコンテキスト: 実運用環境のコード生成を支援

Clineとの戦略的提携でVS Code統合体験を強化

30倍の速度・1/10のコストでフロンティアAIの代替を提供

Cerebras Systemsについて

関連記事

1件のコメント

Hacker Newsの意見