- CerebrasがQwen3-235B AIモデルを公開し、毎秒1,500トークン生成による即時推論性能を提供
- 既存のクローズドモデル比で1/10のコスト、30倍高速な生産性とコード生成を実現
- 131Kコンテキスト対応により、大規模なコードベースと複雑な文書処理を実現
- Clineとの協業により、Microsoft VS Code内でのリアルタイムコード生成体験を拡大
- 今回の公開により、オープンソースベースのOpenAI、Anthropicの代替として、高性能かつ合理的なコストを実現
Qwen3-235B: Cerebrasの超高速AI推論モデル公開と主な成果
世界最速のAI推論モデルをCerebras Inference Cloudで公開
- Cerebras Systemsは2025年7月8日、Qwen3-235Bを正式ローンチし、131Kコンテキストまで全面対応する新しいAI推論モデルを公開
- 本モデルはクローズドな代替手段と比べて1/10水準のコストで、フロンティア級の人工知能能力と超高速推論性能を組み合わせ、企業のAI導入に変革を提示
フロンティアモデル級の知能
- AlibabaのQwen3-235Bは、Claude 4 Sonnet、Gemini 2.5 Flash、DeepSeek R1など最先端の競合モデルと肩を並べる科学、コード、一般知識ベンチマーク性能を、Artificial Analysisの独立評価で実証
- Mixture-of-Experts構造で計算効率を最大化し、入力100万トークンあたり0.60ドル、出力100万トークンあたり1.20ドルで提供され、既存のクローズドモデルと比べて極めて低コストで利用可能
推論速度: 分単位から秒単位への革新
- 従来の推論AIは、一般的な問い合わせでも数分を要することが多い
- Wafer Scale Engineを活用し、Qwen3-235Bは毎秒1,500トークンの出力を達成、問い合わせ応答時間を1〜2分から0.6秒へ短縮
- これにより、コード生成、推論、大規模RAGワークフローが即時応答を実現し、リアルタイムAI性能の新たな基準を確立
- Artificial Analysisの測定結果では、世界で唯一、毎秒1,000トークン以上を生成するフロンティアAIモデルと評価
131Kコンテキスト: 実運用環境のコード生成を支援
- Qwen3-235Bの公開に合わせ、Cerebrasは従来の32Kコンテキストから131Kまで4倍拡張して対応
- これにより、大規模コードベースや複雑な文書も一度に推論可能となり、数十ファイル・数万行を同時に扱うコード生成によって、本番環境向け開発の可能性が大きく向上
- 従来の32Kコンテキストでは簡単なコード生成しかできなかったが、131Kコンテキストは大規模アプリケーション開発も直接支援
- これを通じて、企業向けコード生成市場という生成AI最大かつ最も急成長している分野に直接対応可能に
Clineとの戦略的提携でVS Code統合体験を強化
- Cerebrasは、180万件以上インストールされている最大のVS Codeコーディングエージェント Clineとパートナーシップを締結
- すべてのClineユーザーはQwen3-32B(64Kコンテキスト、無料)をエディタから直接利用可能で、今後Qwen3-235B(131Kコンテキスト)にも対応予定
- DeepSeek R1などの競合と比べて10〜20倍高速なコード生成速度を提供予定
- ClineのCEOであるSaoud Rizwanは、「リアルタイム推論のおかげで、開発者はコードや問題を探索しながら、思考の速度と同じまま作業フローを維持できる」と強調
30倍の速度・1/10のコストでフロンティアAIの代替を提供
- Cerebrasの今回の公開は、OpenAI・Anthropicなどの商用モデルに近い水準のオープンベースモデルの知能とコード生成を求める開発者に新たな選択肢を提供
- 特に、毎秒1,500トークン超の即時推論速度を世界で唯一実現し、GPUベースと比べて生産性を10倍向上
- トークンコストも競合比で1/10以下となり、合理的なコストで超高速AIを提供
Cerebras Systemsについて
- Cerebras Systemsは、コンピュータアーキテクチャ、ディープラーニング、リサーチ、エンジニアリングの専門家チームとして、大規模AIコンピューティングインフラの革新に注力
- 代表製品のCS-3システムは、世界最大規模の商用AIプロセッサ(Wafer-Scale Engine-3)を搭載し、容易かつ高速なクラスタリングを通じて大規模AIスーパーコンピュータを構成可能
- Cerebras Inferenceは革新的な推論速度を提供し、研究機関・企業・政府で高性能な専用モデル開発やオープンソース学習に活用中
- Cerebras Cloudおよびオンプレミス環境の両方でソリューションを提供
1件のコメント
Hacker Newsの意見
このニュースは「旧版」かもしれない。7月8日付のものに見え、昨日公開された Qwen 3 coder 405B のリリースと混同して紹介されたようだ。2つのモデルはスペックが異なる
もしこれが完全な fp16 quant だったら、131k のフルコンテキストで使うには 2TB のメモリが必要になる。Cerebras チップ1個の SRAM は 44GB なので、45個を直列接続する必要があり、1個あたり $3M なら合計 $135M 必要だ。比較すると、DGX B200 を2台で 2.8TB を確保でき、費用は $1M で済む。つまり $1M 対 $135M だ。非常に高速な推論速度を必要とする高付加価値の仕事(ヘッジファンド、金融市場など)でない限り効率的ではない。将来、Claude Opus 4 級(あるいはそれ以上)のモデルを数千万コンテキストトークンかつ毎秒1500トークンで非常に安価に回せるようになったら何が起きるのか想像もつかない。ハードウェアの進歩はまだ数世代以上必要そうだ
litellm proxy を設定し、Qwen-235B を持つ新しい Cerebras API に接続して Aider をつないでテストしてみた。Claude code ほどではないが、速度はものすごく速い。leaked claude code プロンプトでも Aider を動かしてみたが、思ったようには動かなかった。Claude code プロンプトは Claude に最適化されているようだ。それでも試す価値は十分あり、可能性が大きいと感じた。Aider がものすごい勢いでテキストを吐き出し、何かをインストールし、Web コールをして終了する。本当に一瞬だ。自分の環境を再現するには次の設定が使える:
実行方法:
そして
必要なパッケージは pip などでインストール。prompt.txt には leaked claude code プロンプトを自分で探して保存する
Qwen 3 coder が Cerebras でサポートされるのを首を長くして待っている。自分はエージェントループをよく回すので、実行速度がものすごい時間圧縮効果を生む。Claude 4 Sonnet 級のモデルが 1000~1500 トークン/秒で動けば本当に革命的だ。速度感を知りたければ、Cerebras Inference ページや API、あるいは Mistral / Le Chat の「Flash Answers」(Cerebras ベース)などで直接体験できる。1000tok/s でコード反復実行をすると魔法のようだ
たしかに速度は驚異的だが、私の経験では Cerebras で実際のプロダクション段階のレートリミットやトークン割り当てをもらうのは非常に難しい。このため、これを前提にシステム設計ができず、私たちは別のベンダーを使っている。営業チームともかなり話したが、無理だと言われた
Claude Code と sonnet-4 を多く使ってきた人で、Claude Code と Qwen3-Coder を比較テストした方はいるだろうか。Cerebras が提供する高速さには惹かれるが、どれだけ速くてもモデル品質が劣るなら乗り換えるつもりはない
「Full 131k」コンテキストとのことだが、実際には 262144 と2倍で、yarn 8倍まで行けば 200万まで行くという。実は Cerebras にも理論上のコンテキスト長の限界があり、これは Transformer 構造の限界なので、メモリ要求量はほぼ線形に、計算要求量は4倍で増えていく。つまり、Cerebras もコンテキスト長の問題で 100% 使い切れないように見える。さらに、量子化方式が正確に何なのか顧客には分からないのか気になる
速度は本当に印象的だ。少し違う話題だが、Qwen や Kimi のようなモデルが自国の検閲やバイアスに対してどうなのか気になる
Cerebras はこの10年間でシリコンバレーから出てきた技術的成果の中でも、最も狂っていて(最高にクールな)ものの1つだ。7~8年前に Andy に会ったとき、ディナープレートみたいな大きさのチップに 6トンのクランプ……あり得ないと思った。でも本当に作ってしまい、今見るとものすごく先見の明があった
Macbook でローカル qwen 開発環境を探している。localforge + mlx_lm.server の組み合わせを試したが、ページでは proof-of-concept 成功とある一方、実際には「empty response」エラーが出る。似た経験のある方、助言をお願いしたい