VibeThinker-3B: SFT+GRPOでOpus 4.5の推論性能を上回った3Bモデル
(arxiv.org)- VibeThinker-3Bは、わずか3Bパラメータで検証可能な推論をどこまで圧縮できるかを実験した小型の密結合モデル
- 学習パイプラインは、Spectrum-to-Signalの事後学習をベースに、カリキュラム型の教師ありファインチューニング、多ドメイン強化学習、オフライン自己蒸留を組み合わせている
- AIME26では94.3点、CLR適用時には97.1点を記録し、LiveCodeBench v6 Pass@1 80.2、最近の未公開LeetCodeコンテストの正答率96.1%も報告された
- DeepSeek V3.2、GLM-5、Gemini 3 Proのようなはるかに大規模なフラッグシップモデルと同等以上の性能帯に入りつつ、IFEval 93.4点で厳格な指示制御性も維持している
- Parametric Compression-Coverage Hypothesisは、検証可能な推論は小さなreasoning coreに圧縮できる一方、オープンな知識と汎用能力にはより広いパラメータカバレッジが必要だとみなす
3Bモデルで検証可能な推論を押し進めた実験
- VibeThinker-3Bは、3Bパラメータ規模の小型密結合モデル
- 目標は、厳格な小型モデル体制でも検証可能な推論性能をどこまで引き上げられるかを確認することにある
- 事後学習はSpectrum-to-Signalパラダイムの上に構築されている
- カリキュラムベースの教師ありファインチューニング
- 多ドメイン強化学習
- オフライン自己蒸留
- 今回の結果は、以前の1.5Bでの取り組みを拡張した流れにある
評価で示された性能の幅
- 数学・コーディング・指示実行の評価でfrontier級の性能を示した
- AIME26: 94.3点
- AIME26 + CLR: 97.1点
- LiveCodeBench v6: Pass@1 80.2
- 最近の未公開LeetCodeコンテスト: 正答率96.1%
- IFEval: 93.4点
- CLRはClaim-Level Reliability Assessmentの略で、claim-levelのtest-time scaling戦略を意味する
- Figure 1の比較対象にはQwen3.6 Plus、Gemini 3 Pro、GLM-5、Kimi K2.5、Claude Opus 4.5が含まれる
- 報告された結果では、VibeThinker-3BはDeepSeek V3.2、GLM-5、Gemini 3 Proのようなはるかに大規模なフラッグシップモデルと同等かそれ以上の性能帯に入る可能性がある
- パラメータ規模の比較では、VibeThinker-3Bは3Bと表示されている
- Qwen3.5-4B: 4B
- GPT-OSS-20B: 20B
- MiniMax M2.7: 229B
- DeepSeek V3.2: 671B
- GLM-5: 744B
- Kimi K2.5: 1T
- Parametric Compression-Coverage Hypothesisは、compact modelを単なる配備効率の代替手段ではなく、パラメータ密集能力領域でfrontier級性能に到達するための補完的な経路とみなしている
1件のコメント
Hacker Newsの意見
これは推論がうまくできるよう訓練された小さなモデルで、それがすべてだと見てよいのか気になる
特定のテーマは知らなくても、道具だけ与えれば一生懸命調べる賢い人のように見える
モデルにあらゆる知識を学習させるのではなく、学習する方法だけを訓練して、Pi Zeroのような小さなデバイスとインターネット接続だけで自律的に動けるなら本当に良さそう
パラメータにすべての知識をエンコードする代わりに、同じサイズでもその大半を推論に使うモデルを作れないかと思っていた
インターネットを探索する能力だけ与えて、言語仕様・ドキュメント・ベストプラクティスを調べさせればいい
自分のコーディングエージェントが、なぜニューヨークの人口やチーズケーキのレシピ、ダチョウの寿命を知っている必要があるのか分からない
考えたり推論したりするのに必要な最小限の知識だけ与えて、残りは自分で見つけさせればいい
ただ、今の大規模言語モデルは結局トークン予測なので、そうは動かないのが残念
推論はあらゆる知識で訓練した結果として現れる副産物で、この形でもモデルは何かを「知っている」のではなく、トークンを生成しているだけだ
多くの単語とその間のもっともらしいつながりを含む大規模データセットで訓練しなければ、単語や文の間に適切なつながりを作れず、推論もできない
ごく小さなデータセットで小さなモデルを訓練してみれば、支離滅裂な出力が見られる
最小のデータで最大の生成能力を引き出せるようにデータセットを最適化するのは面白そうだが、会社が最先端級のモデルを作るなら、そうした努力よりGPUを数台追加する方が経済的にはるかに有利だ
たとえばコップにボールを入れ、コップを逆さにしてテーブルの上に置き、コップを持ち上げて箱に入れるというごく基本的な問いでさえ、問題文に明示されていない知識、特に重力に関する知識を必要とする
すべての用語を厳密に定義しようとすると、すぐに複雑性の沼にはまる
指示を理解するには物事についての基本知識が必要で、推論の仕方だけ分かっていても何を達成すべきかの感覚がない
モデルが訓練される膨大なテキストの蓄積と、ある主題を堅牢に考察する能力の間には、かなり明確な断絶がある
訓練の順序でその経路を誘導できるのかも気になる
たとえばTinyStoriesで基本的な読解力を身につけ、その後で数学・哲学のテキスト、心理学・社会学のテキスト、最後に会話・怒りの文章・コード・小説まで含む大量データを入れた場合、演技・創作ライティング・ファンタジー小説から先に訓練した後で同じ最終的大規模データセットを与えたモデルと、大きく変わるのだろうかと思う
現在の能力が、新しい訓練データを文脈化することにどれほど影響するのかも気になる
長い**思考過程(CoT)**を生成しながら問題を解くよう訓練されていて、それは得意だが、ツール呼び出し能力はほとんどなく、1〜2メッセージを超える管理能力もほぼない
https://huggingface.co/WeiboAI/VibeThinker-3B の冒頭の警告を見れば分かる
次の фронティア は、より少ないハードウェアでより有能に動くようモデルを最適化する方向だと思う
特にリアルタイム学習まで可能になればさらに面白い
小さいのに強いモデルのブレークスルーが出てきて、最新モデル提供各社の純粋な資本力を上回る動きにも見える
小さい側を応援したいが、まだ断定するには早い気もする
逆に言えば、今のベンチマークは実際の開発者ワークフローの成功を捉えるには十分効率的でないのかもしれない
ただ、このモデルに対話をさせると失敗して一貫性が崩れる可能性が高い
その代わり、数学の問題を推論して解く能力は本当に高い
ちゃんと動くし、最初に使ったClaudeモデルを思い出す
試してきたコーディングエージェント向けローカルモデルの中で、実際に実用になるほど動いた最初のモデルなのでとても興奮している
どのモデルでも有用であるためには、狭い作業であっても基本的な知能水準が必要
5歳児に運転を教えられるだろうか? 10歳は? 12歳は?
運転するには文字が読める必要があり、凍結路面や雨の条件を判断でき、ボールを追って飛び出してくる子どもを予測できなければならない
人間は10代半ばごろにこうした基礎知識を身につける
小さなモデルでも、見かけ上は狭い領域であっても十分にうまくこなすには、ある程度の基礎知識が必要
フロンティアモデルのあらゆる希少知識までは不要だろうが、当初考えていたより高いベースラインがある可能性が高い
運転免許試験に合格するには読める必要があるかもしれないが、世界中には非識字でも上手に運転する人が多い
一般的な道路標識が形や色だけでも分かるように作られているのには理由がある
運転そのものは主に車を操る筋肉記憶に依存しており、そのため日常的に運転する人は長距離運転中に自動操縦のように動きながら、まったく別のことを考えていたりする
これも知識の一形態だが、反復を通じてしか得られない
もちろん交通の中で運転するには、交通法規の基本理解など、はるかに多くのものが必要だが、運転の大部分は筋肉記憶、車両理解、これから起こることの予測だ
類人猿がこうしたことに長けているのは、何百万年ものあいだ身体を使い、結果を見ながら進化してきたからだ
オランウータンがゴルフカートを運転するGIFもあったが、どこまで本物かは分からない
モデルを未来の複製人間のように見るより、特定領域で特定能力を持つ道具として見るほうが役に立つかもしれない
Opus 4.8に車を運転してくれと頼むのが筋違いであるのと同じように、エッジデバイス向けの小さな画像モデルに小説を書かせようと期待するのも筋違いだ
特定用途のために作られた道具として見るべきだ
本当の障害は a) 判断力、b) 身体的な反射と力の程度だと思う
子どものころでも凍結路面、雪、雨については分かっていた
一年中自転車に乗っていて、雪や濡れた路面では、特に季節の変わり目に自転車を制御する自信が低かったからだ
その経験はカナダ北部で冬に運転を学ぶことにつながり、同じ教訓を運転にも適用した
結果の伴わない環境では、子どもたちが実際のシミュレーターやビデオゲームの運転シミュレーションを驚くほど精密に操作するのを見てきた
9〜11歳の子どもが、成人ドライバーよりはるかに自信を持ってシミュレーションやゲームをこなすこともあった
子どもたちはシミュレーションには結果がないと分かっており、別の動機づけが与えられなければ、そのように振る舞う
一方で、継続的に運転している大人は、ゲームをするときでさえ筋肉記憶と先入観が意思決定を支配する
子どもが運転と運転ミスの現実の限界や結果を認識できていない状態を乗り越えるには、どれほどの訓練と露出が必要なのか、逆に熟練ドライバーだがゲーム初心者の人が、結果のないシミュレーションに実体験を適用しなくなるにはどれほど必要なのかが気になる
車を運転するのに読み書き能力は必要ない
ただし、他人と一緒に公道を走るのはまったく別の話だ
3歳児は、失敗が危険な状況で探索しすぎる可能性が高い
これには知識だけでなく、前頭前野とともに発達する制御システムも必要だ
大規模言語モデルはまだこうした制御をあまり行えていない
この結果はPython専用である点に注意すべき
他の言語ではここまでうまくできないだろう
ドメイン特化の小型言語モデルがもっと出てくるのは歓迎したい
プログラミング特化の**専門家混合(MoE)**モデルなら、複数言語にまたがってうまく動作できるかもしれない
このモデルは、数学や自己完結型のコーディング問題のような閉じた世界の検証可能な推論タスクのための安価な専門家だ
「閉じた世界」とは、必要な情報がすでに文脈に含まれているという意味だ
欠けている文脈を見つけ出すツール利用エージェントではない
「検証可能」とは、答えを生成するのは難しいが確認するのは容易な問題という意味だ
そのため、オープンエンドな研究、リポジトリ全体を扱うエージェント作業、事実ベースのQ&A、SVG生成には向いていない
輪郭のはっきりした問題のための小さな推論モジュールに近い
これほど小さなモデルの興味深い点は、Taalasチップ1個に載せられそうなことだ
HC1もすでにLlama 3.1 8Bモデルを動かしている
すでに、そこそこ良い推論をASIC上で、それも非常に高速に回せる地点に来ている
ソースコードのセキュリティレビューでGPT-5 nanoの代替としてこのモデルを試しているが、ある程度うまくいっている
RTX 3090 24GB VRAMでvLLMを使って実行中
モデルカードに書かれている通り、構造化出力は得意ではないが、自分のテストハーネスで回避している
古典的なペリカンSVGを生成させてみたが、四角形と黒い円しか表示されず、悲惨な失敗だった
要点は、「ペリカンには翼がある」のような知識は削りつつも、中核的な推論能力は保持したように見えることだ
「この発見は、パラメータ圧縮-包括仮説を裏づけている。この仮説では、検証可能な推論は小さな推論コアに圧縮できる一方で、オープンドメイン知識や汎用能力には、事実・概念・ロングテールのシナリオ全般にわたる広いパラメータ包括が必要だと考える」
そのうえで、使ってほしいSVGタグと文書参照を与えればよい
私が得た結果はこちら: https://9ol.es/tmp/pelican.png
プロンプトはhttps://9ol.es/tmp/prompt_pelican.txt
使用したモデルはprithivMLmods/VibeThinker-3B-GGUF:Q4_K_M
まだ評価やベンチマークは信用できない
テストデータセットが本当に非公開の例だったことを、どうやって証明できるのだろうか?
これらのモデルが主張どおりに優れていると証明する唯一の方法は、実際に採用されるかどうかを待って見ることだと思う
推論器のようなものを実装しなければならないなら、それに適した最善のアーキテクチャを設計・実装し、そのうえでテストすべきだ
こうした有能な小規模言語モデルが出てくるのを見るのは本当に楽しい
ただし、Hugging Faceにはこう書かれている:
"This model was not trained on tool-calling or agent-based programming data. We therefore do not recommend using it for tasks that involve function calling, API orchestration, or autonomous coding agents." - https://huggingface.co/WeiboAI/VibeThinker-3B
なので、pi.devのようなコーディングハーネスにそのままつないで使うことはできない
Opus 4.5より推論がうまいって?
プロンプト: "AがBのところへ行き、Bが続けてCのところへ行くなら、AはCに何かを送ることができるか?"
応答はこうだった:
"最も適切に解釈する必要がある。この文は、何かを送るという概念、たとえばボールを渡すことと、関係についてのパズルかもしれない。
シナリオ: AがBに何かを渡し、BがそれをCに渡す。
質問: Aも同じものをCに渡せるか?
答え: Aが2つ目のコピーを入手できる場合にのみ可能である。たとえば、その物が複製された場合だ。そうでなければ、Bに渡したあとAはもはやそれを持っていないので、コピーなしでは『送る』ことはできない。"
このほかにも、あまり筋の通らない不要な解説や「シナリオ」が大量についていた
それでも正解は当てている
しかも、答えに到達するのに使った浮動小数点演算量をOpusと比べれば、なお純利益だと思う
私の直感では、Opus規模のモデルにはこうした曖昧なケースを処理する近道がモデル内にエンコードされていて、このモデルは境界事例をその場で推論するプログラムを学習したように見える
結晶性知能と流動性知能の違いに近い
フロンティアモデルは確率を記憶し、VibeThinkerはその場で計算している感じだ
"多段階品質管理。"
"大規模言語モデルベースのクエリ品質フィルタリング。私たちは高性能な大規模言語モデルを使ってクエリ品質を評価し、説明が不完全だったり、条件が不合理だったり、論理が誤っていたり、目標知識ポイントを効果的に評価できないサンプルを除外する。"