Qwen2-72B、中間レイヤー7層の複製でリーダーボード1位、重みは一切いじらず
(dnhkng.github.io)開発者の David Noel Ng が、Qwen2-72B モデルの中間レイヤー7層の区間だけを繰り返し通過させるという非常にシンプルな方法で、重みの変更やファインチューニングを一切行わずに、2024年の HuggingFace Open LLM リーダーボードで1位を獲得。
主なポイント
-
Qwen2-72B(全80レイヤー)で特定の中間区間(45〜51層、7層)をもう一度通過させる形でモデルを変更
→ パラメータは 72B → 約78B に増えるが、新しい重みは0個追加 -
ベンチマーク結果
- MATH Lvl 5: +8.16%
- MuSR: +17.72%
- 主要6ベンチマークのうち5つで性能が向上 → 平均スコアでリーダーボード1位を記録
なぜ効果があったのか?
- Transformer モデル内部には、機能ごとに分化した「回路(circuit)」が存在するという仮説(LLM Neuroanatomy)
- 前半レイヤー: 入力エンコーディング
- 中間レイヤー: 実際の推論・思考を行う部分(数学、感情理解など特定の回路が存在)
- 後半レイヤー: 出力デコーディング
→ 中間の推論回路をもう一度回すと、その機能が強化される
実験方法
RTX 4090 を2枚使い、3,241通りのレイヤー区間の組み合わせを総当たりで調査 → ヒートマップ分析
→ 特定区間(45〜52)だけを繰り返すと性能が急上昇するパターンを発見
追加のインサイト
- 単一レイヤーの繰り返し → 性能低下
- 複数レイヤーを束ねたブロックの繰り返し → 特定機能を強化
- その後、このアイデアをもとにしたモデル(RYS-XLarge → calme-3.2 など)が 2026年初頭にリーダーボード上位を占めることもあった
結論
LLM は単にレイヤーを積み重ねたものではなく、脳のように機能的に分化した回路を持っている。
この回路を見つけ出して繰り返し通過させるだけでも、重みに手を加えずに性能を大きく引き上げられることを示した発見。
1件のコメント
> 小さいモデルであるほど、より複雑に見えます。エンコーディング、推論、デコーディングの機能がより複雑に絡み合い、全体領域に広がっています。複数のタスクにまたがって一般化される機能の重複領域は一つも見つかりませんでしたが、ある一つの「能力」を強化する代わりに別の能力を弱めうることは明らかでした。しかし、モデルが大きくなるほど機能構造はさらに分離されます。大規模モデルには、一般化された「思考」回路を発達させられる「空間」がより多くあり、これが私の手法が72Bモデルで非常に効果的だった理由かもしれません。ある閾値以下のパラメータでは、「推論皮質」は脳の残りの部分と完全には分化していません。
このままだと、小型モデルと大型モデルの性能差がさらに極端に開いていく可能性もありそうですね