Qwen2-72B、中間レイヤー7層の複製でリーダーボード1位、重みは一切いじらず
(dnhkng.github.io)開発者の David Noel Ng が、Qwen2-72B モデルの中間レイヤー7層の区間だけを繰り返し通過させるという非常にシンプルな方法で、重みの変更やファインチューニングを一切行わずに、2024年の HuggingFace Open LLM リーダーボードで1位を獲得。
主なポイント
-
Qwen2-72B(全80レイヤー)で特定の中間区間(45〜51層、7層)をもう一度通過させる形でモデルを変更
→ パラメータは 72B → 約78B に増えるが、新しい重みは0個追加 -
ベンチマーク結果
- MATH Lvl 5: +8.16%
- MuSR: +17.72%
- 主要6ベンチマークのうち5つで性能が向上 → 平均スコアでリーダーボード1位を記録
なぜ効果があったのか?
- Transformer モデル内部には、機能ごとに分化した「回路(circuit)」が存在するという仮説(LLM Neuroanatomy)
- 前半レイヤー: 入力エンコーディング
- 中間レイヤー: 実際の推論・思考を行う部分(数学、感情理解など特定の回路が存在)
- 後半レイヤー: 出力デコーディング
→ 中間の推論回路をもう一度回すと、その機能が強化される
実験方法
RTX 4090 を2枚使い、3,241通りのレイヤー区間の組み合わせを総当たりで調査 → ヒートマップ分析
→ 特定区間(45〜52)だけを繰り返すと性能が急上昇するパターンを発見
追加のインサイト
- 単一レイヤーの繰り返し → 性能低下
- 複数レイヤーを束ねたブロックの繰り返し → 特定機能を強化
- その後、このアイデアをもとにしたモデル(RYS-XLarge → calme-3.2 など)が 2026年初頭にリーダーボード上位を占めることもあった
結論
LLM は単にレイヤーを積み重ねたものではなく、脳のように機能的に分化した回路を持っている。
この回路を見つけ出して繰り返し通過させるだけでも、重みに手を加えずに性能を大きく引き上げられることを示した発見。
1件のコメント
このままだと、小型モデルと大型モデルの性能差がさらに極端に開いていく可能性もありそうですね