- 巨大な72BパラメータLLMの中間7層を複製して再構成することで、いかなる学習も行わずにリーダーボード1位を達成した事例
- 実験はRTX 4090を2枚で実施され、モデルの重みを変更せず、中間層を繰り返し実行するよう構造だけを変更
- 数学推論と感情推論(EQ)という2つの小規模プロキシタスクを通じて、最適なレイヤー範囲を探索
- 結果としてQwen2-72BベースのRYS-XLargeモデルが平均+2.61%向上し、特にMuSR +17.72%、MATH +8.16%の改善を記録
- このアプローチはLLM内部に「機能的回路(circuit)」が存在する可能性を示し、大規模モデルの**「神経解剖学的構造」**研究へとつながる
オープンLLMリーダーボードと実験の背景
- 2024年半ば、HuggingFaceのOpen LLM Leaderboardは公開重みモデルの競争の場だった
- 評価項目: IFEval, BBH, MATH Lvl 5, GPQA, MuSR, MMLU-PRO
- 著者は新しいモデル学習やファインチューニングを行わず、既存モデルの中間層の一部を複製する方式で実験を実施
- 複製された層は、モデルの**「思考(thinking)」過程**を担う部分だと推定された
手がかり1 – Base64対話実験
- LLMがBase64でエンコードされた質問を理解し、正しい答えをBase64で返す現象を観察
- 入力形式が異なってもモデルが推論を行うことから、初期層は入力解釈(translation)、**後期層は出力変換(re-translation)**の役割を担うという仮説を提示
- これにより中間層は抽象的思考を行う領域である可能性が示された
手がかり2 – Goliath-120Bモデルの異常構造
- HuggingFaceのGoliath-120Bは2つのLlama-2 70Bモデルを交互に結合した構造で、後期層の出力を前期層の入力へフィードバックする
- 正常な学習分布を外れた構造であるにもかかわらず、モデルが動作することを確認
- これにより層間の表現が相互互換可能であり、**Transformer内部表現が均質的(homogenous)**であることが示唆された
「ブレインスキャナー」の構築
- Qwen2-72Bモデルの**すべての(i, j)レイヤー区間の組み合わせ(計3,241個)**をテストするパイプラインを構築
- 各組み合わせで、特定のレイヤー区間を2回通過させる形でモデルを再構成
- 評価基準は次の3条件を満たす必要があった
- 出力の最小化(速度確保)
- 客観的採点の可能性
- 認知的独立性(2つのタスクが同時に向上した場合、構造的改善とみなす)
プロキシタスク設計
- Hard Math Probe: 複雑な算術問題の正答を直接推定
- EQ-Bench Probe: 社会的状況における感情の強さを0〜100で予測
- どちらのタスクも短い出力と明確な正答を提供し、構造変化の測定に適していた
数学採点関数と部分正答評価
- LLMの数値エラー(桁落ち、転置など)を考慮し、部分一致スコアを計算する関数を開発
- 短い回答をパディングし、相対誤差を計算して正答率を連続スコアへ換算
- これにより微細な性能差を定量的に区別できた
RYS-XLargeモデルの構成
- 最適な組み合わせは**(45, 52)**で、45〜51番レイヤーをもう一度繰り返す
- 結果として中間7層を複製し、総パラメータ数は72B → 78B
- 重み変更なしで構造だけを修正し、追加のVRAM消費なしにポインタ複製方式で実装
リーダーボードでの成果
| 項目 |
スコア |
基準比の向上 |
| 平均 |
44.75 |
+2.61% |
| MATH Lvl 5 |
38.97 |
+8.16% |
| MuSR |
23.72 |
+17.72% |
| BBH |
+2.51% |
|
| GPQA |
+2.58% |
|
| IFEval |
-2.05% |
|
- 5項目で向上し、平均スコアでリーダーボード1位を達成
- 開発過程でリーダーボード項目を使用していないため、純粋な構造的汎化効果と評価された
Transformerの「機能的回路」の発見
- 単一レイヤーの反復には効果がなかった一方、連続したブロック単位の反復でのみ性能が向上
- これは中間層が**独立した反復演算ではなく、多段階演算回路(circuit)**として動作していることを意味する
- 例: 46〜52番レイヤーは1つの「レシピ」のように段階的推論を行う
- ブロック全体を繰り返すと、推論をもう一度実行する効果が生じる
ヒートマップ分析と「LLM Neuroanatomy」
- 各(i, j)組み合わせの性能を可視化したヒートマップはfMRIに似たパターンを示した
- 数学タスクでは中間層の反復で向上し、EQタスクでは別の領域で向上
- これはTransformer内部にタスク別の機能回路が存在することを示唆する
誤った複製の副作用
- 一部の組み合わせでは、モデルが異常な言語反復や妄想的な出力を示した
- これは特定の回路を過度に拡張した結果であり、**「人工的な脳損傷」**にたとえられる
- 例: 社会的適切性の回路が損なわれ、異常な対話パターンが発生
後続研究と派生モデル
- RYS-XLargeを基盤に、複数の研究者がファインチューニングとORPO学習を追加で実施
- 2026年初頭時点で、リーダーボード上位4モデルはすべてRYS構造ベースの78Bモデル
- calme-3.2, calme-3.1, CalmeRys-78B-Orpo, calme-2.4-rys
構造的拡張とその意味
- レイヤー複製はファインチューニングと独立しており、並行して適用可能
- モデルが「何を知っているか」ではなく、「どのように思考するか」を変える方法である
- 大規模モデルほど機能領域が分化しており、回路単位の複製が効果的
- 小規模モデルではエンコード・推論・デコード機能が絡み合っており、同じ効果は限定的
今後の計画
- Qwen、MiniMax、GLMなど最新モデルに同じ手法を適用中
- 各モデルごとに**固有の「神経解剖学的構造」**が存在することを確認
- 今後コード公開とRYSシリーズの追加配布を予定
- 著者は「いまやラットの脳ではなく人工の脳を解剖している」と表現した
結論
- 重み変更なしでレイヤー複製だけによりLLM性能を向上させた実験
- Transformer内部に機能的回路と構造的分化が存在することを実証
- これはモデル解釈可能性(mechanistic interpretability)と効率的なアーキテクチャ拡張の新たな方向性を示す
1件のコメント
Hacker News の意見
ポイント数に対してコメント数がここまで不均衡なのは驚き
記事の内容が本当に豊富で、技術的な内容を一般の人にも理解できるようにうまくかみ砕いて書いていたのが印象的だった
特に「Goliathが動作したという事実そのものが驚きだ」という部分が核心だと思う。なぜもっと多くの研究者がこれに注目しなかったのか気になる
また、筆者が生命工学で脳を研究していたところから、どうやってGPUの地下室(?)でAIを扱うようになったのかも興味深い
CNNの初期層のカーネルがGaborフィルターに収束するように、LLMの内部層もエネルギー効率・情報圧縮・エントロピー最適化といった普遍的な数学的最適化に収束すると見ている
発見の過程を詳しく見せてくれたのが本当によかった。結果よりその過程のほうが面白い
特に抽象的推論を入れ子にすることで性能を高め、heatmapで確率分布を可視化した部分が印象的だった
関連論文も徐々に追いついてきている
ただしSOLARのようなモデルはいずれ限界にぶつかる気がする。heatmapを見ると、transformerスタックは最初はランダムな重みから始まり、学習中に徐々に**「器官」のように特化した構造へと変わっていく
「token-to-thought」や「thought-to-token」のような器官は1つずつしか存在すべきではない。結局は専門化された構造**が常に勝つと思う
「Goliathが動作したのが驚きだ」という意見に同感
以前にも複数モデルを組み合わせる実験はあったが、その多くはRedditやDiscordのコミュニティ実験レベルだった。学界や企業の研究者たちはあまり注目していなかった
それでも、LlamaとQwenのようなまったく異なるモデルの層を混ぜても動作するのかは気になる
また、LLMが算術問題で最後の数字を落としたり順序を入れ替えたりする奇妙な誤りを出す理由も興味深い。文法パースを強制すれば改善するのか試してみたい
LLMの内部に認知的共通語(cognitive lingua franca)が潜んでいるかもしれないという発想が興味深い
これを使ってプラグイン型の知識バンクを作れるかもしれない。
必要な知識だけ差し込んで使うスリムなモデルを作れれば、全体を再学習しなくても最新の知識を保てるだろう
筆者の言う**潜在空間推論(latent space reasoning)**が本当に印象的だった
単に層を複製するだけで学習が逆伝播されるという点に驚かされる。
複製した層を反復(loop)させると性能がどう変わるのかも気になる。MoEモデルと比べれば、各層が独立した専門家として動作しているのか確認できそうだ
ただし、複数の区間で層を多重複製し、XGBoostベースのメタモデルでマージを予測する実験は面白かった。MoEとも相性がよい
ただ、妻はこの時間の無駄(?)をあまり好んでいない
LLM内部の**「脳手術」という概念は魅力的だ。llama.cppがビジョンモデルをサポートし始めたとき、projectorで生成された埋め込みの一部を0にして、LLMに画像を説明させてみた
すると実際には存在しない人物や背景**を作り出すなど、驚くような結果が出た。
いつかベクトル次元と意味の相関関係を体系的に実験してみたい
私も中間層の活用について似た直感を持っていた。
このYouTube動画を見て考えを整理したのだが、層を反復(loop)するほど層の順序は固定されている必要がない、という結論に至った
もし反復中に特定の層が不要ならスキップし、必要な層だけを繰り返せるなら、最終的には単一層MOEモデルに行き着くかもしれない。
「どれだけ深く考えるか」を調整する推論強度ノブのような概念もあり得る
それでもtransformerブロックの呼び出し順をランダム化して性能変化を試すのは興味深そうだ
記事を読みながら知識の幾何学的構造に共感した。
さまざまな分野を横断するジェネラリストの思考様式が、こうした神経構造を反映しているように思える。
おかげで一日が楽しくなった
約7つの層ブロックだけが機能し、それより多くても少なくてもだめだという点が興味深い
これはtransformer内部に、まだ私たちが理解していない**機能単位(「器官」)が存在することを示唆している
Qwen以外に、LlamaやMistralのような別のアーキテクチャでも同じ「7層の魔法」**が現れるのか気になる
このアイデアを見ると2つの疑問が浮かぶ
もしモデルが内部層の変形にここまで寛容なら、すべてのトークンにすべての層を通す必要はない
問題の難易度に応じて反復回数を調整するモデルを作れば、簡単な問題は高速に、難しい問題はより深く推論できるはずだ
学習中に**自分の信頼度(confidence)**を予測し、追加計算が必要かどうかを判断させることもできるだろう