Karpathy、Autoresearchでnanochatを2日間自動チューニングしGPT-2学習時間を11%短縮

(x.com/karpathy)

17 ポイント投稿者 xguru 2026-03-11 | 3件のコメント | WhatsAppで共有

3日前に公開した Autoresearchエージェント が、depth=12モデルを基準に約2日間自律的に約700件の変更を試し、検証損失（validation loss）を改善する 約20件の有効な変更点 を発見
発見された変更点はすべて 加算的（additive） であり、より大きいdepth=24モデルにもそのまま転移され、リーダーボードの "Time to GPT-2" が2.02時間から 1.80時間へ約11%短縮
これまではアイデア創出 → 実装 → 検証損失確認 → 論文参照などの 反復的な手動最適化 の過程を20年間行ってきた
今回はエージェントが実験結果のシーケンスを分析し、それを基に 次の実験を自律的に計画 するワークフロー全体をエンドツーエンドで実行
現在 "round 1" の結果はコミット済みで、"round 2" を開始予定。並列処理のため 複数エージェント間の協調（collaboration） 方式も並行して研究中（AgentHub）
まだ 画期的な研究（ground-breaking research） の水準ではないが、手動チューニングで見逃していた実際の改善点が積み重なり、実質的な性能向上を達成
大規模適用では単一の train.py チューニングよりはるかに複雑だが、本質的には エンジニアリング問題 であるため解決可能
エージェントスウォーム（agent swarm） で小規模モデルからチューニングし、有望なアイデアを徐々に大きなスケールへ昇格させる方式は、すべてのLLMフロンティアラボが採用せざるを得ない流れになるはず
効率的に評価可能な、またはプロキシメトリクスがある あらゆるメトリクス が、この自動最適化の対象になり得る

3件のコメント

hanje3765 2026-03-11

AutoresearchとAgentHubのコンセプトを少し眺めてみたのですが、
この2つを組み合わせれば、それこそ本当の意味での学界や研究所なのではないか、という気がしました。
研究所は研究成果を学会に出し、フィードバックを反映して新たな研究を行うわけで、まるで拡張された形式の強化学習のように見えました。
RLは説明不可能ですが、この方式へと拡張すれば、どんなことでも説明可能になるのが本当に革新的だと感じました。
Karpathyという人はTeslaのFSD設計に貢献したと言われていますが、そこからつながる概念を研究のほうへ持ち込んだのかな、とも思いました。
とにかく、これからも追いかけて見ていきたくなる人物の一人だと思います。

sea715 2026-03-11

そうですね。だから、ある意味ではこれがAGIが来る前の最後のハードルなのかもしれない、という気がします

xguru 2026-03-11

この方は何か別の人生を生きている気がしますね（笑）

Karpathy、Autoresearchでnanochatを2日間自動チューニングしGPT-2学習時間を11%短縮

関連記事

3件のコメント