17 ポイント 投稿者 xguru 2026-03-11 | 3件のコメント | WhatsAppで共有
  • 3日前に公開した Autoresearchエージェント が、depth=12モデルを基準に約2日間自律的に約700件の変更を試し、検証損失(validation loss)を改善する 約20件の有効な変更点 を発見
  • 発見された変更点はすべて 加算的(additive) であり、より大きいdepth=24モデルにもそのまま転移され、リーダーボードの "Time to GPT-2" が2.02時間から 1.80時間へ約11%短縮
  • これまではアイデア創出 → 実装 → 検証損失確認 → 論文参照などの 反復的な手動最適化 の過程を20年間行ってきた
  • 今回はエージェントが実験結果のシーケンスを分析し、それを基に 次の実験を自律的に計画 するワークフロー全体をエンドツーエンドで実行
  • 現在 "round 1" の結果はコミット済みで、"round 2" を開始予定。並列処理のため 複数エージェント間の協調(collaboration) 方式も並行して研究中(AgentHub
  • まだ 画期的な研究(ground-breaking research) の水準ではないが、手動チューニングで見逃していた実際の改善点が積み重なり、実質的な性能向上を達成
  • 大規模適用では単一の train.py チューニングよりはるかに複雑だが、本質的には エンジニアリング問題 であるため解決可能
  • エージェントスウォーム(agent swarm) で小規模モデルからチューニングし、有望なアイデアを徐々に大きなスケールへ昇格させる方式は、すべてのLLMフロンティアラボが採用せざるを得ない流れになるはず
  • 効率的に評価可能な、またはプロキシメトリクスがある あらゆるメトリクス が、この自動最適化の対象になり得る

3件のコメント

 
hanje3765 2026-03-11

AutoresearchとAgentHubのコンセプトを少し眺めてみたのですが、
この2つを組み合わせれば、それこそ本当の意味での学界や研究所なのではないか、という気がしました。
研究所は研究成果を学会に出し、フィードバックを反映して新たな研究を行うわけで、まるで拡張された形式の強化学習のように見えました。
RLは説明不可能ですが、この方式へと拡張すれば、どんなことでも説明可能になるのが本当に革新的だと感じました。
Karpathyという人はTeslaのFSD設計に貢献したと言われていますが、そこからつながる概念を研究のほうへ持ち込んだのかな、とも思いました。
とにかく、これからも追いかけて見ていきたくなる人物の一人だと思います。

 
sea715 2026-03-11

そうですね。だから、ある意味ではこれがAGIが来る前の最後のハードルなのかもしれない、という気がします

 
xguru 2026-03-11

この方は何か別の人生を生きている気がしますね(笑)