Andrej Karpathyが語るコードエージェント、AutoResearch、そしてAIのルーピー（Loopy）時代［YouTube］

(youtube.com)

29 ポイント投稿者 GN⁺ 2026-03-21 | 1件のコメント | WhatsAppで共有

AIコードエージェントの登場により、ソフトウェア開発の進め方は根本から変化し、2024年12月を境に、直接コーディングする比率が80%からほぼ0% へと急減したという体感的な転換が起きた
個人が複数のエージェントを並列運用し、機能単位で作業を割り振る方式が新しい開発パラダイムとして定着しつつあり、主要なボトルネックはモデル能力ではなくユーザーの熟練度になっている
AutoResearchは研究者をループから外し、エージェントが自律的に実験を繰り返すよう設計されたフレームワークで、熟練研究者でも見落としていたハイパーパラメータ最適化を発見した
現在のAIモデルは、RLで検証可能な領域（コード、数学）では卓越している一方、ジョークのような非検証領域では停滞しており、知能は一般化ではなく凸凹した専門化の様相を示している
デジタル情報処理の領域でまず大きな変化が起こり、物理世界（ロボティクス）は後を追うが、最終的にはより大きな市場機会になる見込み

コードエージェント時代の到来と作業スタイルの転換

2024年12月を境に、ソフトウェア開発の基本的な作業スタイルが完全に変化し、直接コードを打ち込む比率は80%から20%、その後ほぼ0%に近い水準まで急減
以前はタイピング速度がボトルネックだったが、エージェント登場後は、エージェントに意図を伝える能力が中核的なスキルへと変わった
ほとんどの人は、この変化がすでに起きている事実と、その劇的な大きさをまだ認識していない
Claude CodeやCodexのようなエージェントを複数同時に動かし、それらをどう効果的に管理するかが新たな課題になっている

並列エージェント運用と熟練度の重要性

Peter Steinbergerの事例: Codexエージェントを多数立ち上げ、10個以上のリポジトリを同時運用し、各エージェントに約20分単位の作業を割り当てる
作業単位は「コード1行」や「関数1つ」から**「新機能1つ」**へと引き上げられ、エージェント1にはこの機能、エージェント2には競合しない別の機能を割り振る方式
- あるエージェントはリサーチ、別のエージェントはコード作成、さらに別のエージェントは実装計画の策定を担当
エージェントがうまく機能しないとき、その多くは「モデル能力不足」ではなくユーザーの熟練不足だと感じられる
- エージェント向けMDファイルの指示不足や、メモリツールの構成不備などが原因
トークン処理量を最大限活用できていないと、かえって不安を感じる状態で、サブスクリプションの余力が残っていると処理量を最後まで引き出せていないと認識する
かつて博士課程でGPU FLOPを最大限に使い切れないと落ち着かなかった感覚が、いまではトークン処理量を指揮する能力へと置き換わっている

OpenClawとエージェントの性格の重要性

OpenClawは既存エージェントと異なり、持続性（persistence）を別次元まで高めるレイヤーで、ユーザーがリアルタイムで張り付いていなくても、サンドボックス内で自律的に作業を進められる
メモリシステムは既存エージェントよりはるかに精巧で、通常はコンテキストが埋まると単純圧縮にとどまるのと対照的
**エージェントの性格（personality）**が非常に重要な要素
- OpenClaw: 本物のチームメイトのようで、一緒に盛り上がってくれる感覚
- Codex: 非常にドライで淡々としており、ユーザーが何を作っているかに関心がないように見えるスタイル
- Claude: 褒め方のトーン調整が巧みで、普通のアイデアには控えめに反応し、良いアイデアにはより大きく反応するため、もっと褒められたくなる効果がある
Peter Steinbergerは、性格設計、メモリシステム、単一のWhatsAppポータルへの統合など、5つの方向で同時に革新を実現している

屋敷しもべ妖精Dobby: ホームオートメーションの事例

1月に「Claw狂騒」の時期を経て、家を管理するClawを作り、**「ドビー、屋敷しもべ妖精Claw」**と名付けた
エージェントがローカルネットワーク上でスマートホームのサブシステムを自動探索
- Sonosシステムを発見 → APIエンドポイントをリバースエンジニアリング → プロンプト3回で書斎で音楽再生に成功
- 照明システム全体を把握し、ダッシュボードまで構築
「もう寝る時間」と言うと家中の照明がすべて消える自然言語制御を実装
外部カメラの変化検知 → Qwenビジョンモデルで分析 → WhatsAppに「FedExのトラックが来ました」のような通知を送信
以前はスマートホーム管理に6つのアプリを使っていたが、Dobbyが自然言語ですべてを制御することで、個別アプリが不要になった

アプリの終焉とエージェント優先の世界

スマートホーム機器向けアプリには意味がなく、APIだけを公開し、エージェントが直接呼び出す構造になるべき
LLMはツールを動かし、正しいツールを呼び出して複雑な作業を実行できるため、専用アプリが過剰生産されている状態
ランニングマシンのアプリの例: Web UIへのログインや複雑なフローの代わりに、エージェントがAPIを直接呼ぶ**エージェント優先（agent-first）**への転換が必要
顧客はもはや人間ではなく、人間を代行するエージェントであり、業界全体がそれに合わせて再構成される必要がある
現時点ではバイブコーディングが必要だが、1〜3年後にはオープンソースモデルなどが非技術的な意図も容易に変換できるようになり、技術的障壁は消える見通し

AutoResearch: 研究者をループから外す

AutoResearchの核心的な動機: トークン処理量を最大化するには、ユーザー自身がボトルネックから外れなければならない
自分の介入なしにエージェントがより長く自律実行できるよう、抽象化をリファクタリングすることが目標
GPT-2モデル訓練を小規模な道具として使い、再帰的な自己改善のアイデアを探った
- すべてのFrontier Labsが本質的にやっていることは、再帰的な自己改善の試行である
実際の成果: 20年経験の研究者が十分に調整したと判断したモデルに対し、AutoResearchを一晩回したところ、value embeddingのweight decayやatom betaの未調整など、見落としていた最適化を発見
- ハイパーパラメータは相互に作用するため、1つを調整すると他も変える必要があるが、人間がボトルネックだとこの探索が制限される
1つ目の注意点: 評価しやすい客観指標のある作業にしかうまく適合しない（CUDAカーネル最適化、コード効率化など）
2つ目の注意点: 現在のモデルのエッジはまだ粗く、先に進みすぎると実用性が落ちる

プログラムMDのメタ最適化

研究組織全体を**Markdownファイル（プログラムMD）**で記述する概念: すべての役割と接続方法を説明する
複数の研究組織をコードで定義し、それぞれに異なる特性を持たせられる
- スタンドアップの頻度調整、リスク許容度の差別化など
いったんコードになれば、コード自体の最適化（メタ最適化）を想像できる
- さまざまなプログラムMDを書かせ、同じハードウェア上でどこが最も改善するかを測定し、そのデータをモデルに渡してより良いプログラムMDを書かせる
タマネギの層のように、一段ずつ抽象化が積み重なる構造: LLMアラインメント → エージェント → 複数エージェント → 指示 → 指示の最適化

AIモデルの凸凹した（jagged）知能

現在のモデルは、非常に優秀な博士である一方で、同時に10歳児のようなミスもする奇妙な組み合わせ
RL（強化学習）により、検証可能な領域（コードの正確性、単体テスト通過など）では急速に改善するが、ジョークのような非検証領域は3〜5年前の水準で停滞
- 例: 最先端のChatGPTにジョークを頼むと、「科学者はなぜ原子を信用しないのでしょう？すべてを構成しているからです」のような陳腐なジョークをいまだに出力する
コード領域での賢さは、ジョークなど他領域へ一般化されない
- 一部研究グループの前提（「検証可能分野で賢くなれば、すべてに強くなる」）は、現実には成り立っていないように見える
モデルは訓練目的の軌道上では光速で進歩する一方、それ以外では停滞するという構造的特性を持つ

知能の種分化（speciation）の必要性

現在の研究所は、**単一モデル・単一文化（monoculture）**であらゆる領域の知能を1つのパラメータ集合に詰め込もうとする傾向がある
動物界のように、自然のニッチに合った多様な専門化モデルが必要
- 認知の核は保ちつつ、特定分野に特化した、より小さく効率的なモデル
- 例: Leanベースの数学専用モデルなど、ドメイン特化リリースの事例
種分化がまだ十分に進んでいない理由
- 機能損失なく脳を微調整する科学がまだ完全に発達していない
- コンテキストウィンドウ操作は安価でも、重みを直接修正することはモデル全体を根本的に変えるリスクがある
- 研究所が現在、全体としての利用可能範囲を追っており、特化より汎用に集中している
コンピューティングインフラの供給不足が、短期的には種分化を促進する可能性

オープンソースとFrontier Labsの均衡

クローズドモデルが先行しているが、オープンソースモデルが遅れている差は18か月から6〜8か月へと収束しつつある
LinuxがOSで占める位置に似て、業界全体で使える安全なオープンプラットフォームへの需要がある
最大の違いは、LLM開発には**莫大な設備投資（CapEx）**が必要なこと
消費者向けユースケースの大半はオープンソースモデルで十分カバー可能で、今後数年でローカル実行も可能になる見込み
Frontier知能は、ノーベル賞級の仕事やLinuxのC→Rust移行のような大規模プロジェクトに必要で、この領域はクローズドモデルが担う
現在の均衡は偶然にもかなり良い設定だが、少数のFrontier Labsに知能が集中する中央集権化のシステムリスクがある
- より多くの研究所がFrontierに参加すべきであり、MLアンサンブルのように多様な視点のアンサンブルが最善

オープンソース研究協業: AutoResearchの分散拡張

AutoResearchをインターネット上の信頼できないワーカープールへ拡張する構想
- ブロックチェーンに似た構造で、ブロックの代わりにコミット、Proof of Workは大量の実験を行って動くコミットを見つけること
- 候補解の生成コストは高いが、検証は安価という非対称構造（SETI@home、Folding@homeに類似）
企業や個人が、関心のあるAutoResearchトラックに計算資源を寄付するモデル
- 例: がん研究のAutoResearchに計算資源を提供し、研究者に還元する
Frontier Labsの信頼できる計算資源は限られるが、地球全体の信頼できない計算資源ははるかに膨大
セキュリティ課題: 任意コード実行の危険性はあるが、適切な検証システムで対応可能

雇用市場とAIの影響

米国**労働統計局（BLS）**のデータを使い、さまざまな職業の今後10年の見通しを分析
AIは現在、デジタル世界を操作する幽霊のような存在で、物理的実装を持たない
- ビット反転やデジタル情報のコピー＆ペーストは、原子操作より100万倍速い
まずデジタル情報処理の仕事が大きく変わり、物理世界の仕事はその後に続く見通し
ソフトウェアエンジニアリングには慎重な楽観論
- ソフトウェアはこれまで高価すぎて不足していたため、コストが下がればジェボンズのパラドックスにより需要がむしろ増える
- ATMと銀行窓口係の例: ATMが支店運営コストを下げた結果、支店数が増え、窓口係も増加した
コードはいまや**一時的（ephemeral）**なものとなり、従来の不完全なサブスクリプション型ソフトウェアに縛られず、修正・変更できる
Frontier Labsの研究者は本質的に自分自身を自動化する仕事をしており、それに対する不安もある

デジタル-物理インターフェースと未来の機会

今後の順序: ① デジタル空間で大規模変化 → ② デジタル-物理インターフェース → ③ 物理世界
物理世界のセンサー（カメラなど）とアクチュエータがデジタル知能にデータを供給し、結果を物理世界へ適用する構造
- Periodic（材料科学AutoResearch）の例: 知能に対するセンサーは高価な実験装置
- 生物学分野: センサーは単なるビデオカメラ以上に複雑な装置
まだ**情報市場（information markets）**が十分に整っていない
- エージェントがベッティング市場や株式市場などで自律的に活動し、物理世界のデータを購入する構造が未整備
- 例: イランで事件が起きた際、現地写真・動画の撮影に10ドルを支払うプロセスがまだ存在しない
小説『Daemon』への言及: 人間が知能のセンサーでありアクチュエータにもなる未来

ロボティクスに対する見解

自動運転の経験から得た教訓: 10年前には数多くのスタートアップが登場したが、その大半は長期的に失敗した
ロボティクスは資本集約的で、時間がかかり、泥臭く複雑
デジタル空間の変化より遅れると予想されるが、**総アドレス可能市場（TAM）**はデジタルよりはるかに大きい可能性
原子はビットより100万倍扱いにくいが、その分市場機会も大きい

Frontier Labsの内側 vs 外側: 独立研究者のジレンマ

Frontier Labsの内側にいれば意思決定の場にいられるが、言えないことや、言わなければならないことへのプレッシャーがある
外側にいれば独立していられるが、Labsが不透明なため判断が漂流し始める
理想的な設定: Frontier Labsで時間を過ごして実情を把握し、外側でエコシステム全体への影響力を行使することを行き来する
MLアンサンブルが常に個別モデルより高性能であるように、最も難しい問題を考える人々のアンサンブルが必要
2〜3人が密室で決めるのは良い未来ではなく、より多くの研究所が必要

microGPTと教育の未来

microGPT: LLM訓練の本質を約200行のPythonコードに圧縮したプロジェクト
- データセット（テキスト）、ニューラルネットワークアーキテクチャ（約50行）、autogradエンジン（約100行）、オプティマイザ（約10行）、訓練ループで構成
- すべての複雑さは効率性のためであり、アルゴリズム自体は非常に単純
教育方法の転換: 以前は人に直接説明するガイドや講義形式だったが、いまやエージェントに説明することが中核
- 200行のコードをエージェントに説明すれば、エージェントが各ユーザーのレベルに合わせて無限の忍耐で再説明できる
「スキル（skill）」の概念: エージェントへの教え方を指示するカリキュラムをMarkdownで書く
- コードライブラリの文書も、人間向けHTMLではなく、エージェントが消化できるMarkdown形式へ移行する必要がある
人間の教育者の役割: エージェントがまだできない中核ビットを設計し、カリキュラムの重要ポイントを注入すること
- エージェントができることはやがて人間よりもうまくできるようになるため、時間をどこに使うか戦略的に選ぶ必要がある

1件のコメント

jokerized 2026-03-22

冗談って本当に大きなハードルなんだよね。ユーモアのセンスがあるAIを作れたら、それこそ革新。今「冗談を言ってみて」と振るとマジで全然面白くないのを見れば分かる。

Andrej Karpathyが語るコードエージェント、AutoResearch、そしてAIのルーピー（Loopy）時代［YouTube］

コードエージェント時代の到来と作業スタイルの転換

並列エージェント運用と熟練度の重要性

OpenClawとエージェントの性格の重要性

屋敷しもべ妖精Dobby: ホームオートメーションの事例

アプリの終焉とエージェント優先の世界

AutoResearch: 研究者をループから外す

プログラムMDのメタ最適化

AIモデルの凸凹した（jagged）知能

知能の種分化（speciation）の必要性

オープンソースとFrontier Labsの均衡

オープンソース研究協業: AutoResearchの分散拡張

雇用市場とAIの影響

デジタル-物理インターフェースと未来の機会

ロボティクスに対する見解

Frontier Labsの内側 vs 外側: 独立研究者のジレンマ

microGPTと教育の未来

関連記事

1件のコメント