- AIモデルが完全に遂行できるタスクの「長さ」 を基準に性能を測る新しい指標が提示された
- 過去 6年間で、AIが自律的に完了できるタスクの長さは約7か月ごとに2倍に増加 したと分析された
- 人間の専門家が4分以内で終えるタスクはほぼ100%成功する一方、4時間以上かかるタスクは成功率が10%未満
- この傾向が続けば、数年以内にAIが数週間単位のプロジェクトを独立して遂行 できるようになると予測される
- この研究は AIベンチマーク、将来能力の予測、リスク管理 に重要な含意を持つ
研究概要
- METRは AIがどれだけ長いタスクを完了できるか を測定する新しい方法を提示
- 測定基準は、人間の専門家がそのタスクを実行するのにかかる時間
- モデルの成功確率と人間の作業時間の関係を ロジスティック曲線 でモデル化
- このアプローチは AIの実際の活用可能性 を評価するうえで有用な指標として提示される
- 従来のベンチマークが単一問題の解決能力に偏っていた限界を補完
主な結果
- 現在のモデルの性能限界
- 人間が4分以内に行うタスクはほぼ100%成功
- 4時間以上かかるタスクは成功率が10%未満
- 例: Claude 3.7 Sonnet は約1時間の長さのタスクで50%の成功率
- 性能向上の傾向
- 過去6年間で、50%の信頼度で完了可能なタスクの長さが 約7か月ごとに2倍増加
- 対数スケール分析の結果、継続的な指数関数的成長 が確認された
- この傾向が続けば、2〜4年以内に週単位のタスクを遂行できる可能性
方法論と検証
- データセットに基づく検証
- さまざまなタスク群(ソフトウェア、推論など)について人間の実行時間を記録
- SWE-Bench Verified データセットでも同様の指数的増加を確認
- このデータでは 3か月未満で2倍増加する速度 が観察された
- 感度分析
- モデル・タスク選択、ノイズなどさまざまな要因に対する頑健性を検証
- 1か月の長さのタスクを遂行できる時点を予測するシミュレーションでは、測定誤差が大きくても傾向は維持 された
解釈と限界
- AIのベンチマーク成績と実際の有用性の乖離 を説明
- 試験問題などでは人間を上回っていても、実際の長期プロジェクト遂行は不十分
- 傾向の外挿に伴う不確実性 を認める
- 2024〜2025年のデータだけを使うと、月単位のタスクを遂行できる時期が約2.5年早まる
- 過去のデータより最近の傾向のほうが、将来の性能をより正確に予測する可能性 に言及
結論と意義
- AI性能を「タスクの長さ」で測るアプローチ は
- さまざまな難易度とドメインにおける性能向上を定量化できる
- 現実世界への影響と直接結びつく絶対的な成果の解釈 を可能にする
- 継続的な指数成長 が続く場合、
- 10年以内に自律的な月単位プロジェクトの遂行 が可能になる見通し
- これは 莫大な潜在的利益とリスク を同時に伴う
- 研究データと分析コードは GitHubで公開 されており、後続研究や再現実験を促進
2件のコメント
とても良いベンチマークのようですね。
最近のAIコーディングツールを見ると、あらかじめPlanを立ててAgentモードで動作させるケースが多いですが、これが本当に長期的な成功率に有意な影響を与えるのかも気になります。
Hacker Newsのコメント
ツイート1行分のプロンプトだったのに15分で完成していて、その間自分はKirby Air Ridersをやっていた。
ただ、この過程を通じてvector searchの構築については何も学べなかったのが残念だった。結局、欲しかったのは機能そのもので、学習は二の次だった
4時間かけて自分で作るより、エージェントが15分で作ってくれる間に別のことをして、その後30分ほどコードを読んで修正しながら質問するほうが、ずっと効率的だ。
集中した30分の学習のほうが、4時間の試行錯誤より良いかもしれない
AIもどこかでコードの構造を見失い、最終的にはOpusに依存した顧客になってしまう
昔は音楽を聴きながらScalaで問題を解く過程そのものが楽しかったのに、今は結果だけが簡単に手に入ることで、かえって虚しさを覚える
自分も取引モデルを作るとき、チャートを自分で学ぶよりLLMにコードを書いてほしい。
おかげで些細なAPI処理に時間を無駄にせず、本当に意思決定が必要な部分にだけ集中できる
PythonのHTML5パーサーをJavaScriptに移植する際、Codex CLIを9,200件のhtml5lib-testsに回してみたところ、4時間以上ループしながら問題を解決していく様子を見るのは印象的だった。
関連記事はこちらにまとめてある
Opus 4.5はこのレベルの作業を50%の信頼度でこなせるという意味であり、実際の実行時間はもっと短い。
今後、8時間や40時間といった基準を超えてくると、さらに面白くなりそうだ
ベンチマークはすぐ攻略される一方で、実務の自動化は依然として難しいことをよく示している
jqやPyPIエコシステム、TypeScriptのアノテーションなどに慣れている人なら、もっと早く終えられるかもしれない。
結局のところ、AIの魅力はこうした専門家レベルの支援を即座に受けられることにある
ほとんどのモデルは「次の段階に進もう」と言って自分で中断してしまう
この問題を解決した人がいるのか気になる
以前より価格差も縮まっていて実用価値が高まり、Haiku 4.5もreasoningを有効にすればかなり使える。
小さなツールや単一ページの編集には特に向いている
LLMのおかげで、この2段階が自然に結びつくようになった。
たとえばAnimeJSのアニメーションを作るとき、CCAgentがコードを書く過程を見ながら学び、その後で自分で構造化してリファクタリングする。
こうすれば時間の節約と創造的なコントロールを同時に得られる
つまり、短い作業にはGPT 5.1、長い作業にはOpusのほうが向いている
成功率50%で4時間級の作業を任せるのは、実質的には賭けに近く、失敗してデバッグまで必要になれば損失は大きい。
だから30分ごとに人間によるレビューのチェックポイントを置くのがよいと思う。
ただし、AIが途中で詰まったときに自力で復旧できる能力も重要だ
見た目はまともでも、後になって初めて分かる微妙なバグが多い。
だから重要な作業にはまだエージェントを使っていない。むしろ仕事の楽しさを奪われるからだ
半分の確率で結果が得られるなら、時間対効果の良い賭けかもしれない
多くの試行を素早く回せるし、失敗から学べることもある
そうすれば、LLMが依然として人間なら簡単にできることに、なぜ頻繁に失敗するのかをより明確に見られる
結果を数値で検証でき、コードは短いほどよく、単純な組み合わせではなくシステム的思考が必要になる。
今のところ、Gemini Pro 3がSIMDコード最適化では最も優れていた
4時間級の作業を何度も繰り返すと、成功確率は6.25%まで落ちる。
作業の性質次第だ