米国にはMETRという非営利研究機関があります。
米国カリフォルニア州バークレーにある非営利研究機関で、フロンティアAIモデルが長期的・自律的な作業を遂行する能力を評価しています。
一部の研究者は、このような能力が社会に深刻なリスクをもたらし得ると警告しており、METRはまさにその危険性を測定する役割を担っています。
METRの研究は大きく3つの柱で構成されています。
第一に、AIエージェントが数時間にわたるさまざまな作業を自律的に完了する能力を測る、広範な自律能力評価。
第二に、AIがAI R&Dそのものを加速できる能力の評価。
第三に、評価の完全性を脅かすAIの行動(例: サンドバッギング、報酬ハッキング)と、その対策の研究。
特にMETRが発表したTime Horizon研究は、AIエージェントが完了できる作業の長さが過去6年間で約7か月ごとに2倍ずつ増加してきたことを明らかにしており、この研究はAIがいつ変革的な影響を及ぼすかを予測するための中核的な根拠資料として活用されています。
以下は、URL先にあるページの機械翻訳版です。
概要
作業完了時間地平(task-completion time horizon) とは、AIエージェントが所定の信頼度水準で成功すると予測される作業所要時間(人間の専門家による完了時間基準)を指します。たとえば50%-時間地平は、エージェントが半分の確率で成功すると予測される作業の長さです。下のグラフは、100件以上の多様なソフトウェア作業における性能をもとに算出した、フロンティアAIエージェントの50%-および80%-時間地平を示しています。
私たちは公開されたフロンティアAIモデルの時間地平測定値を定期的に更新しています。容量上の制約により、一部のモデルはリリースから一定時間が経ってから測定されたり、一部のリリースは完全にスキップされたりする場合があります。
方法論および結果の全体的な議論については、論文およびブログ記事を参照してください。
方法論の詳細
フロンティアAIエージェントの時間地平を推定するために、まず各作業を人間の専門家が完了するのにかかる時間を推定します。各エージェントについてロジスティック曲線をフィッティングし、人間の作業所要時間の関数として作業成功確率を予測します。50%-時間地平(または80%-時間地平)を求めるには、フィッティングした曲線が50%(または80%)の成功確率と交差する作業所要時間を見つけます。
作業分布: 作業はRE-Bench、HCAST、そして短いソフトウェア作業で構成されます。主にソフトウェアエンジニアリング、機械学習、サイバーセキュリティの作業から成り、独立していて明確に定義され、自動評価可能な明確な成功基準を持ちます。
人間の作業所要時間の推定: ほとんどの作業について、人を雇って作業を試してもらい、成功した完了時間の幾何平均を取ります。これらの人々にはAIエージェントと同じ指示と環境が与えられ、できるだけ速く作業を完了するよう求められます。私たちの人間の作業所要時間推定値は、実際の専門家より過大推定になっている可能性があります。これは、その人たち(およびAIエージェント)が日常業務で同等の作業を行う専門家と比べて、作業に関する文脈情報をはるかに少なくしか持っていないためです。
よくある質問(FAQ)
Q. 「時間地平」とは、現在のAIエージェントが自律的に行動できる時間を意味するのですか?
いいえ。50%-時間地平は、AIエージェントが50%の信頼度で完了できる作業の長さ(人間の専門家基準)です。AIが作業を完了するのにかかる実際の時間ではなく、作業の難易度を測る指標です。
Q. AIエージェントが2時間の作業を完了するのに、実際にはどれくらいかかりますか?
モデル、作業、エージェント設定によって異なりますが、AIエージェントは一般に人間より数倍速いです。AIエージェントはコードを反復作業なしに一度で書くことが多く、検索する必要があることもより少ないです。また、多くのAIエージェントは人間のソフトウェアエンジニアよりはるかに高速にコーディングします。
Q. 作業所要時間の推定は、どのような人間を基準にしていますか?
ソフトウェアエンジニアリング、機械学習、サイバーセキュリティ分野の熟練した専門家で、その多くは世界上位100大学の出身です。平均して約5年の関連経験を持っています。私たちのいう2時間作業は、「プロジェクトにすでに精通した熟練専門家」ではなく、「事前文脈がほとんどない新人社員やフリーランス契約者」が2時間で完了できる作業として理解するほうが適切です。
Q. 2時間の時間地平があるということは、AIが人間が2時間以内にできるあらゆる知的作業を遂行できることを意味しますか?
いいえ。私たちの作業分布は主にソフトウェアエンジニアリング、機械学習、サイバーセキュリティの作業で構成されています。後続研究では、さまざまなドメインにわたってAIシステムの時間地平がどのように異なるかを調査しており、他のドメインでも同様の指数的トレンドを発見しましたが、絶対的な時間地平の数値は異なります。AIの能力は人間に対して「でこぼこ(jagged)」であり、経済的に価値のあるすべての作業の時間地平は複数桁にわたって分布すると予想されます。
📊 グラフの読み解き
メイングラフ(画像1、6)
GPT-2(2019年)からClaude Opus 4.6(2026年2月)までの軌跡を見ると、AIの時間地平がほぼ0分から約14時間30分へと爆発的に成長したことがわかります。特に2024〜2026年の区間では曲線が急激に立ち上がっており、ここ1〜2年の能力向上がそれ以前の数年分を圧倒しています。
複数ドメイングラフ(画像5)
METR-HRS(ソフトウェア)、MATH、GPQA、Mock AIME、SWE-benchなど、さまざまなベンチマークでいずれも時間地平が指数的に増加していることを示しています。ドメインごとに絶対値は異なりますが、上昇トレンドそのものは共通しています。
🔑 「14時間30分」の解釈 — 核心的な問い
> 「Fix complex bug in ML research codebaseで、Claude Opus 4.6が14.5時間を達成したとはどういう意味か?」
ここが最も誤解されやすい部分です。正確に説明すると次の通りです。
| 誤解 | 正確な解釈 |
|---|---|
| 「Claude Opus 4.6が14.5時間作業した」 | ❌ |
| 「Claude Opus 4.6が、14.5時間級の難易度の作業を50%の確率で成功させる」 | ✅ |
つまり14時間30分は、AIが要した時間ではなく、その作業の人間基準の難易度です。
具体的に分解するとこうなります。
- METRが「ML研究コードベースの複雑なバグ修正」という作業を選定
- 熟練した人間の専門家複数名にこの作業を行ってもらったところ、平均して約14時間30分を要した
- Claude Opus 4.6にこの同一作業を繰り返し行わせたところ、半分の確率(50%)で成功した
- したがって「Claude Opus 4.6の50%-時間地平 = 14時間30分」
実際にClaude Opus 4.6がこの作業を処理するのにかかる時間は、人間よりはるかに短いでしょう(FAQによれば、AIは通常人間より数倍速い)。
💡 含意の要約
METRの時間地平データは、AIエージェントの自律的な作業遂行能力が指数的な速度で拡大していることを客観的に示しており、Claude Opus 4.6が熟練した人間の専門家基準で14時間以上を要する複雑なソフトウェア・ML・サイバーセキュリティ作業を半分の確率で成功裏に完遂できるという事実は、AIが単なる補助ツールを超えて専門的知識労働の相当部分を実質的に代替または自動化し得る閾値に到達したことを示唆しており、このトレンドが続く場合、ソフトウェア開発・セキュリティ・研究など高技能の知識産業全般にわたり、人間の労働の役割と価値の根本的な再定義が避けられないことを強く含意しています。
26年2月に更新されたOpus 4.6は、人間の専門家なら14.5時間かかる問題を
50%の確率で成功するとされています。
驚異的なグラフだと思い、将来は次第にAIベースであらゆる業務が自動化され進んでいくのではないかという考えから投稿してみます。
まだコメントはありません。