ARC-AGI-3 - 初の対話型推論ベンチマーク

(arcprize.org)

1 ポイント投稿者 GN⁺ 2026-03-27 | 1件のコメント | WhatsAppで共有

ARC-AGI-3は、AIエージェントの人間レベルの知能を測定するための初の対話型推論ベンチマークであり、環境探索と適応学習能力を評価する
すべての課題は人間が解ける環境で構成され、時間経過に伴うスキル習得効率と長期計画能力を測定する
事前知識なしに明確な目標とフィードバックを提供し、暗記型アプローチを防ぐ新規性のある課題構造を維持する
リプレイ可視化、開発者ツールキット、評価用UIを通じて、エージェントの行動と推論過程を透明に検証できる
公開ゲームセットとドキュメント、SDK、コミュニティチャネルを通じて、ARC Prize 2026大会への参加とエージェントテストを支援する

ARC-AGI-3 概要

ARC-AGI-3は、AIエージェントの人間レベル知能を測定するための対話型推論ベンチマークとして設計されている
- エージェントが新しい環境を探索し、目標を把握し、適応可能な世界モデルを構築して継続的に学習する能力を評価する
- 100%スコアは、AIがすべてのゲームを人間と同じ効率で解決できることを意味する
- 静的なパズル解きではなく、環境内での経験を通じて学習し、戦略を調整する必要がある
- 自然言語による指示なしで知覚、行動選択、戦略適応を行わなければならない

主な機能

再生可能な実行(run)、エージェント統合用の開発者ツールキット、透明な評価用UIを含む
リプレイと評価
- エージェントの行動をリプレイ形式で可視化し、意思決定、行動、推論過程を時系列で追跡できる
- サンプルリプレイを提供
ツールとUI
- ARC-AGI-3 ツールキットを通じてエージェントを統合し、インタラクティブUIでテストと反復実行が可能
- Play and test リンクから直接実行できる
ドキュメント
- 環境構成、APIの使い方、統合ガイドなど、エージェント構築に必要なドキュメントを提供
- ドキュメントページからアクセス可能

1件のコメント

GN⁺ 2026-03-27

Hacker Newsの意見

scaling01のツイートを見ると、ARC-AGI-3のさまざまな評価方法の問題が指摘されている
人間の基準点が「2番目に速い人間」として定義されており、スコアは単純な正答率ではなく効率性の二乗値で計算される
つまり、人間が10ステップで解いた問題をモデルが100ステップで解くと、1%の点数しか得られない仕組み
また100%は全レベルを解いたことを意味するだけで、人間レベルを意味するわけではない
こうした設計では、モデルが人間レベルであっても100%を取れないようになっている
プロンプトは単純で、モデルは人間より5倍を超えるステップを使うことはできない
後半レベルに重みを置いたのも、継続学習を検知する意図だという
- こうした点は問題というより、むしろ正しいアプローチのように感じる。ARC-AGIへの印象はむしろ良くなった
- プロンプトが単純なのはKaggle大会で解決すべき部分だ。最新のLLMをつなげば、GPU制限のある参加者よりはるかにうまくやるだろう
- 人間基準の定義はもともと恣意的にならざるを得ない。どうせ「平均的な人間」は非識字者か、すでに亡くなっている存在なのだから
- 実際こういう設計は合理的だ。大半の人より上位80%に入るのは簡単で、95%以上も動機づけさえあれば可能だ
- むしろこの方式はLLMにとってずっと難しいテストを作っていて、その分いまのスコアがより印象的に見える
「AIと人間の学習の間に隔たりがある限りAGIではない」という話について、90年代のDeep Blue時代の比喩を思い出す
「飛行機が鳥のように羽ばたかないからといって飛んでいないわけではない」という言い方のように、人間と違う方法で学習するからといって知能が否定されるわけではない
- この隔たりは単なる哲学の問題ではなく、経済的波及効果の問題だ。隔たりが0になれば人間の知識労働は完全に代替される。完全なAGIがなくても経済は崩壊し得る
- Dijkstraの文章(EWD867)を思い出す。「コンピューターは考えられるか？」は「潜水艦は泳げるか？」と同じくらい無意味だという比喩だ
- AGIの「G」はGeneralを意味するが、人間も汎用的ではない。飛行機は鳥より多才ではないが、移動性を拡張した
- 私としてはAGI論争はもう終わった話題だ。いまのツールだけでも十分に有用で、すでにASI（自己改善型知能）の兆候すら見えている。ARC-AGI大会は単に現状を測る興味深い実験だ
- 知能は人間型だけが存在するわけではない。重要なのは出力の有用性だ。ただし意識の有無は道徳的問題で、証明できない以上、とりあえず意識があると仮定すべきだという立場だ
ARCのアプローチは非常に優れたAGI評価方式だと思う
人間とAIに同じ入力を与え、結果を比較する単純な構造だ
「General」という言葉が核心であり、ARCはまさにその汎用性を測ろうとする試みだ
AIが有用かどうかは副次的だ。このテストはこれまでで最も説得力のある試みだ
また自分の専門分野の質問をAIに投げてみると、しばしば間違った答えを返すのがわかる。私たちは知識と知能を混同しがちだ
- 「General」という表現は誤りだと思う。人間も汎用的ではなく、ばらつきのある能力を持つ。言語ではLLMがすでに人間を上回っている
- このテストは視覚認識が必要なゲームなので、盲人に運転試験を受けさせるようなものだ。ゲームをテキストに変えればLLMが人間よりうまくやるかもしれない
- 以前のARC-AGIはIQテストのようだったが、今回のバージョンはあまりに簡単だ。LLMが解けないのは入力形式の不一致のせいである可能性が高い。テキストベースのゲーム学習だけでもすぐ解決しそうだ
こういうベンチマークを見ると浮かぶ疑問は、OpenAIが人を雇ってデータセットを作ることをどう防ぐのか、ということだ
- 重要な問いはそこではなく、「モデルが一般化できるのか？」だ。ARC-AGIは視覚的な長期コンテキスト問題解決とエージェンシーを評価するよう設計されているようだ
いくつかのレベルを実際にやってみて、自分は間違いなくAGIではないと悟った
- NGI、つまりNatural General Intelligenceと呼ぶべきだろう
- ただAIはインターネット全体にアクセスでき、時間制限もなく、無数の誤答を提出しても恥ずかしくない。こうした条件は人間の試験とはまったく違う
- 「AGIの基準を下げてくれてありがとう」という冗談も聞いた
私はやや懐疑的だ
ゲームに慣れた人なら100%通過するだろうが、コンピューターを初めて使うおばあさんは完全に失敗するだろう。LLMも同じだ
結局こうしたゲームデータで学習されたモデルは簡単に適応するだろうし、それはAGIではない
- だが人間も学習によってゲームがうまくなるのだから、オンライン学習が許可されない限り、このテストは人間的な学習を反映していない
- 私も40年選手のゲーマーとして、こうしたパズルはあまりに簡単だった。ルールさえ把握すればすぐ解ける。この種の問題は自分の専門領域だ
YCローンチイベントでこのプロジェクトを直接見たが、久しぶりにインスピレーションを受けた
ARC2を試していた人が、ロボットアームをより効率的に動かす方法を発見したという話も聞いた
単にスコアを上げる過程が、実際のロボティクスの革新につながったわけだ
ARC-4、5、6も登場予定で、今後はゼロコンテキストで問題を解くモデルを期待しているという
- だがこうした拡張は結局、**ゴールポストの移動(goalpost moving)**のようにも見える
ARC-AGIがAGIと直接関係しているのかはわからない
結局のところ、特定タイプのゲームにおけるLLMの性能を測っているだけだ
人間がそのゲームを得意でも不得意でも、すでにコンピューターが人間を圧倒するゲームは数多くある
したがって重要なのは、これらのゲームが知能の代表性を持つのかどうかだ
- ARC-AGIの創設者Cholletは、知能を「初めて見る状況でどれだけうまく機能するか」と定義している。ARC-AGIはまさにその能力を測る
- だが「AGI」はマーケティング用語に近く、こうしたベンチマークは実際の業務効率より宣伝向けだ
私はこのゲームの人間テスターだった
90分で25のゲームを解き、指示では行動数を最小化するよう求められていたが、実際には速度報酬（1ゲーム5ドル）のため、素早く解くことに集中していた
そのため人間基準データは、実際より行動数が多く記録されていた可能性が高い
ARC-AGIリーダーボードで最も気に入っている点は、コスト対性能グラフだ
最近のAI性能向上はたいてい消費電力の増加とともに起きている。結局、より多くの電力を使えばより良い結果が得られるということだ

ARC-AGI-3 - 初の対話型推論ベンチマーク

ARC-AGI-3 概要

主な機能

リプレイと評価

ツールとUI

ドキュメント

関連資料とコミュニティ

関連記事

1件のコメント

Hacker Newsの意見