- ARC-AGI-3は、AIエージェントの人間レベルの知能を測定するための初の対話型推論ベンチマークであり、環境探索と適応学習能力を評価する
- すべての課題は人間が解ける環境で構成され、時間経過に伴うスキル習得効率と長期計画能力を測定する
- 事前知識なしに明確な目標とフィードバックを提供し、暗記型アプローチを防ぐ新規性のある課題構造を維持する
- リプレイ可視化、開発者ツールキット、評価用UIを通じて、エージェントの行動と推論過程を透明に検証できる
- 公開ゲームセットとドキュメント、SDK、コミュニティチャネルを通じて、ARC Prize 2026大会への参加とエージェントテストを支援する
ARC-AGI-3 概要
- ARC-AGI-3は、AIエージェントの人間レベル知能を測定するための対話型推論ベンチマークとして設計されている
- エージェントが新しい環境を探索し、目標を把握し、適応可能な世界モデルを構築して継続的に学習する能力を評価する
- 100%スコアは、AIがすべてのゲームを人間と同じ効率で解決できることを意味する
- 静的なパズル解きではなく、環境内での経験を通じて学習し、戦略を調整する必要がある
- 自然言語による指示なしで知覚、行動選択、戦略適応を行わなければならない
主な機能
- 再生可能な実行(run)、エージェント統合用の開発者ツールキット、透明な評価用UIを含む
-
リプレイと評価
- エージェントの行動をリプレイ形式で可視化し、意思決定、行動、推論過程を時系列で追跡できる
- サンプルリプレイを提供
-
ツールとUI
- ARC-AGI-3 ツールキットを通じてエージェントを統合し、インタラクティブUIでテストと反復実行が可能
- Play and test リンクから直接実行できる
-
ドキュメント
- 環境構成、APIの使い方、統合ガイドなど、エージェント構築に必要なドキュメントを提供
- ドキュメントページからアクセス可能
関連資料とコミュニティ
1件のコメント
Hacker Newsの意見
scaling01のツイートを見ると、ARC-AGI-3のさまざまな評価方法の問題が指摘されている
人間の基準点が「2番目に速い人間」として定義されており、スコアは単純な正答率ではなく効率性の二乗値で計算される
つまり、人間が10ステップで解いた問題をモデルが100ステップで解くと、1%の点数しか得られない仕組み
また100%は全レベルを解いたことを意味するだけで、人間レベルを意味するわけではない
こうした設計では、モデルが人間レベルであっても100%を取れないようになっている
プロンプトは単純で、モデルは人間より5倍を超えるステップを使うことはできない
後半レベルに重みを置いたのも、継続学習を検知する意図だという
「AIと人間の学習の間に隔たりがある限りAGIではない」という話について、90年代のDeep Blue時代の比喩を思い出す
「飛行機が鳥のように羽ばたかないからといって飛んでいないわけではない」という言い方のように、人間と違う方法で学習するからといって知能が否定されるわけではない
ARCのアプローチは非常に優れたAGI評価方式だと思う
人間とAIに同じ入力を与え、結果を比較する単純な構造だ
「General」という言葉が核心であり、ARCはまさにその汎用性を測ろうとする試みだ
AIが有用かどうかは副次的だ。このテストはこれまでで最も説得力のある試みだ
また自分の専門分野の質問をAIに投げてみると、しばしば間違った答えを返すのがわかる。私たちは知識と知能を混同しがちだ
こういうベンチマークを見ると浮かぶ疑問は、OpenAIが人を雇ってデータセットを作ることをどう防ぐのか、ということだ
いくつかのレベルを実際にやってみて、自分は間違いなくAGIではないと悟った
私はやや懐疑的だ
ゲームに慣れた人なら100%通過するだろうが、コンピューターを初めて使うおばあさんは完全に失敗するだろう。LLMも同じだ
結局こうしたゲームデータで学習されたモデルは簡単に適応するだろうし、それはAGIではない
YCローンチイベントでこのプロジェクトを直接見たが、久しぶりにインスピレーションを受けた
ARC2を試していた人が、ロボットアームをより効率的に動かす方法を発見したという話も聞いた
単にスコアを上げる過程が、実際のロボティクスの革新につながったわけだ
ARC-4、5、6も登場予定で、今後はゼロコンテキストで問題を解くモデルを期待しているという
ARC-AGIがAGIと直接関係しているのかはわからない
結局のところ、特定タイプのゲームにおけるLLMの性能を測っているだけだ
人間がそのゲームを得意でも不得意でも、すでにコンピューターが人間を圧倒するゲームは数多くある
したがって重要なのは、これらのゲームが知能の代表性を持つのかどうかだ
私はこのゲームの人間テスターだった
90分で25のゲームを解き、指示では行動数を最小化するよう求められていたが、実際には速度報酬(1ゲーム5ドル)のため、素早く解くことに集中していた
そのため人間基準データは、実際より行動数が多く記録されていた可能性が高い
ARC-AGIリーダーボードで最も気に入っている点は、コスト対性能グラフだ
最近のAI性能向上はたいてい消費電力の増加とともに起きている。結局、より多くの電力を使えばより良い結果が得られるということだ