OpenAI o3、ARC-AGI-PUBで画期的な高スコアを達成

(arcprize.org)

3 ポイント投稿者 GN⁺ 2024-12-21 | 1件のコメント | WhatsAppで共有

OpenAIのo3システムがARC-AGI-1公開データセットで新記録を樹立
- Semi-Private Evaluation: 高効率モードで75.7%を達成
- 高コストモード（172倍高い計算量）: 87.5%を記録
GPT系列モデルの限界を超え、新しく適応的なタスク処理能力を示す重要な進展
GPT-3（2020年）0% → GPT-4o（2024年）5% → o3で75.7%まで進歩
ARC-AGI-1の結果は、AI能力向上に関する新たな直感を提示

ARC PrizeとAGI研究の未来

ARC PrizeはAGI研究の目標地点として機能することを目指す
2025年にARC-AGI-2をリリース予定:
- 人間には簡単だがAIには難しい問題で構成
- 新たな高効率・オープンソースソリューションの開発を目標
o3の成果は、新しいAGIベンチマーク設計の必要性を強調

OpenAI o3のARC-AGIテスト結果

テストデータセットと方法

Semi-Private Eval: 過学習防止を目的に使われた非公開タスク100件
Public Eval: 公開タスク400件
高効率（6サンプル）および低効率（1024サンプル）の2つの計算量設定でテストを実施

主な成果（高効率 vs 低効率）

Semi-Private Eval:
- 高効率: 75.7% / コスト$20 / タスクあたり1.3分
- 低効率: 87.5% / タスクあたり13.8分
Public Eval:
- 高効率: 82.8% / コスト$17
- 低効率: 91.5%

効率性と性能の関係

高効率スコアはARC-AGI-Pub基準（$10,000以下）で1位を獲得
低効率スコアは、計算量の増加によって性能が向上することを示唆する一方、コストは高い
o3は単なる計算量の増加で達成された成果ではない。AIの根本的な適応能力の改善

AGIをめぐる議論

ARC-AGIとAGIの違い

ARC-AGIはAIの汎化能力を評価する研究ツール
o3はARC-AGIで優れた成果を示したが、AGIと見なすには不十分
- 簡単なタスクで失敗する場合がある
- 今後のARC-AGI-2ではスコアが30%以下に落ちる可能性がある
広告

o3の主な差別化要因

従来のGPTモデルと比べて、新規タスク処理と適応能力が改善
自然言語プログラムの探索・実行方式を導入:
- テスト中にタスクを解く「思考の連鎖（Chain of Thought）」を探索
- Monte-Carlo木探索に似たアプローチ
- 自然言語の指示を生成・実行する形でプログラム化

従来のGPTモデルとの比較

従来のGPTは「保存 → 検索 → 適用」方式で動作
新しいタスクへの適応力不足が限界だった
o3は既存機能を再構成し、新しいタスクに適応できる能力を持つ

今後の研究の方向性

o3のオープンソース分析

ARC Prizeは高効率・オープンソースソリューションの開発を目標とする
o3のテストデータと未解決課題を公開:
- コミュニティに未解決タスクの特性分析への参加を呼びかけ
- DiscordチャンネルとGitHubで議論可能

次世代ベンチマーク

ARC-AGI-2の開発が進行中:
- 2025年1四半期末にリリース予定
- 従来のARC-AGI形式を離れた完全に新しい設計
ARC Prize財団は、AGI研究のための新たなベンチマークを継続的に開発する計画

結論

OpenAI o3はGPT系列の限界を超えるAI適応能力を実証した画期的な成果
LLM主導の自然言語プログラム探索の導入により、新たな領域を切り開いた
今後は効率性と性能のバランスを取る研究と、オープンソース化を通じた協力が必要

1件のコメント

GN⁺ 2024-12-21

Hacker Newsの意見

効率性が重要になってきている。ARC-AGI-TUNEDという用語は、多くの計算資源が使われたことを示唆している。人間がARC-AGIパズルを解くコストと比べると、現在の計算環境では人間レベルの推論コストはかなり高い。
自然言語パターンの解読は、パズルよりも複雑だ。AIがパズルを解くよう訓練されると、外部メディアに対する訓練データの生成は難しい。ブロックパターンの答えを最小限の追加訓練で推論するのは印象的だ。
o3-miniのプログラミング課題はそれほど難しくなかった。Claude 3.5 Sonnetに課題を与えたところ、最初の試行で成功した。
Francois CholletのARCは非常に興味深く、挑戦しがいのあるLLMベンチマークだ。多くの人がARCは真の推論を表していないと批判してきたが、ARCが測定するものが推論にとって重要だということを証明している。
人間の成績は85%で、o3 highは87.5%だ。これは、人間レベルの性能を達成できるアルゴリズムが存在することを意味する。AGIが近づいていると感じる理由を説明している。
o3はAGIの本質的な側面を含んでいる。ARC問題の解決には、複数の中核的知識を用い、適切な抽象化レベルを使う必要がある。
o3モデルの実行コストは非常に高い。しかし国家レベルでは、経済的でなくても重要な進歩になり得る。人間に似た知能を持つAIが需要に応じて提供できるようになれば、その影響は予想より早く現れるかもしれない。
ARC-AGIはAGIを達成したことを意味しない。o3は依然として簡単な作業で失敗する。ARC-AGI-2ベンチマークは、依然としてo3にとって挑戦となるだろう。
ARCであれどんなベンチマークであれ、真の一般知能と混同すべきではない。一般知能は、かなりの事後的な観点の利点によってのみ識別できるだろう。

OpenAI o3、ARC-AGI-PUBで画期的な高スコアを達成

ARC PrizeとAGI研究の未来

OpenAI o3のARC-AGIテスト結果

テストデータセットと方法

主な成果（高効率 vs 低効率）

効率性と性能の関係

AGIをめぐる議論

ARC-AGIとAGIの違い

o3の主な差別化要因

従来のGPTモデルとの比較

今後の研究の方向性

o3のオープンソース分析

次世代ベンチマーク

結論

関連記事

1件のコメント

Hacker Newsの意見