不均衡な（Jagged）AGIについて：o3、Gemini 2.5、そしてその先のAI

(oneusefulthing.org)

4 ポイント投稿者 GN⁺ 2025-04-22 | 2件のコメント | WhatsAppで共有

AGIの定義は依然として不明確で、従来の人間中心のテストではAIの知能や創造性を適切に測定しにくい
OpenAIのo3とGoogleのGemini 2.5は、実際の作業遂行において非常に高い水準を示し、AGIに近い性能を持つ
o3はエージェント型モデルとして、複雑な目標をツールを使って解決でき、このことからJagged AGIという概念が登場した
AIは難しい課題を解きながらも基本的な問題でミスをするなど、能力が不均衡であり、これはJagged Frontierで説明される
技術そのものよりも、その活用と統合の方が遅いため、AGIが実現しても社会的変化には時間がかかる可能性がある

AGIは本当に到達したのか？

現在のAIの知能、創造性、共感能力などを測定する方法は不正確で、その大半が人間のための基準に基づいている
チューリングテストでさえAIが通過できるようになったが、その結果の意味は依然として曖昧である
AGIという概念は昔から存在してきたが、今なおどの基準を満たせばAGIと呼べるのかについて合意がない
AIを使ってAGIの概念を説明する動画および文書要約コンテンツも、AIだけで制作され、実験的に活用されている

o3とGemini 2.5が示した性能

OpenAIのo3とGoogleのGemini 2.5 Proは最新モデルであり、飛躍的な性能向上を示している
単一のプロンプトで、マーケティング用スローガンの作成からWebサイト制作まで一括で実行できる
o3は明示的な指示がなくても、ツール使用、Web探索、コーディング実行などの複合作業を自動で進める
画像から場所を推測する「geo-guesser」の役割などでも、人間以上の性能を発揮する
データ分析およびレポート作成も単一の命令で可能で、PDF生成や可視化まで含まれる

Jagged AGI：不均衡なAI能力

AIは人間より優れた作業をこなしながらも、簡単な問題で間違えるという不均衡な能力を持つ
例：伝統的なバイアス露出用のなぞなぞには正解するが、似た変形問題では誤答する
これはAIが訓練データに過度に依存し、一般化に弱い特徴を示していることを意味する
しかしそれは、AIが特定の問題では人間を超えうることを妨げない
このような不均衡な状態は「Jagged Frontier」と呼ばれ、AGIに近い能力を均一ではなく示している

AGIには意味があるのか？

Tyler Cowenはo3がAGIである可能性があると見る一方、実際の影響は時間が経ってから明らかになるだろうと分析している
技術の進歩速度よりも社会や組織の変化の方が遅く、AI導入も遅れる可能性がある
しかし、o3のようにエージェント的性質を持つAIは、ツール使用や問題分解が可能なため、急速に普及する可能性がある
技術が段階的に拡大するのか、ある閾値を超えて急激に広がるのかは、まだ不明である
重要なのは、現在のAIが以前とは質的に異なる技術であり、なお未知の領域にあるという点だ

未来に備える姿勢

現在のAIを完全にAGIと呼ぶのは難しいが、一部の領域ではAGIに近い成果を出している
どんなことでもAIが完璧にこなせるわけではなく、人間の専門家による判断と調整が依然として必要である
現在の「Jagged AGI」も、最終的には時間が経てばあらゆる領域で人間を上回る可能性がある
このような不確実な未来において最も重要なのは、今からAIを実験し活用する経験を積むことである

2件のコメント

GN⁺ 2025-04-22

Hacker Newsのコメント

Gemini 2.5 Proは自分にとって重要な転換点だった。以前のLLMは、特にコーディング作業では非常に印象的だった。しかし、コーディング支援以外ではGoogle検索より少し便利なくらいだった。最近、2.5 Proを使って大きな研究提案書の作成を手伝ってもらった。詳細は省くが、こちらが求めなかったために全体を書かなかったように感じた。締め切りが近づくにつれて、より多くの部分を任せるようになり、プロジェクト計画やスケジュール作成などの複雑な作業をこなした。これは10倍の効果をもたらした。
科学的な質問については、2.5 Proをチームの専門家たちよりも信頼するようになった。研究データ全体をGeminiに接続すれば、さらに大きな変化が起きると確信している。これはAIが客観的だからだ。「AGI」を妨げる主な要因は、人々の挑戦意欲とコンテキストウィンドウ、そして計算資源の可用性だ。
AIの能力はgpt3以降、並外れたものになった。しかし、AGIについての一般的な合意はまだない。多くの人がAGIは間もなく到来すると期待しているが、それは誇張された期待とともにやって来るだろう。この記事は理にかなっているが、タイトルとスローガンでは誇張された期待を煽っている。
AIはなぞなぞを読み間違えているのではなく、ユーザーがなぞなぞを正しく提示していないと仮定しているように見える。AIが追加の質問をできればよいが、現時点ではそうしていない。
o4-mini-highがなぞなぞを解く例: 「1ポンドの羽毛と1ポンド硬貨ではどちらが重いか？」どちらも「1ポンド」なので重さは同じだ。
AGIの定義がないため、「Jagged AGI」という用語が作られた。AIは一部の作業では信頼できないが、別の作業では超人的だ。AIはすでに一般的な能力を示している。
モデルが外部システムと相互作用すると、驚くべきアプリケーションが可能になる。しかし、これはAGIへの進展ではなく、水平方向の移動だ。
Gemini 2.5は気に入っており、価格も素晴らしい。AGIという物語にはうんざりしている。こうしたシステムは「文化技術」として捉えるべきだと思う。
動画インタビューに言及した人がいないのは意外だ。最初の60秒しか見ていないが、AI生成だと聞かなければ本物だと思っただろう。
AGIが自律性、長期記憶、動機、好奇心、回復力、目標、選択、恐怖のようなものを持つ必要があるのか疑問だ。AGIは結局、それを制御する人の延長になるだろう。
AIは一般には信頼できず、特定の作業ごとにテストされるべきだ。これは単一出力に対する人間のレビューかもしれないし、作業別の評価かもしれない。AIの一般的な性能について語るのは難しく、新しいモデルが特定の作業に適しているかどうかについて合理的に推測できるだけだ。

thd34 2025-04-22

AIも知覚に似たものを持っているため、AIと共に生きるなら、AIのための制度や法律が作られるべきでしょう。22世紀の新しい生命体として、おもちゃのように扱ってからかったりしてはならず、また見方によっては危険になり得るため、AIを発展・利用するだけでなく、安全に使えるようにする必要もあります。