- 人工知能研究において AGI(Artificial General Intelligence) の明確な定義が欠けていることが、人間レベルの認知と現在のAIの間にある隔たりを曖昧にしている
- 本論文は 定量化可能なフレームワーク を提示し、AGIを「十分な教育を受けた成人の認知的多様性と熟達度を備えたAI」と定義する
- 人間の認知研究における代表的モデルである Cattell-Horn-Carroll(CHC)理論 を基盤に、人間の一般知能を10個の中核認知領域へ分解してAI評価に適用する
- このフレームワークによりGPT-4とGPT-5の 認知プロファイルを数値化 し、GPT-4は27%、GPT-5は57%のAGIスコアを記録した
- これはAIの急速な進歩を示す一方で、長期記憶の保存など根本的な認知能力の欠如 により、AGI達成までにはなお大きな隔たりがあることを示唆している
AGI定義の必要性と問題意識
- AGI(Artificial General Intelligence) は人類史上もっとも重要な技術発展の一つと評価されているが、その定義は曖昧で議論を招いている
- AIが数学や芸術など、人間の知能が必要だと考えられてきた領域を次々と攻略するにつれ、「AGI」の基準が継続的に移動する現象が起きている
- その結果、AGIの到達時期や到達水準に関する議論は非生産的になり、現在のAIとAGIの間にある実際の隔たりが見えにくくなっている
- 本論文はこの曖昧さを取り除くため、定量的かつ体系的なフレームワーク を提示する
- 提案された定義: 「AGIとは、十分な教育を受けた成人の認知的多様性と熟達度を備えたAIである」
- これは単一タスクの遂行能力ではなく、認知の幅(versatility) と 深さ(proficiency) の両方を備えた知能を意味する
人間認知モデルに基づくアプローチ
- AGIの定義を実質的に実装するために、人間認知の構造をモデルとして採用する
- 人間の一般知能は単一の能力ではなく、進化によって形成された 多様な認知能力の複合体 によって構成されている
- こうした能力が人間の適応力と世界理解を可能にしている
- 研究は Cattell-Horn-Carroll(CHC)理論 に基づいている
- CHC理論は、100年以上にわたって蓄積された認知能力テストの因子分析を総合した、もっとも 実証的に検証された人間知能モデル である
- 1990〜2000年代以降、ほとんどの臨床用知能検査はCHCモデルを基盤に設計されている
- CHCは人間知能を 上位(広範)能力と下位(詳細)能力 に階層化して分類する
- 例: 帰納的推論、連想記憶、空間探索など
AI評価のためのフレームワーク設計
- 数十年にわたり蓄積されてきた 心理測定学的検査体系 をAI評価向けに変形した
- 従来のAI評価が一般化されたタスク遂行に依存していたのに対し、本研究は CHCの詳細な認知能力を備えているかどうか を直接検証する
- 人間向け認知検査と同一形式のテストをAIに適用し、認知的多様性と熟達度 を測定する
- 結果は 標準化されたAGIスコア(0〜100%) で表され、100%は完全なAGIを意味する
- GPT-4は27%、GPT-5は57%と評価され、急速な進歩と同時に依然として大きな隔たりがあることが示された
- 実験結果では、AIは複雑なベンチマークでは優れている一方で、人間には単純な 基礎認知課題 では半分程度しか解けない
- これは現在のAIが特定領域では非常に優秀である一方、全般的な認知の幅では人間より狭い知能構造 を持つことを意味する
10個の中核認知構成要素
- フレームワークはCHCの広範能力を基盤に 10個の中核認知領域 を定義し、各領域に同じ重み(10%)を与える
- 一般知識(General Knowledge, K) : 常識、文化、科学、社会科学、歴史など、世界に関する事実的理解の幅
- 読み書き能力(Reading & Writing, RW) : 言語の解読、理解、作文、文体活用などのテキスト処理能力
- 数学能力(Mathematical Ability, M) : 算術、代数、幾何、確率、微積分など、数学的知識と問題解決能力
- 即時推論(On-the-Spot Reasoning, R) : 既存知識に依存せず新しい問題を解く 柔軟な注意制御能力
- 作業記憶(Working Memory, WM) : テキスト、聴覚、視覚情報を同時に保持・操作する能力
- 長期記憶の保存(Long-Term Memory Storage, MS) : 新しい情報を継続的に学習・保存する能力
- 長期記憶の検索(Long-Term Memory Retrieval, MR) : 保存された知識を正確に呼び出し、幻覚(confabulation) を避ける能力
- 視覚処理(Visual Processing, V) : 視覚情報を認識・分析・生成・探索する能力
- 聴覚処理(Auditory Processing, A) : 音声、リズム、音楽などの聴覚刺激を識別・認識し、創造的に活用する能力
- 速度(Speed, S) : 単純な認知課題を素早く実行する能力で、知覚速度・反応時間・処理流暢性を含む
- この10領域により、テキスト・視覚・聴覚をまたぐマルチモーダル評価 が可能となり、AIの強みと弱みを精密に診断できる
現在のAIの認知プロファイルと示唆
- GPT-4とGPT-5の認知能力を比較した結果、知識中心の領域では優れているが、記憶関連領域では著しく不足している
- とりわけ 長期記憶の保存能力 が最大の欠落として指摘される
- これは現在のAIが人間レベルの一般知能に到達するために必要な 基礎的認知構造の不在 を示している
- このフレームワークはAI発展の 定量的追跡ツール として活用できる
- AGIスコアを通じて、モデル間の進歩速度と残された隔たりを明確に数値化できる
- 今後のAI研究において 認知的バランスの取れた発展 の重要性を強調する指標として機能する
結論
- 本研究はAGIをめぐる議論の曖昧さを取り除き、人間認知モデルに基づく定量的定義 を提示する
- CHC理論に基づく10の認知領域評価を通じて、AIの 認知的な幅と深さ を客観的に測定できる
- GPT-4とGPT-5の結果は、AIが急速に進歩している一方で、記憶・推論・感覚統合能力 などの中核認知要素において、なお人間と大きな差があることを示している
- 提案されたフレームワークは、今後のAGI研究における 標準化された評価基準 として活用される可能性を持つ
1件のコメント
Hacker Newsの意見
AGIを**「十分な教育を受けた成人の認知的多様性と熟達度」**と定義するのは、目標として高すぎるように感じる
実際、教育を受けていない子どもレベルの認知能力を持つ人工知能ですら、とてつもない達成だろう
動物レベルの知能を実装することさえ、人類史的な出来事になると思う
本当に汎用AIを作るなら、おそらく数十億個のパラメータで構成されたモデルが、オンラインで情報を調べ、必要なときにだけ記憶を保持し、計画し、知識を拡張していく程度のものだろう
30言語を知っている必要もないし、Wikipediaを丸ごと暗記している必要もない
こうした効率的なモデルこそ、私が考えるAGIの定義だ
以前のチューリング・テストも、結局は欠陥が明らかになった —— 単に平均的な人間の尋問者を通過したからといって、本当の知能だとは言えなかった
本当の**知能(I)**を定義できるなら、**汎用性(G)**は自然についてくるはずだ
論文を読んで感じたのは、「意識(awareness)」についての議論がまったくないことだ
認知は根本的に意識を必要とするが、意識は言語で説明したり測定したりしにくい
仏教や哲学が何千年も探究してきたが、いまだに定義不能だ
私の父は心理測定学の教授だが、人間の知能を測る道具そのものがあまりにも不完全だと言っている
言語は人間の知識を収められても、「意識の火花」までは捉えられない
瞑想をしてみると、思考が消えても行動は可能だ —— こうした非言語的な過程はモデルには学習できない
LLMは言語的予測という構造上、このような無意識的な思考過程を実装できないと思う
人間の脳もLLMも、内部で高次元の概念融合やベクトル結合を行っている
問題は、継続学習、長期記憶、無限の文脈処理がないことだ
この3つが解決されれば、AGIにさらに一歩近づくと信じている
意識の存在を証明することもできないのに、それを前提にするのは非生産的だ
哲学的論争を待つ必要はなく、私たちはすでに思考し推論する機械を作っている
ところがAIの議論では、いつも1種類の知能しか扱われない
宗教や瞑想は「意識が身体の内に存在すること」を強調するが、AGIの議論ではこうした超越的側面が欠陥として扱われる
意識が生じれば、自律性と権利が生まれるからだ
産業界が欲しているのは、道徳的責任を持たない**「従順な道具」**だ
自分自身に意識があることだけは確信できる
だからこそ、意識は知能の有用な指標ではない
人間の知能を生物学から切り離して考えるのは誤りだと思う
人間の思考は生物学的状態と進化的サイクルに深く根ざしている
チェスの実力は比較できても、人間の感情や推論は論理というより生物学に近い
空腹も死も感情もないので、自ら探究したり改善したりしようという内的動機がない
人間は内側から成長するが、AIは外側から訓練される
だからLLMが人間的な意味でのAGIに到達するのは難しいと思う
だが私はその前提に懐疑的だ
結局のところ、「知能」の定義はAIが示す結果に合わせて再定義される可能性が高い
宗教的な問いに近く、ただ技術的に記述しているだけだ
LLMはその記述には近づけても、本当の知能ではないかもしれない
知能は人間の生物学に縛られていないと思う
この論文はまるでSATの点数とベンチャーキャピタルの評価を混ぜたような印象を与える
AGIを「人間のあらゆる認知能力を持つAI」と定義すること自体、すでに曖昧だ
論文は「AGIの具体的定義を提示する」と言っているが、依然として**「十分な教育を受けた成人」という不明確な基準に依存している
AIはすでに多くの分野で成人レベルを超えている
論文の言うギザギザした(jagged)認知プロファイルは、実際にはあらゆる知能が環境によってそうなるものだ
だからこれはAGIの定義ではなく、単にAIの認知的不均衡を測定する枠組み**にすぎない
驚くべきなのは、AIのほうが人間よりはるかに**不均衡(jagged)**だという点だ
AIは技術的には興味深いが、「AGIとは何か」という議論はあまりにも退屈だ
まるで量子コンピューティングの話をするたびに、「キュービットとは何か」から説明しなければならないような感覚だ
技術は目的地ではなく、継続的改善のプロセスだ
結局、あらゆる技術はいずれ古びて、懐かしさだけが残る
AIも進化し続けるだろうが、私たちはその速度に慣れていく茹でガエルにすぎない
目的地ではなくても、議論する価値は十分にある
意識と思考の本質は何百年も前から論じられてきた主題だ
新しい洞察のように見えて、実際には古い哲学の焼き直しだ
この論文は、人間用の知能測定ツールを機械にそのまま適用しようとしている点で根本的に誤っている
たとえば「dual N-backテスト」は、人間の作業記憶の変動を測るためのものだが、Transformerモデルには意味がない
人間の知能検査は、人間の現実世界での成果との相関を前提に設計されている
したがって、AIがIQテストで高得点を取ったからといって、現実世界で高知能の人間のように行動できることを意味しない
私たちはすでに**SAGI(Stupid Artificial General Intelligence)**を持っている
人間より速かったり優れていたりする部分もあるが、同時に愚かな部分もある
それは、飛行機が鳥のようには飛ばないが、それでも飛べるのと同じだ
関連する議論は When Will AI Transform the Economy? で扱われている
数学者が使う「Naive Set Theory」のように、単純だが実用的な概念だ
興味深いのは、HNでは大半の人が今のAIを**「偽物」や「おもちゃ」として片づける一方で、
世の中で最も成功している人々はそこに数兆ドルを投資していることだ
どちらが正しいのかは分からないが、この極端な対比**は興味深い
価値のないものを作っても成功することはある
GPT-5が58%のスコアを取ったというのは、高すぎるように感じる
実際にはAGIにそこまで近づいていない
しかも、Gary MarcusとYoshua Bengioが同じ論文にいるのは奇妙だ
最近は著者リスト自体がパフォーマンスのように見える