7 ポイント 投稿者 GN⁺ 2025-10-27 | 1件のコメント | WhatsAppで共有
  • 人工知能研究において AGI(Artificial General Intelligence) の明確な定義が欠けていることが、人間レベルの認知と現在のAIの間にある隔たりを曖昧にしている
  • 本論文は 定量化可能なフレームワーク を提示し、AGIを「十分な教育を受けた成人の認知的多様性と熟達度を備えたAI」と定義する
  • 人間の認知研究における代表的モデルである Cattell-Horn-Carroll(CHC)理論 を基盤に、人間の一般知能を10個の中核認知領域へ分解してAI評価に適用する
  • このフレームワークによりGPT-4とGPT-5の 認知プロファイルを数値化 し、GPT-4は27%、GPT-5は57%のAGIスコアを記録した
  • これはAIの急速な進歩を示す一方で、長期記憶の保存など根本的な認知能力の欠如 により、AGI達成までにはなお大きな隔たりがあることを示唆している

AGI定義の必要性と問題意識

  • AGI(Artificial General Intelligence) は人類史上もっとも重要な技術発展の一つと評価されているが、その定義は曖昧で議論を招いている
    • AIが数学や芸術など、人間の知能が必要だと考えられてきた領域を次々と攻略するにつれ、「AGI」の基準が継続的に移動する現象が起きている
    • その結果、AGIの到達時期や到達水準に関する議論は非生産的になり、現在のAIとAGIの間にある実際の隔たりが見えにくくなっている
  • 本論文はこの曖昧さを取り除くため、定量的かつ体系的なフレームワーク を提示する
    • 提案された定義: 「AGIとは、十分な教育を受けた成人の認知的多様性と熟達度を備えたAIである」
    • これは単一タスクの遂行能力ではなく、認知の幅(versatility)深さ(proficiency) の両方を備えた知能を意味する

人間認知モデルに基づくアプローチ

  • AGIの定義を実質的に実装するために、人間認知の構造をモデルとして採用する
    • 人間の一般知能は単一の能力ではなく、進化によって形成された 多様な認知能力の複合体 によって構成されている
    • こうした能力が人間の適応力と世界理解を可能にしている
  • 研究は Cattell-Horn-Carroll(CHC)理論 に基づいている
    • CHC理論は、100年以上にわたって蓄積された認知能力テストの因子分析を総合した、もっとも 実証的に検証された人間知能モデル である
    • 1990〜2000年代以降、ほとんどの臨床用知能検査はCHCモデルを基盤に設計されている
    • CHCは人間知能を 上位(広範)能力と下位(詳細)能力 に階層化して分類する
    • 例: 帰納的推論、連想記憶、空間探索など

AI評価のためのフレームワーク設計

  • 数十年にわたり蓄積されてきた 心理測定学的検査体系 をAI評価向けに変形した
    • 従来のAI評価が一般化されたタスク遂行に依存していたのに対し、本研究は CHCの詳細な認知能力を備えているかどうか を直接検証する
    • 人間向け認知検査と同一形式のテストをAIに適用し、認知的多様性と熟達度 を測定する
  • 結果は 標準化されたAGIスコア(0〜100%) で表され、100%は完全なAGIを意味する
    • GPT-4は27%、GPT-5は57%と評価され、急速な進歩と同時に依然として大きな隔たりがあることが示された
  • 実験結果では、AIは複雑なベンチマークでは優れている一方で、人間には単純な 基礎認知課題 では半分程度しか解けない
    • これは現在のAIが特定領域では非常に優秀である一方、全般的な認知の幅では人間より狭い知能構造 を持つことを意味する

10個の中核認知構成要素

  • フレームワークはCHCの広範能力を基盤に 10個の中核認知領域 を定義し、各領域に同じ重み(10%)を与える
    • 一般知識(General Knowledge, K) : 常識、文化、科学、社会科学、歴史など、世界に関する事実的理解の幅
    • 読み書き能力(Reading & Writing, RW) : 言語の解読、理解、作文、文体活用などのテキスト処理能力
    • 数学能力(Mathematical Ability, M) : 算術、代数、幾何、確率、微積分など、数学的知識と問題解決能力
    • 即時推論(On-the-Spot Reasoning, R) : 既存知識に依存せず新しい問題を解く 柔軟な注意制御能力
    • 作業記憶(Working Memory, WM) : テキスト、聴覚、視覚情報を同時に保持・操作する能力
    • 長期記憶の保存(Long-Term Memory Storage, MS) : 新しい情報を継続的に学習・保存する能力
    • 長期記憶の検索(Long-Term Memory Retrieval, MR) : 保存された知識を正確に呼び出し、幻覚(confabulation) を避ける能力
    • 視覚処理(Visual Processing, V) : 視覚情報を認識・分析・生成・探索する能力
    • 聴覚処理(Auditory Processing, A) : 音声、リズム、音楽などの聴覚刺激を識別・認識し、創造的に活用する能力
    • 速度(Speed, S) : 単純な認知課題を素早く実行する能力で、知覚速度・反応時間・処理流暢性を含む
  • この10領域により、テキスト・視覚・聴覚をまたぐマルチモーダル評価 が可能となり、AIの強みと弱みを精密に診断できる

現在のAIの認知プロファイルと示唆

  • GPT-4とGPT-5の認知能力を比較した結果、知識中心の領域では優れているが、記憶関連領域では著しく不足している
    • とりわけ 長期記憶の保存能力 が最大の欠落として指摘される
    • これは現在のAIが人間レベルの一般知能に到達するために必要な 基礎的認知構造の不在 を示している
  • このフレームワークはAI発展の 定量的追跡ツール として活用できる
    • AGIスコアを通じて、モデル間の進歩速度と残された隔たりを明確に数値化できる
    • 今後のAI研究において 認知的バランスの取れた発展 の重要性を強調する指標として機能する

結論

  • 本研究はAGIをめぐる議論の曖昧さを取り除き、人間認知モデルに基づく定量的定義 を提示する
  • CHC理論に基づく10の認知領域評価を通じて、AIの 認知的な幅と深さ を客観的に測定できる
  • GPT-4とGPT-5の結果は、AIが急速に進歩している一方で、記憶・推論・感覚統合能力 などの中核認知要素において、なお人間と大きな差があることを示している
  • 提案されたフレームワークは、今後のAGI研究における 標準化された評価基準 として活用される可能性を持つ

1件のコメント

 
GN⁺ 2025-10-27
Hacker Newsの意見
  • AGIを**「十分な教育を受けた成人の認知的多様性と熟達度」**と定義するのは、目標として高すぎるように感じる
    実際、教育を受けていない子どもレベルの認知能力を持つ人工知能ですら、とてつもない達成だろう
    動物レベルの知能を実装することさえ、人類史的な出来事になると思う

    • 問題は、人々が現在のLLMの示す印象的な結果を、人間の認知的多様性と混同していることだと思う
    • 人間の大半は専門家型であって、汎用型ではない
      本当に汎用AIを作るなら、おそらく数十億個のパラメータで構成されたモデルが、オンラインで情報を調べ、必要なときにだけ記憶を保持し、計画し、知識を拡張していく程度のものだろう
      30言語を知っている必要もないし、Wikipediaを丸ごと暗記している必要もない
      こうした効率的なモデルこそ、私が考えるAGIの定義だ
    • 認知的多様性と熟達度そのものを定義すること自体が難しいと感じる
      以前のチューリング・テストも、結局は欠陥が明らかになった —— 単に平均的な人間の尋問者を通過したからといって、本当の知能だとは言えなかった
    • 「人々はそれを分かっていない」と言うが、実際にはこの話はすでに何度も聞かれてきた基本的な論点だと思う
    • 「I(知能)」の定義もまともにできないままAGIを定義しようとする試みは、いつも滑稽だ
      本当の**知能(I)**を定義できるなら、**汎用性(G)**は自然についてくるはずだ
  • 論文を読んで感じたのは、「意識(awareness)」についての議論がまったくないこと
    認知は根本的に意識を必要とするが、意識は言語で説明したり測定したりしにくい
    仏教や哲学が何千年も探究してきたが、いまだに定義不能だ
    私の父は心理測定学の教授だが、人間の知能を測る道具そのものがあまりにも不完全だと言っている
    言語は人間の知識を収められても、「意識の火花」までは捉えられない
    瞑想をしてみると、思考が消えても行動は可能だ —— こうした非言語的な過程はモデルには学習できない
    LLMは言語的予測という構造上、このような
    無意識的な思考過程
    を実装できないと思う

    • 意識とは、単に神経網における持続的な信号伝播のことだと考えている
      人間の脳もLLMも、内部で高次元の概念融合やベクトル結合を行っている
      問題は、継続学習、長期記憶、無限の文脈処理がないことだ
      この3つが解決されれば、AGIにさらに一歩近づくと信じている
    • 「意識がないから認知もない」という主張は、定義されていない概念に頼る特別懇願のように聞こえる
      意識の存在を証明することもできないのに、それを前提にするのは非生産的だ
      哲学的論争を待つ必要はなく、私たちはすでに思考し推論する機械を作っている
    • ハワード・ガードナーの『多重知能理論』を見ると、人間の知能には言語的・感情的・自然的などさまざまな形がある
      ところがAIの議論では、いつも1種類の知能しか扱われない
      宗教や瞑想は「意識が身体の内に存在すること」を強調するが、AGIの議論ではこうした超越的側面が欠陥として扱われる
    • 私たちは意識を望んでいない
      意識が生じれば、自律性と権利が生まれるからだ
      産業界が欲しているのは、道徳的責任を持たない**「従順な道具」**だ
    • 意識は測定不可能だ
      自分自身に意識があることだけは確信できる
      だからこそ、意識は知能の有用な指標ではない
  • 人間の知能を生物学から切り離して考えるのは誤りだと思う
    人間の思考は生物学的状態と進化的サイクルに深く根ざしている
    チェスの実力は比較できても、人間の感情や推論は論理というより生物学に近い

    • 現在のAIの最大の限界は、**欲望(desire)**がないことだ
      空腹も死も感情もないので、自ら探究したり改善したりしようという内的動機がない
      人間は内側から成長するが、AIは外側から訓練される
      だからLLMが人間的な意味でのAGIに到達するのは難しいと思う
    • しかし、意識や感情に必ず生物学的基盤が必要だという根拠はない
    • 今のAIブームは、「知能は単に複雑性とエネルギー投入でシミュレーション可能だ」という信念の上に成り立っている
      だが私はその前提に懐疑的だ
      結局のところ、「知能」の定義はAIが示す結果に合わせて再定義される可能性が高い
    • 実のところ、私たちは知能や意識が何であるかすら分かっていない
      宗教的な問いに近く、ただ技術的に記述しているだけだ
      LLMはその記述には近づけても、本当の知能ではないかもしれない
    • もし地球外生命体が炭素ではなくケイ素ベースの生物だったとして、その知能を否定できるだろうか?
      知能は人間の生物学に縛られていないと思う
  • この論文はまるでSATの点数とベンチャーキャピタルの評価を混ぜたような印象を与える

  • AGIを「人間のあらゆる認知能力を持つAI」と定義すること自体、すでに曖昧だ
    論文は「AGIの具体的定義を提示する」と言っているが、依然として**「十分な教育を受けた成人」という不明確な基準に依存している
    AIはすでに多くの分野で成人レベルを超えている
    論文の言う
    ギザギザした(jagged)認知プロファイルは、実際にはあらゆる知能が環境によってそうなるものだ
    だからこれはAGIの定義ではなく、単にAIの
    認知的不均衡を測定する枠組み**にすぎない

    • 「十分な教育を受けた成人」を基準にすると、歴史上の人類の大半はAGIではないことになってしまい、おかしい
    • 人間のさまざまな知能指標が高い相関関係を持つという研究もある
      驚くべきなのは、AIのほうが人間よりはるかに**不均衡(jagged)**だという点だ
  • AIは技術的には興味深いが、「AGIとは何か」という議論はあまりにも退屈だ
    まるで量子コンピューティングの話をするたびに、「キュービットとは何か」から説明しなければならないような感覚だ
    技術は目的地ではなく、継続的改善のプロセス
    結局、あらゆる技術はいずれ古びて、懐かしさだけが残る
    AIも進化し続けるだろうが、私たちはその速度に慣れていく
    茹でガエル
    にすぎない

    • だが、技術が自ら改善を続ける段階に到達するなら、それは間違いなく注目に値する転換点だろう
      目的地ではなくても、議論する価値は十分にある
    • こうした議論は、哲学入門レベルの繰り返しのように感じる
      意識と思考の本質は何百年も前から論じられてきた主題だ
      新しい洞察のように見えて、実際には古い哲学の焼き直しだ
  • この論文は、人間用の知能測定ツールを機械にそのまま適用しようとしている点で根本的に誤っている
    たとえば「dual N-backテスト」は、人間の作業記憶の変動を測るためのものだが、Transformerモデルには意味がない
    人間の知能検査は、人間の現実世界での成果との相関を前提に設計されている
    したがって、AIがIQテストで高得点を取ったからといって、現実世界で高知能の人間のように行動できることを意味しない

  • 私たちはすでに**SAGI(Stupid Artificial General Intelligence)**を持っている
    人間より速かったり優れていたりする部分もあるが、同時に愚かな部分もある
    それは、飛行機が鳥のようには飛ばないが、それでも飛べるのと同じだ

    • 「低い参入障壁、高い潜在力」(low floor/high ceiling)という概念のほうが有用だと思う
      関連する議論は When Will AI Transform the Economy? で扱われている
    • 「Naive Artificial General Intelligence」という表現も悪くないと思う
      数学者が使う「Naive Set Theory」のように、単純だが実用的な概念だ
    • 良い比喩だと思う
  • 興味深いのは、HNでは大半の人が今のAIを**「偽物」や「おもちゃ」として片づける一方で、
    世の中で最も成功している人々はそこに
    数兆ドルを投資していることだ
    どちらが正しいのかは分からないが、この
    極端な対比**は興味深い

    • 成功とは結局、他人の金をどれだけうまく集められるかの尺度にすぎない
      価値のないものを作っても成功することはある
  • GPT-5が58%のスコアを取ったというのは、高すぎるように感じる
    実際にはAGIにそこまで近づいていない
    しかも、Gary MarcusとYoshua Bengioが同じ論文にいるのは奇妙だ
    最近は著者リスト自体がパフォーマンスのように見える

    • AI開発では、最初の90%は簡単だが、最後の1%は残りの99%より難しいという言葉を思い出す