- 近年のAIの発展では、新しいアイデアよりも新しいデータセットの導入が中核となっている
- 大きなブレークスルーの大半は、既存技術を新しいデータソースに適用することで生まれた
- AI技術そのものの革新より、データの変化のほうがモデル性能に大きな影響を与える
- 今後のパラダイム転換も、YouTubeやロボットなど新しいデータ源を活用するときに起こる可能性が高い
- 研究者の多くは新しい方法論に注目しているが、実際の発展の核心はデータにある
AI発展の現状とパターン
- AIはこの15年間、特に直近5年間で飛躍的な進歩を遂げてきた
- 一部の研究者は、AIは特定のタスク遂行能力において**「AI版ムーアの法則」のように指数関数的に発展**していると主張する
- しかし実際には大きなブレークスルーは頻繁には起こらず、遅いが着実な進歩が続く構造になっている
革新はどこから来るのか
- 多くの人は、AIの進歩はMIT、Stanford、Googleなど学界・産業界のアイデアから生まれると考えている
- 研究を通じて、モデル学習コストを下げ、効率を改善するシステム面の革新は確かに続いている
- 2022年にStanfordのFlashAttentionが開発され、メモリ活用を最適化
- 2023年にはGoogleのspeculative decodingで推論速度が向上
- 2024年のMuonプロジェクトは新しいオプティマイザ手法を提示
- 2025年のDeepSeek-R1は、オープンソースで主要AI研究所級のモデルを提供
- 研究者たちはarXiv、学会、ソーシャルメディアなどを通じて成果を素早く公開・共有しており、グローバルに分散した科学実験が活発に進んでいる
なぜAIの革新が鈍化したように感じるのか
- 最近のGrok 3、GPT-4.5など、最新モデルの性能向上幅が小さくなっている
- 数学オリンピックのような実戦評価で成績が低く、誇張された発表だという指摘もある
- 大きなパラダイム変化(ディープラーニング、トランスフォーマー、RLHF、Reasoning)は10年単位でまれに登場する
大きなブレークスルーの共通点: 新しいデータセット
- 4つの主要なブレークスルーは、新しいデータソースを初めて大規模に活用した時期と一致する
- AlexNet: ImageNet(ラベル付きの大規模画像データ)
- Transformers: ウェブ全体のテキストデータ(Internet)
- RLHF: 人間がフィードバックした「良いテキスト」データ
- Reasoning: 電卓・コンパイラなど外部検証ツールの結果
- 各データセットが初めて大規模導入された後は、残されたデータの確保競争と効率的な活用技術の開発が続く
新しいアイデア vs データの役割
- 特定のモデルアーキテクチャでなくても、同じデータさえ与えられれば似た水準のモデルは開発できる
- 実際には、技術的革新よりも学習に使われるデータセットの置き換えのほうが性能に大きく影響する
- AlexNetの代わりに別の構造が登場しても、ImageNetがあったからこそ発展が可能だった
- Transformerでなくても、LSTMやSSMなどが同じデータで似た性能を示す
- データセットが学習結果の上限を決めるのであり、モデルやアルゴリズムの改善だけでは乗り越えられない
- The Bitter Lessonで強調されているように、新しい方法よりも本当に重要なのは結局データである
次のAIパラダイム転換の候補
- AIの次の大きな飛躍は、新しいnetworkやRL手法ではなく、これまで活用されてこなかった新規データソースを使うときに起こる可能性が高い
- つまり、新しいデータセットを大規模に確保したときにパラダイム転換が起こる可能性が高い
- 最も注目される候補: YouTubeなどの動画データ
- YouTubeには毎分500時間分の動画がアップロードされている
- テキストより何十倍も膨大な情報を含み、言語的ニュアンス、物理的・文化的文脈まで学習できる
- Googleなどのビッグテックが、このデータセット学習にまもなく本格参入する可能性が高い
- もう一つの可能性: ロボット(embodied system)を通じた物理世界データの収集
- カメラやセンサーデータをGPUで大規模に処理・学習できるインフラが整えば、このデータもAI革新の源泉になる可能性が高い
- テキストデータは限界に達しつつあり、動画・ロボットなど新しいデータソースがAIの未来を決める可能性が高い
結論
- AIの次の進歩は、新しいアイデアやアルゴリズムではなく、新しいデータ源から生まれる
- 研究者の95%は新しい方法論に集中しているが、実際の革新はデータセットの変化から起こる
- AIの発展を望むなら、新しいアイデアではなく新しいデータの確保に集中すべきだ
1件のコメント
Hacker Newsの意見
John Carmackが探求している方法はかなり興味深い内容だと語っている
2Dビデオゲームを超人的にうまくプレイするモデルを訓練したあと、これまで見たことのない2Dゲームや新しいレベルでもうまくできるか試した経験を共有
未経験のゲームではモデルの性能がむしろ低下したという結果を挙げ、これは人工知能ではなく特定課題への習熟にすぎないと強調
超知能(ASI)への恐怖をあおるより、新しい2Dゲームを人間より速く学ぶ汎用知能を作るほうがはるかに難しいと述べる
John Carmackが実際にこの結論に使ったモデルは最新技術ではなく、高価な foundational model を使っていない遊び寄りのプロジェクトだと指摘
深いビデオ/ビジョンAI研究であれば、ゲーム全般に適用可能な確率ベースの latent space を操作する方式のほうが適していると言及
veo3がプロンプト制約のもとで映像を生成する機能を挙げ、AIが2D・3Dゲームを一般化できる例として説明
veo3は実際、特定ゲームへの fine-tuning なしでも、どんなゲームでもそれらしくプレイしているような結果を見せられると主張
なぜ人々がわざわざこのような形で議論を進めるのか理解しがたいと述べる
与えられた目標を達成する方法は明らかに複数あり、John CarmackがAIの専門家でもないのに、なぜ彼の実験が標準のように受け取られるのか疑問を呈する
モデル規模を大きくしすぎて、オーバーフィッティング(特定データセットだけに合う現象)が起きたのではないかと考える
モデルに制約条件を与えれば、より一般的なヒューリスティック(経験則)を学習するよう導けるのではないかと疑問を示す
制約のないAIなら、結局は最適なスピードラン記録を再生するだけになりがちだが、新しいコンテンツに出会ったときには多様なヒューリスティックのほうがはるかに重要だと強調
言及されているテーマは Meta-Reinforcement Learning(メタ強化学習)の分野だと説明
John Carmackがこの分野を探ることには意味があるが、まったく新しい研究テーマではないと伝える
Meta-Reinforcement Learning の簡単な紹介
モデルが「本当の知能」を持っているかという問題は、AGI(汎用人工知能)を考える学界にとっては面白いテーマだが、実際にLLMを有用に使っている多くのユーザーにとってはそれほど重要ではないと述べる
今の進歩がAGIにつながるかどうかは気にしていないという立場
たとえClaude 4で止まったとしても、引き続き有用に使うだろうと共有
AGI論争よりも、人々が最近実際にAIをどう活用しているのかのほうがはるかに興味深いテーマだと強調
今の私たちはAI黎明期を生きていると自信を持って語る
言語(LLM: GPT-4, Claude)と視覚(CLIP, DALL·E)の2分野で、AIが驚異的な進歩を見せたことを例に説明
コンピュータは詩やコードを生成し、写真を説明し、人間レベルの対話までこなすが、実際にはテキストと画像という2つのモダリティを拡張したにすぎないと指摘
人間の知性は、触覚、味覚、嗅覚、運動、感情など、多様な感覚が豊かに絡み合ったマルチモーダルな特性を持つ
LLMやVision Transformerはこうした要素をほとんど実装できていない
本当のAIのフロンティアは、日常生活にある複雑で豊かな感覚世界だと強調
そのためには、新しいセンサー、トークンを超えるデータ表現法、経験ベースで学習する新たなモデル訓練法が必要だと説明
言語や視覚の分野が人工知能の本質の出発点にすぎないという意見に、丁寧に反論
触覚は興味深いが、オンライン上のあらゆる相互作用に十分なのはオーディオ、ビデオ、言語だと主張
人間と動物の決定的な違いは「残りの感覚」ではなく、音声、画像、言語にあると説明
現実世界で行動するには触覚・固有感覚・嗅覚の統合が重要だが、知能そのものの核心は言語と視覚だという見方
有機的な適応性と記憶の持続性こそ、最も進歩すべき2つの点だと考える
人間の脳は動的に構造が変わるのに対し、LLMは固定されており、与えられた情報を繰り返し学習して初めて「学ぶ」構造だと指摘
インテリジェントな機械を作るには、自らリアルタイムで学習し、情報を記憶できなければならないと強調
私たちが現在持つAIアーキテクチャでは、言語と視覚で打ち止めかもしれないという見方
ここ数年はLLMに関するニュースが多かったが、それ以外のAI分野で目立ったブレークスルーはほとんどない状況だと示す
本当のAI発展の未来は、人間のように感覚が豊かで、物理世界に結びついた生そのものにあると強調
すでに『Dr. Who』でダーレク(Dalek)が脳を持つ機械ではなく、機械そのものだと言われたように、人間もまた身体全体がその人自身なのだという比喩で説明
「信じがたいほどの進歩」について、1970年代に行き詰まった技術を100万倍強力なコンピュータに載せただけだという冷笑的な見方
今後、性能が幾何級数的に上昇しうるモデル構造や計算方式の根本的革新は、とくに見当たらないと述べる
科学的進歩と技術的進歩の混同について言及
科学が進歩するときはSカーブ的に急成長したあと、やがて収穫逓減の局面に入ると説明
高速な最適化フェーズと鈍化フェーズを区別できていない現象を指摘
単なる誇張や期待感を「技術的進歩」と呼ぶのは甘すぎると皮肉る
Sカーブと指数関数の違いを人々はあまり理解していないのではないかと付け加える
ある区間ではほとんど同じように見えることもあると説明
なぜDeepSeekが特別に言及されるのか疑問
モデルアーキテクチャ関連の研究や論文を読む立場からすると、数多くの新しいアイデアが次々に出ていると指摘
ただし、本当に興味深い結果を出すものは一部に限られる
PyTorchのようなライブラリが実験的開発を妨げている面もあるのではないかと推測
基本的な構成要素をそのまま持ってくることが当たり前になりすぎた結果、各要素について深く考えなくなっている部分もあると判断
「モデルカード」にチェックを入れるため、他人が作ったトークナイザーやビジョンモデルを無条件に付け足す傾向に疑問を抱く
こうした流れは人間社会でもごく一般的で自然なパターンだと説明
現在の基盤技術において知的探究のROIが下がれば、しばらく人的資源が別の場所へ流れるのは当然だと述べる
しかし限界に達すれば、いずれ革新的な人材が再び根本領域で大きな進歩を生み出すだろうと展望
PyTorchのような foundational tech の次世代も、このように進化していくと見る
実際、この2〜3年で本当に多くの人が知って日常的に使うようになった大規模アーキテクチャ改善はまれだが、3年という短い時間軸自体を見落としがちだとも指摘
LLM以外でも依然としてさまざまな面白く有用な研究が進んでおり、自分はその分野の専門家ではないが、非常に多様な新しい試みがあふれていると感じる
PyTorchがなかったとしても、新しく実験しようとしない人はやはり同じ傾向を示しただろうと語る
人間レベルの知性を複製したシステムを想像すると、モデル差の核心は「データセットの違い」にあると見なせるという視点
実際、人間の記憶、教育、背景などが問題解決能力の大きな部分を占めるため、類似点がある
モデルが能動的にデータを得る方法、つまり自らデータを探して学習する可能性に興味を示す
人間の赤ん坊のように、さまざまな行為をしながら直接経験を通じて学ぶ方法が必要だと提案
現在のようにデータをひたすら注入する状態から脱し、たとえば3Dオブジェクトを作れるのだから物理シミュレータと組み合わせるのもよい方向だと言及
Cursorを例に挙げ、ルール設定後に reasoning model でその理由を推論し、学習データに反映すればデータの価値をさらに高められると提案
ユーザーが行動を選んだ理由を振り返って訓練データ化すれば、より深い洞察を得られる可能性
シミュレーションやロボットアーム、自動車のような「embodied AI」(身体性を持つAI)が活発に研究されていると伝える
その方法はまさに強化学習に当たり、実際には簡単ではない分野だと言及
新しいアイデアの大半は過去のアイデアから出発するという意見を示す
AIは古いアイデアに、より速く新しい視点でアクセスするための道具
イノベーションは古いアイデアの隙間や交差点から生まれるという点、そして革新は結局、先人の業績の上で起こるものだと強調
AIは巨人の肩の上へ直接連れていくエレベーターと見ることができ、結局は道具をどう使うかにかかっていると説明
古いアイデアにアクセスする点には同意するが、新しい視点そのものでアクセスするには限界があると論じる
LLMはデータ解釈に一部役立つものの、既存研究に対して完全に新しいアイデアを生み出すにはまだ不足している
LLM活用が研究の一部の特殊領域は加速できても、それ以外の領域には限界があると説明
すべての知識を身につけた人間が、完全に新しいアイデアを出せない状況は想像しにくいという例えを述べる
文章の論点はAIイノベーションそのものと、データ量・品質向上に関する議論だと強調
根本的な革新はあったとしても、最良の性能改善手段は依然として、より多く、より高品質なデータだと主張
「より多くのデータ → より深いモデル → 再び繰り返し」というAI発展の循環を例示
自分の意見がこの観点とどうつながるのか不思議だと述べる
すべての新しいアイデアが古いものからのみ生まれるという主張に対し、ベンゼン環の発見の逸話を挙げて反論
ベンゼン環構造は、夢の中で蛇が自分の尾をかむ姿(「ウロボロス」)から初めて着想を得たように、前例のない想像力がしばしば革新の源泉になることを例示
最新のLLMは結局、数を足したり掛けたりしているだけだと語る
バビロニア人が4000年前からやっていたことだと極端に表現
人間もまた波の相互作用の結果にすぎず、あらゆる意味は結局与えられるものだと説明
概念空間にインデックスを付ける方法さえあれば、意外性を探索できるという点で、可能性は無限だと述べる
バビロニア人は粘土板の上でやっていたが、現代は原子厚の壁を持つ半導体の中で処理しているという比較
方法という点では大きな違いがあるという意見を示す
現在のAI訓練とは、実際にはデータセットを暗記させる過程に近いという考え
データについて自ら考え、結論を導出・記憶する方式ではない点を強調
与えられたテーマの「事実」だけならPhDより多く知っているかもしれないが、その内容について考える力では人間がなお優れていると評価
だからこそ博士も教科書を手元に置くのではないかと推測
わざわざAIモデルがすでに記録された事実まで全部記憶している必要があるのかと問い返す
実際にはもう少し複雑な過程だと説明
入力に適切に対応できるよう、データをヒューリスティックの形で内在化しているのだと評価
このヒューリスティックが人間を驚かせることもあり、ときには斬新な問題解決を見せることもある
「思考」という概念自体が広すぎて判断は難しいが、AGIにはまだ遠いと診断
「与えられたテーマでPhDより多くの事実を記憶している」という説明をノートPCと比較
ノートPCだって、もっと多くの事実を保存できるのではないかと指摘