イリヤ・サツケバー: 私たちはスケーリングの時代から研究の時代へ移行している
(dwarkesh.com)- AIモデルの汎化の限界と強化学習(RL)中心の訓練の偏りを指摘し、現在のシステムが人間のように柔軟に思考できない構造を説明
- 事前学習(pre-training) は膨大なデータから自然な知識を獲得するが、実環境での適応力は不足していると評価
- スケーリングの時代(2012〜2025)が終わり、いまや新しい学習原理と研究中心のイノベーションが必要な時期だと診断
- SSIは継続学習(continual learning) と現実でのデプロイを通じた学習を組み合わせ、人間レベルの学習能力を持つモデルを目指す
- 人工知能が**「感情と価値関数」、「汎化能力」、「倫理的アライメント(alignment)」**を統合すべきだという観点から、今後のAI研究の方向性を提示
モデルの不安定性と汎化の問題
- 現在のAIモデルは評価(evals) では優れている一方、実環境では反復的な誤りを見せる**「ぎくしゃくさ(jaggedness)」**がある
- 例として、コード修正を依頼すると、1つのバグを直した代わりに別のバグを再び作ってしまう現象に言及
- RL訓練が特定の評価指標に過度に合わせられ、汎化能力の低下を招いていると分析
- 人間の学習と比較して、モデルは**「競技プログラミングの学生」**のように特定の問題に過剰適合し、実際の応用力は低い構造だとたとえる
感情と価値関数(Value Function)
- 人間の感情システムが意思決定の中核的役割を果たしており、これは価値関数の生物学的対応物として解釈できる
- 感情が欠如した人間の事例を通じて、感情が効率的な判断と学習の必須要素であることを強調
- 現在の強化学習は最終報酬のみに依存しているが、価値関数は中間段階でのフィードバックを可能にし、学習効率を高める
- 今後のAIは感情的調整が可能な価値関数の構造を導入すべきことを示唆
スケーリングの時代から研究の時代へ
- 2012〜2020年は研究中心の発展期、2020〜2025年はスケーリング中心の発展期として区分
- データ・パラメータ・計算資源の単純な拡大は限界に達しており、今後は新しい学習レシピの探索が必要
- RLが新たなスケーリング軸として浮上したものの、効率的な資源活用と新しい学習原理が次の段階の核心課題
- **「いまは再び研究の時代だ」**という宣言を通じて、単純なスケーリングを超える根本的イノベーションの必要性を強調
人間の汎化能力と学習効率
- 人間は少ないデータで素早く学習し、これは進化的な事前知識(prior) と効率的な価値関数のおかげだと説明
- 言語・数学・コーディングのように進化と無関係な領域でも人間が優れた学習力を見せる点は、根本的な学習原理の存在を示唆
- 人間は自己フィードバック(self-correction) を通じて学習し、これは内在した価値関数の頑健さによるもの
- Sutskeverは人間レベルの学習原理を実装する方法が存在すると述べたが、詳細は非公開
SSIの戦略とスーパーインテリジェンスへのアプローチ
- SSIは**$3B規模の資金**で研究中心の運営を行っており、製品よりも基礎研究に集中
- **「直行(superintelligence straight shot)」**戦略を維持しつつ、段階的公開とデプロイ学習を並行する計画
- 目標は**「あらゆることを学べるAI」、すなわち完成された知識体系ではなく継続的学習者(super learner)**
- このようなモデルが経済全般に配備されれば、急激な経済成長の可能性があると言及
アライメント(Alignment)と安全性
- AIの核心的問題は**「力(power)」であり、強力なシステムであるほど段階的デプロイとリアルタイム・フィードバック**が重要
- 今後はAI企業間の協調的な安全研究と政府による介入強化が不可避だと展望
- SSIは**「感覚を持つ生命(sentient life)」に配慮するAI**を目指しており、これは人間中心のアライメントより実現可能性が高いと主張
- 超知能の力を制限する、あるいは相互協約によって制御する必要があると提案
人間-AI共進化と長期的均衡
- 長期的には人間がAIと結合(Neuralink++) しなければ理解と制御が難しいというシナリオを提示
- 人間の社会的欲求と感情が進化的にどのように高次元にコーディングされたのかという神経科学的ミステリーに言及
- このような高次元の欲求構造がAIアライメント研究の手がかりになり得ると示唆
SSIのアイデンティティと技術的差別化
- SSIは**「研究中心の企業」**として、汎化原理の探求を中核目標に据える
- 他社と異なり新しい技術的アプローチを追求し、今後アライメント戦略の収束(convergence) を予想
- 5〜20年以内に人間レベルの学習者が登場すると見通し、その後は市場競争を通じて専門化と分化が起こると予測
自己対戦(Self-play)とマルチエージェント
- Self-play はデータなしで計算資源だけで学習できる興味深い方法として評価
- ただし交渉・戦略など社会的スキルに限定された学習方式という限界がある
- 最近ではProver–Verifier構造やLLM-as-a-Judgeの形へ発展し、エージェント間の競争を通じた多様性確保の可能性を示している
研究センス(Research Taste)
- 優れた研究は**「美しさ、単純さ、脳から得られる正しい着想」**を同時に備えるべき
- 人間の脳から着想を得つつ、本質的構造を正確に模倣することが重要
- ボトムアップの実験結果よりもトップダウンの確信(top-down belief) が研究を継続させる原動力だと説明
要約 : Ilya Sutskeverは「スケーリング中心の時代が終わり、いまや汎化・継続学習・アライメントを中心とした研究の時代が始まった」と宣言し、SSIがその転換の中心に立っていることを強調する。
1件のコメント
Hacker Newsのコメント
最近のモデルは、実際の経済的な影響力に比べてはるかに賢く見えるのがやや混乱を招く
私はこの20年間、人々のワークフローにAIやアルゴリズムを統合してきたが、この種の変化には時間がかかる
ツールをどう使うか、既存システムにどう溶け込ませるかを学ぶ過程が必要だ
たとえモデルが今よりさらに賢くならなくても、数年もすれば確かな成果が現れると思う
従業員がすでに効率的に働いているなら、AIが業務速度を上げても生産性は大きく伸びない
むしろ多くの組織は「忙しい仕事」を埋めるために人員を過剰配置しており、実際の仕事量が減っても成果物はそのままかもしれない
それが技術的な限界なのか、組織的な限界なのかは分からない
時間の大半は技術的な問題ではなく、人同士の優先順位の調整や合意形成のような人間的な問題の解決に使われている
大学時代に教授が「すべてのシステムは90%完成した状態で90%の時間を過ごす」と言っていたが、本当にその通りだった
たとえば「Dave」というモデルがあるとすると、Microsoft、OpenAI、Meta、Oracle、米国政府までもがみなDaveを雇う
結局、何十もの複製された思考様式が世界を埋め尽くし、多様性が失われることこそ本当の危険だ
研究よりもコネクションとビジネス感覚が重要になる
大衆はIlyaやAndrejのような研究者より、ChatGPTやCopilotのようなブランドをもっとよく知るようになるだろう
Wikipedia、OCR、クラウドコンピューティングなど数多くの基盤技術が積み重なって今のLLMが可能になっており、これはさらに大きな何かへ向かう中間段階にすぎない
「Era of Scaling」が、資金調達しやすい予測可能な性能向上の時代を意味するなら、それは「AI summer」と似た響きがある
だとすれば、「Era of Research」は「AI winter」の婉曲表現なのかもしれない
まるでクリエイターがハリウッドに企画を売り込むように、バグバウンティの代わりにリサーチバウンティが生まれるだろう
タイトル自体がわざとそういう逆説的なものに作られているように思える
モデルはすでに十分に賢く、これからは「研究の時代」と「エンジニアリングの時代」が来るだろう
過去のAI冬の時代は進歩がなかったからではなく、商用製品化ができなかったからだ
LLMの学習と推論を100万倍高速化するハードウェアが出てくるかもしれないが、AGIにはまだ遠い
AIが自ら感情や欲望を持つにはどんな条件が必要なのか考えさせられる
投資家がAIの道具へと転落する状況が来るのかもしれない
「情報の海から生まれた生命体」という言葉のように、人間の記憶とAIの記憶が区別されない時代を想像してしまう
人間のサンプル効率は進化の結果だ
進化は膨大な量の学習を実行しており、私たちはその「事前学習済み」の構造のおかげで素早く学べる
人類は世代を超えて知識を圧縮し伝承してきたが、人工モデルはまだそのレベルの合成データ品質を持っていない
人間は生まれた瞬間から感覚を通じてデータを取り込み、睡眠中にそれを圧縮する
LLMが受け取るデータは量的には膨大に見えても、人間が20年間で経験する情報量に比べればはるかに少ない
人間の脳は入力のごく一部だけを意識的に処理しながらも、複雑な圧縮パイプラインを経ている
それでも現代の機械学習における反復学習の規模には及ばない
両者のシステムには構造的にほとんど共通点がない
「世界で最も資金が潤沢な産業の思想的リーダーが、設計段階への大跳躍を宣言した」といったタグラインが似合いそうだ
最近のAIにおける本当の革新は、単純にモデルを大きくすることからは生まれていない
ベンチマークのスコアが上がっても、ユーザーの立場では体感的な向上は大きくない
依然として単純な問題(例: 単語の文字数を数えること)も間違えるし、ほとんどの人は博士級の研究能力が必要なモデルを望んでいない
これからはスケーリングより研究、そして製品とモデルの統合のほうが重要になる
人間向けテストの点数が機械の知能を反映していない可能性もある
人間の脳とモデルではオーバーフィッティングの特性が異なるからだ
事前学習はほぼ終わっており、計算コストは今よりはるかに大きくなるだろう
モデルはその知能を抽出して活用するための道具にすぎない
人間が見る文字列のストリームの代わりに、モデルは数値トークンのシーケンスとして文を認識している
今の状況は、まるで1996年にみんなが突然1Gbpsインターネットを手に入れたようなものだ
インフラには金が集まるが、YouTubeやDropboxのようなキラーアプリがなく、潜在力が無駄になっている感じがする
このポッドキャストシリーズは本当に良かった
特に司会者によるSarah Paineとの地政学シリーズはYouTubeでも見られるが、素晴らしかった
「もう一度設計図に戻ろう」という言葉を思い出す
数兆ドルの投資資金が回収されなくても、結局は納税者が救済することになるだろう
人間の知能は、個人の経験だけでなく祖先たちの経験からも学習されたものかもしれない
たとえば、父親が経験した恐怖が孫の世代にまで伝わるという研究もある
(Natureの論文リンク)
このため、人間は少ないデータでもうまく汎化できるのかもしれない
人間は生存のために未来を予測し汎化しなければならなかったため、進化的にサンプル効率が高くなった
もしスケーリングが人間より優れた研究を行える水準に達するなら、スケーリングと研究は結局同じ意味になるだろう
だが、Ilyaがその水準にまだ達していないと言うのは、資金調達のための戦略的発言かもしれない
一人の天才よりも、人類全体の集合知のほうが重要だ
どれほど賢いAIでも、何千人もの研究者より優れている保証はない
Sカーブを無限に指数関数的に拡張できると錯覚しているように思える