Rich SuttonのAIの創造性と発見

(twitter.com/RichardSSutton)

5 ポイント投稿者 GN⁺ 2026-06-11 | 1件のコメント | WhatsAppで共有

教師あり学習で訓練された生成AIは、事例に似た振る舞いをする模倣モデルであり、有用ではあっても科学・数学における新しい発見には限界がある
インターネット上の回答や文書要約では、新規性はむしろハルシネーションとなり、良い回答は元資料の品質から生まれる
小説・画像生成のように新規性が必要な場合でも、出力が学習資料にどれほど近いかを知るのは難しく、ランダム性は新規性を生むが、評価なしでは良い発見にはならない
AlphaGo、AlphaZero、GT-Sophy、AlphaFold、AlphaProof、Claude-Code、RL-Lyftのようなシステムは、評価と選択的保持を通じて新しく優れた結果を見つける
完全なAI科学者を望むなら、明示的な目標を共有してAIが作り、評価し、発見できるようにする必要があり、創造性と発見の自動化が必要である

生成AIの限界と有用性

生成AIは大量の例を受け取り、人のようにテキストを作ったり、芸術家や自然のように画像を作ったり、インターネット動画のように動画を作ったりする模倣モデルである
生成AIは非常に有用であり得るが、「良い部分は新しくなく、新しい部分は良くない」という古いジョークの評価がかなりの部分に当てはまる
インターネットで答えを探したり文書を要約したりする際、AIに新規性は必要なく、答えの品質は文書の著者やインターネット上の文章といった元資料から生まれる
AIの回答が元資料を超えて何かを付け加えれば、それがハルシネーションであり、ほとんどの場合ユーザーはAIのでっち上げを望んでいない

新規性、ランダム性、評価の問題

ユーザーが事実や現実ではなく小説や娯楽を求めるときには、例外的に新規性が必要となる
子どものための寝物語や、既存のインターネット画像とは異なりつつもそれを基盤にした画像を、生成AIに求めることができる
インターネットはあまりに巨大で、可能な元資料もあまりに多いため、AIの物語・詩・画像が実際にどれほど創造的なのかを実用的に知るのは難しい
生成AIの処理は一部確率的であり、各決定が複数の方向に進み得て、毎回異なる軌跡を作り得る
軌跡がランダム性に基づけば新しく、学習データに基づけばデータの品質ゆえに良いかもしれないが、同時に新しくて良いとは限らない

科学・数学に必要な発見

生成AIが同時に優れていて新しいものになれなくても、多くの用途では致命的な問題ではなく、高速で安価で小型でカスタマイズ可能で複製可能なら、変革的技術になり得る
科学と数学では単なる模倣AIだけでは不十分であり、本当の創造性と発見が必要である
AlphaGoの37手、AlphaZeroの独創的なチェススタイル、GT-Sophyのシミュレーションレース性能は、新しく優れたものを見つけた事例である
AlphaFold、AlphaProof、Claude-Codeは、科学・数学・プログラミングにおいて実際の進展をもたらした事例として示される
RL-Lyftは、配車事業で乗客に車両を割り当てる方法を最適化するシステムである
一部の言語モデルは、教師あり学習ベースの生成AIを超える方式で強化されている

発見の3段階

発見とは、さまざまなことを試し、何が機能するかを見て、最もうまく機能したものを保持する過程である
自然選択による進化、科学的方法、日常生活と学習はすべて、試してうまくいったものを記憶するというやり方で進む
心理学ではこれを道具的学習またはオペラント条件づけと呼び、機械学習では強化学習と呼ぶ
計画や組み合わせ探索でも、「生成して試す」という発見のアイデアが機能する
発見の核心は、変異、評価、選択的保持という3つの段階を組み合わせることである
教師あり学習だけでは実行時に生成物を評価する方法がなく、評価がなければ選択的保持もなく、したがって発見もない
新規性は一瞬現れることがあっても、その価値が認識されなければ消え去って失われる

評価、目標、自律性

人が生成AIで複数の絵を作り、気に入った1枚を選べば、人間+AIシステムが発見を完成させる
明確な目標があるときにも評価は可能であり、ある手はチェックメイトにつながり、ある段階は証明につながり、ある行動は高い報酬につながる
ある遺伝子型はより多くの複製を生み、ある理論はデータをよりよく説明する
変異は完全にランダムである必要はなく、優れた科学者は検証する理論を無作為には選ばない
答えがどこにあるかが完全に決まっていれば、それは発見ではなく、発見には不確実性が必要である
逆伝播の重み更新は決定的だが、重みは小さなランダム値で初期化されるため、変異は存在する
ランダム初期化は、良い性能を得るために適切に行われる必要がある、必要な変異の形である
逆伝播では変異はネットワーク初期化時に一度だけ起こるため、効果は一時的で、後にネットワークが学習能力を失うことがある
continual backpropagationは、あまり使われないニューロンをときどき小さなランダム重みで再初期化し、変異が継続し可塑性が維持されるようにする
発見には人間や明示的な目標から来る評価が必要であり、完全な自律性は、明示的な目標が評価を提供するときに可能になる
AI科学者の完全な能力を望むなら、目標を共有してAIが作り、評価し、発見し、目標達成に参加できるようにすべきである

1件のコメント

GN⁺ 2026-06-11

Hacker Newsの意見

コーディングのように最も成功している応用は、純粋なLLM/生成モデリングの結果ではなく、エージェント的ハーネスでループを閉じたことから生まれている
生成→テスト→選択的改善のループは科学的作業の中核的な様式であり、LLM + 検証可能な報酬による強化学習 + コンパイラ/ターミナル実行フィードバックは、この過程をかなりうまく模倣している
これは、現代の計算システム上に実装された Fisher/Box フィードバックループ(https://www-sop.inria.fr/members/Ian.Jermyn/philosophy/writi...)に近く、LLMは単なる構成要素にすぎない
Suttonが現在の全体像について語ってくれていたらよかったのに、LLM/逆伝播の側面だけを扱っているのが惜しい。こうしたループが発見を少なくとも部分的に自動化できるのか、本当に気になる
発見にはさらに多くの要素があり、初期の作動モデル/仮説がどこから来るのか、あるいは更新をどう選ぶのかは、依然として不明だ。最近、HansonのPatterns of Discoveryがその方向性を扱っていると見かけたが、まだ読んでおらず、機械的な手がかりがあるのか気になっている
- 初期モデル/仮説がどこから来て、更新がどう選ばれるかは強化学習でも問題であり、通常はまず教師あり学習でいくつかの軌道を模倣するよう教え、その後に強化学習でモデルを磨く
  強化学習だけでは報酬に到達しにくく、純粋な強化学習だけで課題を学ぶのが難しいという大きな問題がある。人間も、本から学ぶ教師信号と問題解決の探索を組み合わせて発見の問題を解くのであり、数学についての初期教育がまったくない人は、どれほど賢くても大きな成果を出すのは難しい。ブートストラップは、過去にすでにコストが支払われた探索だった
- ハーネスの重要性には完全に同意する
  ただし、進化アルゴリズムが経験したのと同じ種類の問題が見える。資金が尽きるまで候補解を生成することはできるが、それでもなおその解を評価しなければならない。適応度関数が必要であり、これは少なくとも解のおおよその形を知っていなければならないことを意味する。よりオープンな適応度関数に関する研究を知っている人がいれば、読んでみたい
- LLMに批判的な研究者たちは、主にLLMの根本的な数学的/構造的性質を問題視しているが、モデルの周辺でそれを有用にするために進められている工学を見落としているように思える
  そうした数学的限界のためにLLMが真のAGIへの道ではない可能性はあるが、現時点では正直それほど重要には見えない
- 最も重要なのは、強化ループが学習中に使われているという点だ。Suttonの元の仮説には同意しないが、強化学習以後、その仮説はより弱くなっている
「生成された新しいものは評価されて初めて創造性が成立する。評価と最良の結果の保存がなければ、何も創造されない。新しさは一瞬現れるが、その価値が認識されなければ消え去り、失われてしまう」というような framing は本当に良い
Twitterのコメント欄の多くの人たち、そしてここにいる一部の人もおそらく、導入以降を読んでいないように見える。彼はAIシステムが創造性や発見を行えないと言っているのではなく、ハーネスのない生成AIは創造性や発見を行えないと主張している
つまり、新しいアイデアの価値を認識し、記憶する別のシステムが必要だということだ。彼はこの価値認識の段階が自動化され、自己定義において完全自動のシステムで創造性と発見を達成する例も提示している
- 全体としては同意するが、実際に使われているやり方と合わない狭義の生成AIを前提にこうした主張をすると、藁人形論法になってしまう
私の見落としでなければ、この主張はもともとの事前学習時代（例: GPT 1〜4）にしか当てはまらないように思える。事後学習と強化学習のパラダイムは、明らかに変異、評価、選択的保存を行っているのではないか？
- 原文は、検証可能な報酬による強化学習（RLVR）のような事後学習段階を見落としているように見える。もちろん、Rich Suttonがそうしたものを知らないと主張するつもりはない。RLVRは評価の仕方が非常に狭いのは確かだ
  これが、Keen TechがDavid SilverのIneffable Intelligenceアプローチへ傾いていく前兆なのか気になる
- RLVRは依然として基盤分布を超えて拡張できず、その内部で最頻値を見つけているにすぎない
  つまり、評価と保存はあるが、変異や「計画」はない
  だからといってLLMが使えないという意味ではない。AlphaEvolveはまさにそのように動いている。ただし、外部の単純な進化的プランナーを使っている。彼が言いたい大きなポイントは、私たちのプランナーがまだ「愚か」であり、ここにもっと投資すべきだということだ
  Claude CodeでLLMを反復的に導くとき、ユーザーは外部プランナーの役割を果たしていることになり、それもまたうまく機能している
AlphaGoやこの種の生成AIモデルが直面している問題について、問題設定が奇妙に見える
AlphaGoは外部から与えられた厳格な評価を受けたのであって、自分で作り出したものではない
生成AIモデルも外部の厳格な評価を受ければ、多くの領域で成功できる。単純なプログラミング課題から最先端の数学（最近では予想の反例提示）、さらにより最適化されたカーネルコードの作成まで、さまざまな領域で成功している点が特に驚くべき特徴だ
解法は極度に複雑でも、評価は比較的それほど複雑でない分野では、強化学習も多く、発見や「進化に似た」軌跡の選択も実際に起きている
だからAlphaGoと比較するのは奇妙だ。AlphaGoは狭い領域で、人間という外部の出所が与えた、自分とは独立した厳格な評価を受けていた。生成AIもそうした評価が与えられれば、かなり驚くべき結果を示し得る
さらに奇妙なのは、多くの場合、革新や進歩は本当に新しいアイデアを必要とせず、異なる方法・戦術・アイデアを高品質に何層にもわたって実行することから生まれるという点だ。多くの領域で私たちの集合知はひどく疎で複雑なので、ツール・モデル・アイデアを選択的に高品質で再結合できることは非常に強力だ
有限の探索地平（時間、資源）では、「良い選択」が1%であるのと3%であるのとでは、まったく別世界だ
最も重要なのは、上の話は知能についてではなく、私たちが抱える重要で価値ある問題に対する不毛な解法探索についてだということだ。AGIと知能をめぐる議論の大半は、この単純な事実を見落としているように見える。飛行機が鳥のように飛べないとか、潜水艦が泳げないとかいう話が有用性とは無関係だという、よくある比喩のように
最後に、このシステムが一般の人々が一生のあいだに直面する問題で平均的によりうまくやれないと本当に思うのか？科学や医学分野の一般的な試験で60〜70%の点数で学位が与えられる現実の中で、人間の知能はどう定義すべきなのだろうか？
- 飛行機には鳥のような翼型を持つ翼があり、潜水艦には魚の浮き袋のような空気タンクがある点は、短く触れておきたい
  アホウドリのように、ほとんど羽ばたかずに飛ぶ鳥もいる
ディープラーニングのかなりの部分は構成的汎化だと見ている。モデルは再利用可能な断片、つまり抽象化・スタイル・手続き・制約などを学び、それらを学習データに全体としては一度も現れなかった形で再結合する
したがって材料が過去のデータから来ていたとしても、最終的な構成は意味のある次元で新しいものになり得る
彼の要点をあまりうまく追えていない。a) 目標、つまり「好み」を訓練段階に直接統合する新しい基盤アルゴリズムが必要だという意味なのか、それとも b) 訓練済みモデルが反復するときに目標へ向かうようにすべきだという意味なのか？
a)なら、彼はそういうアルゴリズムを提案していないし、そんな低レベルで抽象的な目標をどう定量化するのかも分からない。そういうアルゴリズムを提案していて、私の読み違いなのだろうか？ b)なら、すでに存在している。AlphaEvolveや彼が挙げたさまざまな事例がそうだし、少し意地悪く言えば、単に/goalを入力して回せばいいだけだ
また、LLMが良くて新しいことをできないという主張は、カテゴリカルに間違っていると思う。できたとしても「それは新しくなく、派生的なだけだ」と言うことはできるかもしれないが、たとえばLLMでプログラミング言語を作り、自分の目的にうまく合うように動くなら、それは新しくて良いものではないのか？ FORTRAN以外のすべての言語は新しくないという意味なのか？
すべては派生的であり、LLMが試したものを評価するループの中にLLMを入れることもできる。彼がここまで間違うほど鈍い人だとは思えないので、私が何か誤解している気がする
- いや、彼は私たちがすでにそういうものを持っていて、もっと使うべきだと言っているように見える
  AlphaGoは可能な手を評価し、反復するときに発見を使う
  Claude Codeもスクリプトを生成したあと、それが動くかどうかを評価するときに発見を使う
  彼は科学や工学でも、コードでやるのと同じように、AIシステムに自己評価と反復をさせるべきだと言っているのだ
  基本的には工学のためのハーネス工学だ
- LLMは地図を持っているが、肥沃な土地と不毛の土地を見分けられない。たとえばAnthropicの新モデルは、有望な「薬」をどうやって生成するのか？それは、モデルの中に内在する知識に加えて、AlphaFoldの推論パラダイムを取り込んでいるからだ。Claude単体ではタンパク質分析の方法を設計できないだろう
- 彼のYouTube発表のひとつでは、私たちが宇宙の「デザイナー」の時代に入ると言っていたように思う
  https://youtu.be/ThFq87Rp21s?si=SrKj72_X8bjnB6ED
  35分ごろだ
AIについて「創造的」のような言葉を使うときは、非常に具体的であるべき
AIは芸術を作れるのか？感覚的に心地よい何かを作ることはできる。だが芸術とは結局、人間の感情や情緒を伝えるものだ。人間同士でも芸術理解は普遍的ではない。つまり「感情や情緒」、ひいては芸術は、特定の集団の共有された信念や経験に深く結びつきうる
数学や科学のような非主観的分野で創造的になれるのか？ Einsteinは創造的な思考実験によって一般相対性理論を導いた。AIが、実験で明らかになった問題を解く複数の数学的枠組みを試しているうちに 一般相対性理論の場の方程式 を出してきたなら、それは創造的なのか？おそらくそう言えるかもしれないが、確かに同じやり方ではない
- 棒や粘土からガラスや空気まで、何ででも芸術は作れる。もちろん AIでも芸術 は作れる
  問いが機械は芸術を作れるかどうかなら、結局のところ誰かがその機械を起動し、芸術を作るよう設計しなければならなかったのだから、突き詰めればその人、あるいはその人たちが芸術を作っているとも言える
  歴史的に「xは芸術か？」という問いの答えは、結局いつも「そうだ」になってきた。なぜ人々が同じ罠に何度もはまるのかわからない
- 彼の創造性の定義は 閉ループ である。つまり作られた概念は、傍から見る観察者にとってではなく、システム自身にとって新規でなければならない
- 「芸術とは結局、人間の感情や情緒を伝えるものだ」という言い方には小さな誤りがある。芸術は創作者の感情を伝えることよりも、見る人・聞く人など受け手に感情を引き起こすことに近い
  Wikipediaの芸術の記事はこう始まる
  “Art is a diverse range of cultural activity centered around works utilizing creative or imaginative talents, which are expected to evoke a worthwhile experience”
  https://en.wikipedia.org/wiki/Art
  したがってAIも芸術を行える。受け手に感情的反応を生み出しさえすればよいからだ
- 現在のモデルは画像の パスティーシュとスタイル・リミックス で訓練されている。だが、情緒的・文化的シニフィアンを学習し、パスティーシュとリミックスを指揮するArtistic Director層を追加できない理由はない
  実質的な問題は、モデルのプロンプト追従能力が非常に限定的だという点だ。シーン設計で指定できる細部のレベルがあまりにも粗い。だから、多くの穴埋め式パスティーシュ・ディテールが入り込んだ「slop」効果は出せても、個々の小道具の一つひとつがメッセージを強化するよう意図的に配置された、このような作品は作れない
  https://en.wikipedia.org/wiki/The_Awakening_Conscience
  要するに「自転車に乗ったペリカンを描いてくれ」問題の上級者版である
  状況によっては、そのレベルの創作制御が必要であり、現在の画像生成器はそこに近づけていない
  そしてその制御がなければ、有名な芸術家たちがしてきたし今もしているように、文化的マイルストーンとなる新しい美学を作る メタ創造性 の水準には到達できない
- 最近の人々は、芸術が不快にさせるとダウンボートする
  ただドーパミンを欲しているだけだ。考えるのは痛いから、考えたがらない
機械学習が創造的になれないとか、発見ができないとは思わない。創造性と発見とは結局、見た目には離れている正しい概念を同時に考えることであり、アルゴリズム的思考は、より明白に関連する概念を扱うものだと考える
LLMでなくても、あるモデルはランダムなアイデアを生成し、順位を付け、その後で最良の結果を出力できる
ただ、人間のほうがそういうことには向いていて、機械学習はアルゴリズム的思考のほうに向いていると思う。ここで「向いている」とは、より効率的で、私たちがより好んで行うという意味であり、特に私たち自身を含め、人間に主観的に引かれるもの、つまり趣味も、より正確に評価できるということだ
機械学習はプログラミングより多くの一般化を必要とするが、それでもなお大半は論理的な作業に最適化されるべきだと思う。ソフトウェア開発、翻訳、芸術や発見のためのツールなどである
それでよい。LLMは今のままでも有用だ。次世代の数学や物理学を絶対に生み出せないとしてもそうである
人間の中でも、思考の段階的飛躍を生み出した頭脳はあまりにまれで、私たちは彼らを 名前で記憶 しているほどだ
- そうしたまれな人間たちが、歴史に忘れられた、より「普通の」人間たちが生み出した無数の失敗や、ある程度有用な発見の上に乗っていたという点を見落としているのかもしれない
代替リンク: <https://xcancel.com/RichardSSutton/status/206121608774494665...>
今はこちらでは 502 “Bad Gateway” が出ているが、そのうち復旧すると思われる

Rich SuttonのAIの創造性と発見

生成AIの限界と有用性

新規性、ランダム性、評価の問題

科学・数学に必要な発見

発見の3段階

評価、目標、自律性

関連記事

1件のコメント

Hacker Newsの意見