1 ポイント 投稿者 GN⁺ 2025-07-19 | 1件のコメント | WhatsAppで共有
  • Platonic Representation Hypothesis(イデア表現仮説) は、AIモデルがますます大規模かつ高性能になるほど、内部的に 類似した表現空間 へ収束すると主張する
  • 言語モデルの 圧縮(compression) という概念を通じて、知能をデータ圧縮能力として解釈し、モデルが一般化する際に手法の類似性が高まることを説明する
  • 埋め込み逆変換(embedding inversion) 問題を分析し、PRHによれば異なるモデル間の埋め込み空間を CycleGAN などで整列できる
  • Sparse Autoencoder の実験などでは、互いに大きく異なるネットワークが同一または類似の概念や回路を発見することが示されている
  • こうした洞察により、古代の未解読文字や動物言語の解読など 実用的な応用可能性 が高まる

序論: Mussolini or Breadゲームと意味共有

  • 筆者は「Mussolini or Bread」というゲームを例に、質問を繰り返し絞り込みながら相手が思い浮かべている対象を推論する方法を紹介する
  • このゲームが成立する理由は、人々のあいだに共通の意味空間(semantics) が存在するためである
  • さまざまな人が明確なルールなしでも、おおむね意味上の「近さ」を直感的に理解できることを強調する

普遍意味論: 世界とモデルの圧縮

  • このゲームと同様に、人間の脳は 現実世界の複雑なモデル を似た形で構築している
  • アルゴリズム的観点から見たAI は、世界のデータを可能な限り圧縮して学習する
  • 自然言語生成タスクは、すなわち 確率分布にもとづく圧縮作業 とみなせる(Shannonの情報理論)
  • モデルがデータをうまく圧縮するほど、現実世界をより深く理解していることを示唆する
  • 実際に より大きな言語モデル は、より優れたデータ圧縮能力とより高い知能を示す
  • データセットが大きくなりすぎて個々のデータポイントを記憶できなくなると、モデルはデータを結び付けて 一般化 を始める

Platonic Representation Hypothesis(イデア表現仮説)

  • MITの研究チームは "Platonic Representation Hypothesis" を2024年に定式化した
  • この仮説によれば、AIモデルの規模が大きくなるほど 共有される特徴(feature) が増え、表現空間が 類似する形で整列 される
  • これは言語や視覚など多様な領域で実験的に観測されている
  • 毎年モデルがより大規模かつ効率的に進化するにつれ、モデル間の 表現空間の類似性 は今後も高まると見込まれる

埋め込み逆変換(embedding inversion)問題

  • 筆者は、埋め込みベクトルから実際の入力テキストを逆に推論する 埋め込み逆変換 問題の研究経験を説明する
  • すでにImageNetなどでは、確率値だけから元画像に近い情報を復元 する事例があった
  • 自然言語の埋め込みは情報量が多く見えるが、類似テキストは類似埋め込みを持つため 明確な逆推論は非常に難しい
  • これに対して、埋め込み探索と最適化を繰り返しながら徐々により正確なテキストへ近づく iterative refinement 手法が有効であることを確認した
  • この方式により、長文レベルで94%以上の精度 で逆変換できる可能性を実証した

イデア仮説を用いた埋め込み逆変換の汎用化

  • しかし従来の方法は特定の埋め込みモデルにしか適用できず、新しいモデルや独自モデルには限界があった
  • PRHが正しければ、さまざまなモデル間でも 汎用的な埋め込み逆変換器 を作れる
  • 対応関係の分からない異なる埋め込み集合(A, B)が与えられたとき、CycleGAN 方式で空間を整列できることを数年にわたり研究した
  • 結果として、追加のファインチューニングなしでも2つの埋め込み空間のあいだを unsupervised matching方式 で変換することに成功した(vec2vec)
  • これにより、各埋め込みの個別情報がなくても任意のデータベース埋め込みを翻訳したり逆推論したりできることを実証した

機械的解釈可能性: Universal Circuits

  • 機械的解釈可能性(Mechanistic Interpretability) 分野の回路解析研究でも、モデル構造が異なっていても共通した内部機能が見つかっている
  • Sparse Autoencoder(SAE) の適用結果では、異なるモデルに対して独立に学習しても、解釈可能な特徴(feature) にかなり大きな重複があることが確認された
  • 2つのSAEの特徴を比較することで、モデルをまたいだ概念整列が可能 になる
  • PRHがさらに正確であれば、より強力なモデルほどこの現象 が顕著になると期待される

実際的な含意と展望

  • イデア表現仮説は、深い哲学的含意に加えて、実際の モデル解釈、逆変換、信号解読、言語復元などの実用的可能性 を持つ
  • 今後解釈手法が進歩すれば、より大きなモデルほど 表現空間の整列内部の共通性 の発見が一般的になると予測される
  • 解読不可能だった古代文字(Linear A)の解読や、動物言語(クジラの音声など) の解釈も将来的には可能になるかもしれない
  • vec2vecなど現在の方式にはまだ弱点もあるが、インターネットベースおよび画像-テキスト埋め込み ではかなりの成功を示している
  • 言語間の空間変換や、クジラの言語→人間の言語への変換にも 将来的な解読可能性 があることを示唆している

1件のコメント

 
GN⁺ 2025-07-19
Hacker Newsの意見
  • 誰もが「犬」「家」「人」「ボート」のような似た概念を学ぶ現象は、プラトンのイデア論のようで非常に興味深い。異なる環境で育ち、観察経験が重ならなくても、結局は同じ概念に合意する。大規模言語モデル(LLM)もこれに似た学習を示すが、LLMは訓練データの重複が多いため、人間ほど不思議ではない。プラトンが指摘した「善のイデア」のような普遍的な道徳や美徳が本当に存在するなら、LLMにもそうした価値を学習させ、それに従わせたり、反する要求を拒否させたりできるのではないかと期待している
    • 「善さ」や「公正さ」という概念は、状況によってはるかに複雑になる。私たちはボートや家のような単純な物については合意できるが、中絶、安楽死、動物・幹細胞実験のような道徳的問題では、同じ社会の中でも見方が深刻に異なる。例として、2010年のギャラップ世論調査結果の図を参照してほしい
    • 「おおむね」という表現が、プラトンが正しかったという主張を支えるために大きすぎる役割を担っている。私たちは同じ物理法則や進化圧など、共有された現実の中で生きているのだから、ボートが水に浮く仕組みが限られるのは当然だ。だからといって、プラトン的イデアが実在していて誰もが同じ概念に到達するとは思わない。実際には、「自由」「経済」「政府」のような言葉でさえ、人それぞれ定義や解釈が異なり、文法が同じなので表面上は似て見えても、実際の概念はかなり違う
    • 結局のところ、ユングの元型(archetype)の概念として理解している
  • 埋め込みをテキストに再変換する例は、「共有された現実の統計的モデル」という概念を裏づけていない。「Mage (foaled April 18, 2020) is an American Thoroughbred racehorse who won the 2023 Kentucky Derby」のクジラ言語版など想像も難しいし、ケンタッキー、ダービー、グレゴリオ暦、アメリカ、馬の品種などは、いずれも人類の歴史的偶然や文化によって重要になった人工物だ。結局は皆が同じデータの山で訓練されているから、統計的に似てくるだけだ
    • ケンタッキーダービーが「現実の核心」かどうかとは別に、現実を100%正確にモデル化するにはケンタッキーダービーについて知っている必要がある。著者は、モデルが最終的にはプラトン的イデアに近い表現へ収束していると主張している。完全な変換可能性を持つ完全自律モデルなら、「馬のレース」「レースに勝った馬」のような概念を高次元でも伝えられるはずだと思う。実際にプラトンのイデア論が正しいかどうかとは別に、今のLLMがそこまでできているかはまた別問題だ
    • 現実がすべて文化的だと主張しても意味はなく、それは科学的事実にも同じように当てはまる。クジラが科学という言葉を知らなくても重力は存在する。もしLLMがニュートンの重力理論だけを学んだ後に、アインシュタインの一般相対性理論(GR)が現れたとしても、訓練データにGRがなくても、GRの現実に対する説明力は変わらない。また、GRをクジラの歌に翻訳することはできないとしても、英語-中国語-MLモデル-脳内概念のような形では伝達できるはずで、そこに「共有された統計的現実モデル」がある。乳児の喃語にGRを翻訳できなくても、GRの現実性は変わらない
    • LLMが現実の統計的モデルに収束しているとは考えにくく、実際には単に訓練データの統計的モデルに収束しているだけだ。とはいえ訓練データがあまりに巨大なので、あらゆるテキストに共通する何かを見つけているようには見える。これが現実の核心的真実を明らかにしてくれるとは思わないが、「この慣用句を使うと誰もがこの意味だと理解する」といった現象は明らかにしてくれるかもしれない
    • 「Mage (foaled April 18, 2020) is an American Thoroughbred racehorse who won the 2023 Kentucky Derby」という文をギリシャ語や一部の現代先住言語に翻訳するのも、ほぼ不可能だ。その文化に関する共有文脈がまったくないため、用語集が必要になるか、LLMが自ら用語集の役割を果たさなければ理解できない。ただし現在の最上位LLMは、QCD、重力、文化現象など、ミクロからマクロまでの概念説明が可能で、まったく新しい言語に翻訳するなら、基本概念だけを与えて少しずつ構造を積み上げていくこともできるだろう。結局、人間言語の翻訳をLLMが特別な監督なしに基本的にこなせるのも、この能力のおかげだ
    • この問題は、データセットが完全に異なる2つのモデル(例: 古代中国テキスト専用、古代ギリシャ語専用)を訓練し、似た構造が現れるかを実験すれば、簡単に結果を確かめられる
  • 「私たちはクジラ言語や古代言語を翻訳できる」という期待は、あまりに楽観的すぎる。言語で最も重要なのは文脈だ。人間には経験に基づいて残された数十億のテキストがあるからAIが言語をうまく扱えるのであって、クジラにはそうしたデータがない
    • 「ライオンが話せるとしても、私たちは理解できるだろうか?」という問いを投げかける
    • 私たちの周囲の世界は、人間・クジラ・その他の動物にとって共有された経験だ。この点を考えれば、クジラと人間の間にも共有点は存在する
    • 重要なのは、「言語間で共有された表現空間」があるかどうかだ。もしあるなら、言語ごとの構造と翻訳マッピングを分離して学習できる。「ユニバーサル埋め込みインバータ」と呼ばれる後者のほうが、学習しやすい可能性もある。構造が十分に独特なら、それを共通表現空間にマッピングして活用できる。文脈なしでも翻訳可能だとすれば(まだ希望的観測ではあるが)、先入観なしに研究してみる価値はある
    • ゴリラやゾウ(どちらも非常に知能が高い)に、物に名前を付けたり記号を使ったりすることを教えれば、彼らもまた経験や知恵を世代間で継承でき、私たちに劣らない知能を静かに発揮するのではないかと信じている。ちなみに、Google Gemmaのイルカプロジェクトには興味があるが、人間は陸上動物なのだから、イルカよりゾウを研究対象にしたほうがよいとも思う。そうすれば陸上で即座に研究フィードバックが得られ、基礎研究により集中できることを強調したい
  • こうしたアプローチは、各ソースの特徴分布や意味論的関係が十分に似ている場合にしか機能しない。MBゲーム(Mussolini vs Bread などの比較推理ゲーム)は、相手が自分の知らない人物を選ぶと失敗する。参照を見抜けなかったり、意味論的距離の判断も異なったりする。専門家同士は専門家同士、一般人同士は一般人同士でレベルを合わせないと、うまく成立しない。古代文書の解読にも同じ問題があり、古代文明が現代とはまったく異なる概念に注目していたなら、現代的な意味埋め込みでは理解がほとんど不可能になる
    • 友人たちとMBゲームをしてみると、人物だった場合は最後まで正しく当てられたことが一度もない
  • Mussolini vs Breadゲームの例で、「これは絶対に人物だ」という推理は論理的には成り立たない。動物の中にもっとそういう答えが多い場合もありうる
    • このジョークは、David Beckhamが人物だからというより、(悪の化身と比べても)それほど人間味が感じられない、という類いのユーモアだ
    • 論理は粗いが、実際にはこうした説明不足でも人々がうまく答えを推測できること自体が重要だ。つまり、人間が共有するファジーな意味空間があるということだ
    • 私も著者と同じ考えで、自分の単語は「銃」か「砲兵」だろうと思うが、これもまた論理の穴を突けてしまう。そしてこうした例は、なぜ純粋な埋め込み検索だけではRAG(retrieval-augmented generation)の問題を解決できないのかを示唆している
    • 些細な論理ミスはご容赦を
    • Oswald Mosleyのような妙な答えが出てくることもある
  • 「このゲームが機能するのは、世界の事物がただ一つの仕方でしか関連していないからだ」という主張には同意しない。関係のあり方は多様であり、その関係自体も私たちが生きる現実から生じている。「仕方」という言葉が複数の意味で使われているようで、引用文の表現が曖昧なため混乱がある
  • LLMが人類の集合的な成果物として、現在の現実表現に収束している点には同意する。次はAIに、リアルタイムの感覚入力、発話とエネルギー消費に基づくそれぞれ異なる半減期(half-life)を持つ仮想ホルモン、常時思考ループ、創造的な神経結合を誘発する人工シロシビンまで与えるべきだ。人類にストーンド・エイプ(stoned ape)理論があるなら、AIにはストーンドAI理論が必要だ
    • いっそAIをテーマパークの来場者向けアトラクションにして、Anthony Hopkinsにソースコード管理権限を与えてみたらどうだろう。何が問題になるというのか?
    • AI関連の記事を読むのはもう飽きてきたが、「AIにキノコを食べさせた」という記事が出たら即クリックするだろう
  • 「Ilyaが知能-圧縮について発表したとき、まったく理解できなかった」という話を読んで、Marcus Hutterのことが忘れられているのではないかと思った。だとすれば、Hutter Prizeもぜひ改めて参照する価値がある
  • Grok、o3-pro、Claudeに圧電効果(piezoelectric effect)について質問してみた。どれも正しい答えを返したが、Claudeだけが実際のユースケースで生じる二次効果にまで触れていた。3つのモデルは同じ空間を探索できるのかもしれないが、Claudeは一段深い視点を示していた
    • ひとつ気になるのは、Grokが3なのか4なのか知りたいということだ
  • 道を語ることはできるが、その道は永遠の道ではない。道とは何かと問われれば、私はそれを「意志」だと考える。意志は人間が言語によって表現できるものであり、同じ意志でも中国語・日本語・英語のいずれでも表現できる。言語はそれぞれ異なる表象にすぎない。大規模言語モデルもまた、単語トークンを通じて意志を学び、それを表現するようになれば道を実現することになる。その意味で、「AIモデルは本質的にみな同じでありうる」という主張に同意する