1 ポイント 投稿者 GN⁺ 4 시간 전 | 1件のコメント | WhatsAppで共有
  • LLM研究における擬人化評価は、モデル出力に人間らしい属性を付与したり仮定したりする際、測定基準がなければ解釈が表現形式に左右されうるという問題を提起
  • Age of Empires II内に単純なニューラルネットワークを実装・訓練した事例は、十分に強力な**基質(substrate)**があればLLMと同等のエンティティを実装できることの根拠
  • プロンプトと出力の対応のような一部の属性は維持されうる一方、知覚された振る舞いの解釈や脱擬人化の質は基質によって変わりうるという主張
  • 一般化された擬人化属性の存在や不在を前提に実験すると、結論が循環的であったり情報量が低くなったりする帰結
  • 経験的な議論のためには、明示的な測定基準と、基質間で何を一般化対象とするのかの宣言が必要であり、デフォルトはLLM非固有性を仮定する方式

要旨

  • LLMおよびLLMベースのエージェント・ワークフローに関する研究は多いが、一部の研究は道徳性や自然言語理解のような一般化された擬人化属性の出現を論じたり、そうした属性を付与したり、そうした属性を仮定したりしている
  • 中核的な目的は、LLMにそのような属性が存在するかどうかに賛否を示すことではなく、そのような結論が誤りうることを示す点にある
  • Age of Empires IIで単純なニューラルネットワークを作成し訓練したうえで、LEGOやGreater Boston Areaのような十分に強力な基質を持つ任意のエンティティでも、そのような属性を示しうることを提示
  • LLMの擬人化属性は経験的に固有ではなく、プロンプトへの応答のような一部の属性は一定に保たれうるとしても、知覚された振る舞いの解釈のような他の属性は基質によって変わりうる
  • 経験に基づく議論には明示的な測定基準が必要であり、そうでなければ解釈が表現形式に委ねられる構造になる
  • 基質と独立した一般化属性の存在または不在を仮定すると、実験者の立場にかかわらず、循環的または情報量の低い結論に行き着く
  • 基本仮定は、擬人化属性を前提として実験を組み立てるのではなく、LLM非固有性を仮定する「null」仮定である
  • Age of Empires IIが関数的完全性を持ち、Turing-completeであることを証明

序論

  • LLMは比較的新しい技術だが広く使われており、同時に十分には理解されていない対象でもある
  • LLMの能力やコミュニケーション能力といった見かけ上の人間的属性は、人々がLLMを擬人化する要因となる
  • ELIZAのような説得力ある対話システムは半世紀以上前から存在したが、LLMベースのチャットボットは、なじみのある出発点から説明を要する前例のない能力を持つエンティティである
  • このような背景のもとで、心の理論、学習と理解、心理学といった領域での評価が行われ、その結果はさまざまである
  • 一部の研究は、不安や道徳性のような包括的な人間類似属性をLLMに対してテストし付与し、LLMを実験の中心的対象として設定している
  • 評価結果が肯定的であれ否定的であれ、LLMが擬人化属性を持つという中核的仮定は、テストセット設計、自然言語出力の解釈、帰無仮説に至るまで実験計画に影響する
  • そのような仮定は結論に直接影響し、結論を歪めうる
  • LLM研究において、一般的な擬人化属性の存在または不在を測定の一部として仮定するやり方は、根本的に欠陥のあるアプローチである
広告

Age of Empires IIと基質非固有性

  • Age of Empires IIの中にニューラルネットワークを実装し訓練する作業は、LLMの擬人化とは無関係な面白い練習に見えるかもしれない
  • この実装は、十分に強力な基質であればLLMと同等のエンティティを実装でき、その実装がLLMの表現を変えて知覚される属性に影響しうることを直ちに含意する
  • LLMが擬人化属性をある程度模倣するのに十分有効であるなら、その模倣、あるいは見方によっては本物の擬人化的振る舞いは、コンピュータ内に存在するLLMというエンティティにだけ特有のものではない
  • LLMは非固有的であり、異なる基質による実装はプロンプト-出力マッピングのような一部の属性を保存できても、脱擬人化の質は保存しない可能性がある
  • その結果、そのような質に対する知覚と解釈は変化する
  • 経験的観察に基づく議論には、明示的な測定基準と、どの側面が基質を超えて一般化されるべきかについての明示的な記述が必要である

仮定の問題と「null」仮定

  • ある科学者が、計算主義的心の理論のようなフレームワークを解釈的立場として受け入れ、当該属性が基質と無関係にシステムに存在しうると考えるなら、結論は健全ではなくなる
  • そのようなフレームワークを受け入れて擬人化属性に関する一般化された主張、または非一般化された主張を立てると、結論は循環的であったり情報量が低かったりする
  • 同じ結果は、そのフレームワークを退ける場合にも成り立つ
  • 一般化された擬人化属性の存在や不在を証明または反証する仮説をテストするために、その属性の存在や不在を先に仮定するやり方は欠陥がある
  • このような実験から出た肯定的または否定的な結論は、その主張を裏づけることができない
  • この問題は、フレームワークの妥当性、その受容または拒否の有無、フレームワークの選択とは独立している
  • そのような仮定は明示的に示されないこともあり、たとえばLLMには事実に即して「自分自身を説明する」能力がないとする論文は、すでにある程度の自己認識を仮定している
  • 一般化可能性を主張せず、このような仮定もしないのであれば、その属性は近似的に真実に即して測定できる
  • 「null」仮定は、システム内の擬人化属性の存在や不在について何も述べないことで、LLM非固有性を反映するやり方である

1.1 貢献

  • 目標は、LLM内における擬人化属性の有無、心の理論の妥当性、AIに関連する意識や心身問題の含意を論じることではない
  • 擬人化属性の有無を論じるにはよく定義された測定が必要であり、意識や心身問題に関しては広く受け入れられた実験プロトコルや学派が存在しない
  • 動作するAge of Empires IIベースのLLMを提供することも範囲外である
  • 主たる目的は、LLMの擬人化に関わる仮定と結果の正確性に関する議論を促進することにある
  • とりわけ、そのような結論を支える前提となる実験結果が、当該属性の存在または不在の仮定から生じている場合が中核的な対象である
  • 潜在的な反論と応答、擬人化に関連する分野の小規模なメタレビュー、Age of Empires IIの関数的完全性とTuring-completenessの証明も含む
  • 究極的な目標は、心と機械の関係についてどのような立場を取るにせよ、LLMの擬人化属性の存在を説得的に支持または反証する厳密な実験を作るための手がかりを提供すること

1件のコメント

 
GN⁺ 4 시간 전
Lobste.rsの意見
  • ばかげたことを言っているのかもしれないが、論旨がよくわからない。基本的な主張はかなり些末で、FAQでも認めているように、チューリング完全な計算環境であれば、ビデオゲームの内蔵メカニズムを含めてどこでもLLMを実装できる、ということだ。
    しかし、そこから出発してLLMの捉え方に大きな転換が必要だと主張している。たとえばAoE IIの中にLLMをコピーして「寂しい」と入力したら「それはつらいね、友達に会ってみたらどう? こういう状況では親密さが助けになるよ」と返したとしても、そのAoE II-LLMが何が助けになるのかを知っているとか、本当に共感能力があるとか、シミュレーションという性質とは無関係に出力が信頼できるとか、そうしたことを説得的に示せるわけではない、という話だ。
    ソフトウェアやハードウェア工学に慣れた者としてのバイアスかもしれないが、ここで認知的な転換はまったく感じない。「データセンターのビデオカードがこのトークンを生成した」と「ビデオゲーム内のチューリングマシンが生成した」は、私には違って感じられない。
    LLMを私たちの世界モデルの中に位置づけにくく、私たちがLLMを過度に擬人化しがちだという点には100%同意するが、この論文がその問題の解決にどう貢献しているのかはわからない。

    • Searleの中国語の部屋論法を言い換えただけのように聞こえるし、あの議論はいつも哲学的にしっくりこなかった。論文でもこれには短く触れているだけのようだ。
      同じ誤りを犯しているように思う。中国語の部屋の中の人やゲームエンジンのように、システムが「ただ」ルールに従っている存在だと示したうえで、だから知能や一般的な人間的属性を認められないと結論づけるやり方だ。
      しかし、何かを知能のない部品やルールに還元できるからといって、その全体が観察可能な属性を魔法のように失う、という議論は成り立たないと思う。
      とはいえ、論文全体の議論を読み切ったわけではないので、ただのネットのコメント投稿者にすぎない。
  • 残念ながら、この文章はAOE2の実際のAIを扱っていない。AOE2 AIはCLIPSベースで、RETEエンジン上のS式エキスパートシステムであり、知人がこれにかなり深くハマっていて、紹介記事講義、さらには宣言的チャットサーバーまで作っている。
    AOE2 AIの文書は https://www.scribd.com/document/348253/CPSBhttps://userpatch.aiscripters.net/reference.html にある。例としてはここのように、ルールベースで戦略条件と目標を設定する形だ。

    • CLIPSはMagic the Gathering: Arenaチームでも、デジタル版Magicを動かすルールエンジンのかなりの部分を作るのに使われている。
  • 要旨に意味が変わってしまう誤植がある。「Age of Empires II on」ではなく「Age of Empires II in」であるべきだ。
    論文はAoE 2の中でニューラルネットワークを作って学習させており、LegoやBostonもニューラルネットワークの基質になりうると主張している。前者の関連例としてはWang tilingがあり、後者の関連例としてはbilliard-ball computersがある。これは2011年の論文で、生きたM. guinotaeの兵隊ガニの群れで実装され、「crab computers」とも呼ばれている。

  • 今日、AOEIIがチューリング完全だと知った。

    • チューリング完全性のハードルは極端に低い。
    • システムにごくわずかな複雑さを追加するだけでも、チューリング完全性の閾値を下回ったままにしておくのは非常に難しいことが多い。Gwernの優れた記事はこちら
  • 面白いブログ記事になれたかもしれないのに、代わりに読みにくい気取りの入った論文になってしまっていて、おそらく税金で支援されたのだろうが、誰の役にも立たない。

    • 幸い論文内に研究資金の情報はないので、著者の所属順を見るに、ほぼ確実にMicrosoftが全額出したのだろう。
  • この段落を読んで、そもそも読む価値はなさそうだという自分の直感に従わなかったことを後悔した。
    心の哲学の背景があり、第2章の引用を見てこの論文がどんな議論をするのか見当はついていた。だが、読み終えてみると、この論文がいったい何を論じているのかまったくわからない。