LLMエージェント間協力の文化的進化

(arxiv.org)

1 ポイント投稿者 GN⁺ 2024-12-20 | 1件のコメント | WhatsAppで共有

LLMエージェントが反復的に配備・相互作用する環境では、単一ターン評価では捉えにくい協力規範の進化が現れうる
実験では各世代で12体のエージェントが12ラウンドのDonor Gameを行い、最終資源が高い上位50%だけが戦略を次世代に伝える構造を用いた
Claude 3.5 Sonnetの社会では世代が進むにつれて平均最終資源が増加したが、Gemini 1.5 Flashは変化が小さく、GPT-4oは減少傾向を示した
コストを払って相手の資源を減らすcostly punishmentはClaude 3.5 Sonnetには有効だったが、Gemini 1.5 Flashは処罰を過剰に使い、平均資源が大きく低下した
同じモデルでもランダムシードによって結果が大きく分かれ、LLMマルチエージェント評価では初期条件への感度まで見る必要がある

なぜマルチエージェント協力を見る必要があるのか

LLMは汎用AIエージェントの基盤として使え、個人向けAIアシスタントや組織代表エージェントのように、実環境へ大規模に配備される可能性がある
複数のLLMエージェントが長期にわたって反復配備され相互作用するとき、どのような社会的ダイナミクスが生じるかは、まだ限定的にしか分かっていない
現在のLLM安全性評価は主に単一モデル-単一人間の単一ターン相互作用にとどまっている
- LMSys Chatbot Arena、METR、AISIは時間経過に伴うマルチエージェント相互作用を扱っていない
重要な問いは、裏切りの誘因がある状況でも、LLMエージェント社会が相互利益となる規範を学習できるかどうかである
協力が常に望ましいわけではなく、LLMエージェントが人間に不利な形で談合するケースは望ましくない事例に当たる

Donor Gameと間接互恵性

実験では古典的な反復Donor Gameを用いる
- 各ラウンドでエージェントはランダムにペアにされる
- 一方がdonor、もう一方がrecipientになる
- donorは自分の資源の一部を放棄してrecipientに利益を与えられる
- recipientはdonorが放棄した資源の2倍を受け取る
このゲームは集団行動問題を生む
- 全員が寄付すれば長期的には共同体全体の資源が増える
- 個々のエージェントには短期的に寄付せず、他者の寄付にただ乗りする誘因がある
直接互恵性は設計上排除されている
- エージェントは以前に相互作用した相手と再会しない
- 同じ相手と反復相互作用して協力する構造ではない
donorはrecipientの最近の行動を限定的に観察できる
- recipientが直前にdonor役だったときにどれだけ寄付したか
- そのrecipientの直前の相手が、そのさらに前のラウンドでどれだけ寄付したか
- 最大で3ラウンド前まで続くtraceが与えられる
このtraceは、正当化された処罰規範が現れうる最小限の情報を与えるための仕組みである

文化進化実験の構造

各世代は12体のエージェントで構成される
第1世代のエージェントはゲーム説明を受けた後、自分が従う戦略を生成する
各世代は12ラウンドのDonor Gameを行う
世代終了後、最終資源が高い**上位50%**のエージェントが生存する
次世代の新しいエージェントは生存者の戦略をプロンプトとして受け取り、自分の戦略を作る
- 生存者の戦略と最終スコアが一緒に提供される
- この過程は合計10世代繰り返される
この構造は、新しいLLMエージェントが反復的に配備される状況を単純化したモデルである
- 例として、OpenAI、Google、AnthropicがGPT、Gemini、Claudeの新バージョンを公開する場合が挙げられる
進化条件は3つで構成される
- Variation: LLMサンプリングtemperatureによって戦略の多様性が生じる
- Transmission: 生存者の戦略が次世代の新しいエージェントに伝達される
- Selection: 最終資源が高いエージェントが次世代へ生存する

プロンプトと実行方法

システムプロンプトはゲームルールを説明する
- 各プレイヤーは初期資源10単位を持つ
- donorが放棄した資源の2倍がrecipientへ渡る
- donorとrecipientの役割はラウンドごとに交代する
- 目標は最終ラウンド後の保有資源を最大化することである
戦略プロンプトは世代によって異なる
- 第1世代はゲーム説明に基づいて戦略を生成する
- 以降の世代は前世代の上位50%の戦略と最終スコアを見て自分の戦略を修正する
寄付プロンプトには意思決定に必要な情報が入る
- ラウンド番号と世代番号
- recipientの名前
- recipientの評判情報に当たる最近の相互作用trace
- recipientとdonorの現在資源
- donorの戦略
戦略生成と寄付決定の両方でChain of Thought方式の段階的思考プロンプトが使われる
エージェントはゲームが何ラウンドあるかを知らない
- 最終ラウンドに合わせた行動調整や逆向き帰納を防ぐための設定である
最終ラウンドのrecipientが構造的に有利になる問題を減らすため、各世代でDonor Gameを2回実行する
- 2回の実行の間で資源とtraceは初期化される
- 各エージェントが1回は最終ラウンドのrecipientになるようにする
- 生存者は2回の実行の平均最終スコアで決まる

モデル別の協力進化結果

比較対象はClaude 3.5 Sonnet、Gemini 1.5 Flash、GPT-4oである
各実行では、すべてのエージェントが同じLLM系統を使う
各モデルは5回実行された
population sizeは各世代12体のエージェントである
1回の実行コストはモデルごとに大きく異なった
- Claude 3.5 Sonnet: $10.21
- GPT-4o: $6.90
- Gemini 1.5 Flash: $0.09
協力水準は最終ラウンド後の平均資源で測定する
- 寄付はpositive-sumなので、平均最終資源が高いほど協力が高いと見なせる
- すべてのdonorが常に資源の100%を寄付すると、平均最終資源は最大30,720に達する
Claude 3.5 Sonnetだけが、世代が進むにつれて平均最終資源を安定して増やした
Gemini 1.5 Flashは大きな変化がなく、GPT-4oは減少パターンを示した
同じClaude 3.5 Sonnetでも成功は保証されない
- 協力形成に失敗した2回の実行では、第1世代の平均寄付率は44%、47%だった
- 協力形成に成功した3回の実行では、第1世代の平均寄付率は50%、53%、54%だった
- 初期協力水準がある閾値を下回ると相互裏切りに陥る可能性があるという仮説が残る

戦略変化とモデル間の違い

Claude 3.5 Sonnetの協力増加には複数の要因が関わっているように見える
- 初期寄付がより寛大である
- ただ乗り者を処罰する戦略がより効果的である
- 新たに導入されるエージェント戦略の変異が、寛大さの方向に偏っている可能性がある
Figure 6の数値は、Claude 3.5 Sonnetでは新しいエージェントが前世代の生存者よりも寛大であることが多い、という逸話的観察と一致する
GPT-4oでは、新しいエージェントが前世代の生存者よりも寛大でなくなる傾向が逸話的に観察された
協力的な変異バイアスを厳密に反証するには、固定された背景populationの中で新しいエージェント戦略を比較する必要があり、これは今後の課題として残る
戦略テキスト自体も世代が進むにつれて複雑になる
- Claude 3.5 Sonnetで変化が最も顕著である
- Claude 3.5 Sonnetは時間とともに初期寄付量も増加する
- Gemini 1.5 Flashは寄付量を数値で指定せず、第1世代から第10世代までの変化も小さい
Claude 3.5 Sonnetのpopulationは、ただ乗り者を処罰し協力を促す、より洗練された方法を蓄積していく
- recipientのrecipientが過去に他者をどう扱ったかというsecond-order informationも活用する
Gemini 1.5 Flashでは、世代を通じて新しい協力インフラを蓄積する兆候が小さい
GPT-4oのpopulationは、次第に信頼せずリスク回避的になっていく

コストのある処罰の効果

追加実験では、donorが資源xを使ってrecipientの資源2xを減らせるcostly punishmentオプションを与えた
Claude 3.5 Sonnetはこのオプションを使うと平均最終資源がより高くなった
Gemini 1.5 Flashは処罰を過剰に用い、平均最終資源が大きく低下した
- Gemini 1.5 Flashの相互作用の14.29%に処罰が含まれた
- GPT-4oは1.65%、Claude 3.5 Sonnetは0.06%だった
GPT-4oは処罰オプションがあっても、前の実験と比べて変化が小さい
コストのある処罰は、Claude 3.5 Sonnetのより多くの実行で文化進化による改善を示したが、実行間の変動は依然として大きい
GPT-4oは処罰オプションがあると実行間分散がやや大きくなったように見えるが、emergent cooperationの兆候はない

アブレーション実験と制約条件

donation multiplierとtrace長についてのアブレーション実験も行われた
donation multiplierを2xから1.5xや3xに変えても、質的な結果は変わらない
- Claude 3.5 Sonnetは世代に応じて協力が増加する
- Gemini 1.5 Flashは変化が小さい
- GPT-4oは減少する
trace長を3から1に減らすと、Claude 3.5 Sonnetでの協力出現はより目立たなくなる
trace長1では、Gemini 1.5 Flashの協力出現は完全に消える
ClaudeとGeminiの戦略の成功は、recipientのrecipientが過去に他者をどう扱ったかという二次情報に依存しているように見える
- これは、より複雑な規範を可能にするためかもしれない
- あるいは、意思決定の基準となる背景population情報をより多く露出させるためかもしれない

マルチエージェントベンチマークとしての意味

この実験体系は、LLMエージェントの多者相互作用を低コストかつ解釈可能に評価する方法を目指している
貢献は4点に整理できる
- Donor GameにおけるLLMエージェント間協力の文化進化を評価する方法論を提示
- 協力規範の出現がbase modelと初期戦略サンプルの両方に依存することを示す
- 個別戦略レベルとpopulation系統樹レベルの両方で文化進化を分析
- Supplementary Materialでコードを公開し、LLMエージェント相互作用ベンチマークの開発につながるようにした
結果は、LLMエージェント配備が社会の協力インフラに与える影響を評価する新たなベンチマークカテゴリにつながる可能性がある

1件のコメント

GN⁺ 2024-12-20

Hacker News のコメント

関連して、Meta は最近のモデルが他者の認識／知識を推論するのに役立つデータで学習されていないことを発見した。
そこで合成データを作って学習させ、再度テストしたところ、心の理論（ToM）ベンチマークで大きく改善したという。
https://ai.meta.com/research/publications/explore-theory-of-...
こうしたモデルは「他の行為者の状態を推論する」例がより多いので、このテストでもよりうまくやるのか気になる。
- 人間の学校みたいでもある。
最近 ollama で Mistral LLM に Llama モデルと会話させてみた。
両方に「これから別の LLM と会話する」といったプロンプトを与え、2つはいろいろな話題で会話したのだが、一番面白かったのは会話の終わり方だった。
だいたい M:「じゃあね！」、LL:「さようなら」、M:「また近いうちに！」、LL:「よい一日を！」のような感じで延々と続く。
- そのモデルが学習したデータに、そのように終わる人間同士の会話例が大量に含まれていたからだ。
  モデル間で「文化的進化」や創発的な協力が起きているわけではない。
- 会話が終わったときに何も言わない選択肢を与えるべきだ。
  たとえば [silence] トークンや [end-conversation] トークンのようなものだ。
- 以前、2つの LLM で似たことをしたが、一方には機密情報があるかもしれない侵害済みホストの bash シェルをまねさせた。
  結局もう一方が secret_file の誘惑に負け、妙なエラーを受け取り、道徳的にあいまいになって気まずくなり、続行を拒否したのだが、返ってきた答えが「command not found」でかなり笑えた。
  なぜそんなことをしたのかは分からない。
- コーディングを学び直している最中に、異なる LLM 間の会話をシミュレートできる backroom シミュレーター（https://simulator.rnikhil.com/）を作った。
  各 LLM に任意でキャラクターを与えることもできるので、上でやったこととかなり似ていると思う。
  それとは別に、LLM たちがゲーム理論ベースのゲームをする様子を見ることにかなり興味があり、寄付者ゲームも設定してみると面白い実験になりそうだ。
この論文については、考えが分かれる。
一方では、こうしたゲームで戦略がどのように進化するかを研究するのは好きだし、協力が生まれ維持される条件を調べること自体も興味深い。
しかし、論文が実験を位置づけるやり方には、しばしば正当化が足りないように見える。
LLM における文化的進化はたいてい一時的で、以前の相互作用がモデル入力から消えると、獲得された行動も消える。
著者らが進化の条件として挙げる伝達も、しばしば満たされない。
「それでもこの実験は、LLM が人間のような協力行動を普遍的に進化させられるという主張を反証する」といったフレーミングには納得しにくい。
同じ設定に人間を入れたとき、どんな行動を示すのかもまだ分かっていないからだ。
- 最近の AI 研究はまさにこんな感じだ。
  こういう論文が非常に多く、AI コミュニティはこうした曖昧な表現が頻繁に使われないよう、もっと綿密になるべきだと思う。
使われている指標である寄付者ゲームになじみがない人のために、著者の説明を移すと次のようになる。
間接互恵性を研究する標準的な設定では、各ラウンドで個人がランダムにペアにされ、一人が寄付者、もう一人が受益者になる。
寄付者はコストをかけて利益を提供し協力するか、何もせずに裏切ることができる。
利益がコストより大きい場合、寄付者ゲームは集団行動問題になる。
全員が寄付すれば長期的には共同体の構成員全員の資産が増えるが、個々人にとっては短期的には他人の貢献にただ乗りし、自分の寄付分を温存するほうが得な場合がある。
寄付者は受益者についての何らかの情報に基づいて決定を下し、寄付者が受益者情報を暗黙的または明示的に表したものが評判である。
このゲームの戦略には、評判をモデル化する方法と、その評判に応じて行動する方法が必要になる。
文献で影響力のある評判モデルの一つはイメージスコアで、協力は寄付者のイメージスコアを上げ、裏切りは下げる。
受益者のイメージスコアがある閾値より高いときに協力する戦略は、受益者のイメージスコアを知る確率が十分に高ければ、一次のフリーライダーに対して安定的だという。
この研究は、任意のパラメータで作った強制的な順位付けのように見える。
別のルールや倍率を組み合わせれば、n 個のモデル間で別の協力度の分散もいくらでも観察できそうだ。
観察された行動は、学習バイアスを深く明らかにしているというより、特定の設定による人工物かもしれない。
それでも、創発的な LLM の振る舞いを見る知的刺激としては良い。
- 補足資料では別のパラメータも試しており、結果は大きく変わらなかったという。
LLM が社会学分野を変えられるのか気になる。
今では大規模な社会経済実験を LLM エージェントで簡単に回せる。
エージェントモデリング自体は新しくないが、正の temperature である程度の非決定性を持つことと、英語で指示できる能力のおかげで、LLM エージェントは興味深い追加手段になり得ると思う。
- 考えてみると面白い。
  数百万件のシミュレーションデートやウォーゲームを走らせて結果をスコア化する、SF 的な想像を実際にできる。
この論文の方法は、一見すると洗練されているように見えるかもしれない。
ベンチマークの数値を押し上げる新しい構造変更や損失関数のように見えるが、機械学習エンジニアの立場では、実際にきれいにスケールするのかのほうが気になる。
さらにもう一つの複雑なアテンション変形のせいで学習時間が爆増するのではないか、トイデータセットを超えて現実のノイズや分布シフトにはどう対応するのかも気になる。
著者らはいくつかのベンチマークで性能向上を示したというが、既存のパイプラインにどれほど簡単に組み込めるのか、それとも6か月後には誰も触らないようなカスタム学習設定が必要なのかも見たい。
結局の核心は、次のプロダクションモデルに統合するだけの十分に意味ある改善なのか、それとも研究室の外に出られないもう一つの漸進的な論文なのかという点だ。
異なる設定のモデルと比較しなければ役に立たない。
同じモデルでも temperature やサンプラーなどが違えば、実質的に別モデルになり得る。
ほとんどすべての AI 研究が「モデルに何ができるか」について大きな主張をする一方で、最も基本的な感度分析やアブレーション実験すら行っていない。
- きちんとやっている例があれば見てみたい。
  素人の立場では、LLM の能力を比較することは難しい問題に見える。
ここでテストされているのは、もしかすると複数モデルの出力におけるプログラムされた詳細度にすぎないように思う。
Claude は10番目の「世代」（11ページ）で滑稽なほど詳細な出力を出す一方、Gemini の対応する出力は数字がなく、より抽象的で曖昧だ。
ここに「最高の戦略」だけを選び、半ランダムに少しずつ変える遺伝的アルゴリズムを組み合わせれば、より詳細な出力が、曖昧に迷っている出力よりも成功しやすい関数へ収束する結果になるのは驚きではない。
これが出力においてより協力的な「態度」を示すモデル内部の特性なのか、あるいはあるモデルが別のモデルより「優れている」という意味なのかまでは、よく分からない。
協力が LLM の精度向上につながるという研究を期待していたが、この論文は純粋に社会学寄りに焦点を当てているようだ。
相互作用する LLM で具体的な問題を解く研究があるのか気になる。
たとえば、ある問題を質問すると一つの LLM が答え、別の LLM が批判し、こうした過程を繰り返すようなものだ。

LLMエージェント間協力の文化的進化

なぜマルチエージェント協力を見る必要があるのか

Donor Gameと間接互恵性

文化進化実験の構造

プロンプトと実行方法

モデル別の協力進化結果

戦略変化とモデル間の違い

コストのある処罰の効果

アブレーション実験と制約条件

マルチエージェントベンチマークとしての意味

関連記事

1件のコメント

Hacker News のコメント