2 ポイント 投稿者 GN⁺ 2024-04-08 | 1件のコメント | WhatsAppで共有

必要なのはより多くのエージェントだけ

  • 大規模言語モデル(LLM)の性能は、インスタンス化されたエージェントの数に応じてスケールしうることを発見。
  • サンプリングおよび投票手法により、既存の複雑な手法とは独立してLLMを改善でき、改善の度合いはタスクの難易度と関連している。
  • さまざまなLLMベンチマークで広範な実験を行い、こうした発見の存在を確認し、その発生を促進しうる特性を研究。
  • 研究に使用したコードは公開されており、誰でも利用可能。

GN⁺の見解

  • この研究は、大規模言語モデルの性能向上に対する新しいアプローチを提示することで、人工知能分野に重要な貢献をもたらす可能性がある。
  • エージェント数を増やすことが性能向上に直接影響するという発見は、リソースのスケーラビリティと効率性に関する新たな視点を提供する。
  • 実験結果が実際のアプリケーションにどのように適用できるかについて、さらなる研究が必要。
  • 性能向上がタスクの難易度と関連している点は、特定タスクに対する言語モデルの最適化戦略を策定するうえで役立つ可能性がある。
  • 公開されたコードにより、他の研究者がこの研究を再現・拡張することに貢献でき、これは科学的透明性と協力を促進する。

1件のコメント

 
GN⁺ 2024-04-08
Hacker Newsの意見
  • 1つ目のコメント要約:

    • この論文は、マルチエージェント設定(例: Chain-of-thought、LLM-Debate)という発想全体に疑問を投げかけている。
    • 代替手法として、同じLLMに同じ問い合わせを複数回実行し、回答間の類似性アルゴリズムを使って最も頻出する回答を選ぶ。
    • この単純なアルゴリズムは、他のマルチエージェントアルゴリズムと比べても優れた性能を示す。
    • これは、マルチエージェントスキーマが特別なことをしているわけではなく、改善された結果は主にLLMを複数回実行し、最良の回答を選ぶよう求めるプロンプトによることを示唆している。
  • 2つ目のコメント要約:

    • 16か月のあいだ、単一エージェントがすべてを正しく処理することに集中するより、エージェントを階層化する必要があると主張してきた。
    • タスクに対する収益逓減が、理想的な人間の会議規模と同じように急速に現れるのが興味深い。
    • エージェント数をさらに細かく調整したとき、理想的な会議規模とどの程度一致するのか気になる。
    • 各エージェントが少しずつ異なる目標で微調整された場合に得られる性能向上を見てみたい。
  • 3つ目のコメント要約:

    • 最近のACM ByteCastポッドキャストのエピソードで、スタンフォード大学コンピュータサイエンス学科のエドワード・チャン教授が扱った内容と関連している。
    • 複数のLLMが討論テーマについて互いに対話し、人間がモデレーターの役割を担う方式を使う。
    • 複数のLLMが対話を通じて到達した最終回答は、正確性と精度の両方で大きく向上する。
  • 4つ目のコメント要約:

    • Mixture of Expertsに関する研究で感じるフラストレーションは、LLMに複数回問い合わせて多数決で結果を選ぶほうが、1回だけ問い合わせてその結果を採用するより一般に性能が良い、という基本的な確率論的推論にある。
    • 異なるLLMの混合や、タスクをサブタスクに分割するより良い方法を見つけることで、この利得はさらに高められそうだ。
  • 5つ目のコメント要約:

    • グラフを見ると、エージェント10個で利得の大半が得られ、20個で少し上積みがあり、それ以降は収益逓減になる。
  • 6つ目のコメント要約:

    • LLMサービスを提供する企業のビジネスモデルについての冗談めいた考え: 何度も呼ばないと目的地に着けない配車サービス、何度も使わないと服が「たぶん」きれいにならない洗剤。
    • 「人工知能」を提供する会社なら、正しい回答に対してのみ料金を支払うのが合理的だ。
  • 7つ目のコメント要約:

    • この方法は非常に高コストで持続可能ではないのではないか、新しいモデルではおそらく収益逓減が見られるため、MoEこそ進むべき方向だという意見に同意する。
    • 単一プロンプトに対する計算量は7〜15倍に増えるだろう。
  • 8つ目のコメント要約:

    • 公開されたリポジトリと、ベンチマークで使われたプロンプトが非常に興味深い。
    • ツールセットを使うLLMベースのエージェントのベンチマークも見てみたい。
  • 9つ目のコメント要約:

    • 「xがすべて必要だ」という言い回しを全部合わせると、実際には必要なものがかなり多いことに気づくだろう。
  • 10つ目のコメント要約:

    • GPT 3.5エージェントをいくつ集めてアンサンブルしても、GPT-4を1回呼び出すより精度が低い。