1 ポイント 投稿者 GN⁺ 2023-09-04 | 1件のコメント | WhatsAppで共有
  • オープンエンドな対話システムで使われる大規模言語モデル(LLM)の長期記憶能力を向上させるための新しい手法に関する論文
  • 長期対話において重要な情報を忘れてしまうことは、オープンエンドな対話システムの重要な課題
  • 既存の解決策は、対話内容から重要情報を得るために専用の検索器や要約器を訓練するものだが、時間がかかり、ラベル付きデータの品質に大きく依存する
  • 提案手法は、LLMを使って要約や記憶を再帰的に生成することで、この問題の緩和を目指す
  • この手法では、まずLLMに小さな対話コンテキストを記憶させ、その後、以前の記憶と後続のコンテキストを使って新しい記憶を再帰的に生成する
  • 最新の記憶の助けにより、LLMは非常に一貫性の高い応答を生成できる
  • この手法はChatGPTとtext-davinci-003を用いて評価され、広く使われている公開データセットでの実験結果から、長いコンテキストの対話でより一貫した応答を生成できることが示された
  • この手法は、LLMが極めて長いコンテキストをモデリングできるようにする潜在的な解決策である
  • この手法に関するコードとスクリプトは今後公開される予定
  • この研究はSimons Foundation、加盟機関、およびすべての貢献者の支援を受けた

1件のコメント

 
GN⁺ 2023-09-04
Hacker Newsの意見
  • CodeRabbitはPRレビューのために記事で議論されたアプローチに似た手法を用いており、各コミットに対する要約の要約を生成し、追加のコミットが行われるにつれて段階的に更新しています。
  • 一部のユーザーは、「テキスト空間」でメモリを構築する効果に疑問を示しており、メモリは全体的な意味を保持できる高密度な埋め込み空間に保存するほうが適していると提案しています。
  • 研究における透明性と再現性を求める声があり、実験で使用されたコードやスクリプトにアクセスできなければ主張を信じないというユーザーもいます。
  • 再帰的要約の利用は業務環境でうまく適用されており、何千もの「ブリーフィング」を5段落のテキストに要約し、各ブリーフィングをトピックとサブトピックに分類しています。
  • 一部のユーザーは再帰的要約に関連して問題を経験しており、特定のビットがすべての要約ラウンドを生き残ってしまい、モデルが特定の話題に固定されるケースなどがあります。
  • 論文の詳細不足に対する批判があり、これを失望的でLLM開発者にとってあまり価値がないと考えるユーザーもいます。
  • 一部のユーザーはこの手法の新規性に疑問を呈しており、LLMベースのチャット履歴メモリの要約はすでに確立された手法であり、論文で提案されているようにすべてのメッセージを要約することは主要な性能ボトルネックだと主張しています。
  • 論文のメモリテキストをプロンプトの一部として追加する実装に疑問が呈されており、コンテキストウィンドウのトークンを消費しない保存・検索システムの提案があります。
  • 論文で議論された手法はLangchainの「summary」メモリ機能と比較されており、これは2023年3月以降存在していたと報告されています。