- オープンエンドな対話システムで使われる大規模言語モデル(LLM)の長期記憶能力を向上させるための新しい手法に関する論文
- 長期対話において重要な情報を忘れてしまうことは、オープンエンドな対話システムの重要な課題
- 既存の解決策は、対話内容から重要情報を得るために専用の検索器や要約器を訓練するものだが、時間がかかり、ラベル付きデータの品質に大きく依存する
- 提案手法は、LLMを使って要約や記憶を再帰的に生成することで、この問題の緩和を目指す
- この手法では、まずLLMに小さな対話コンテキストを記憶させ、その後、以前の記憶と後続のコンテキストを使って新しい記憶を再帰的に生成する
- 最新の記憶の助けにより、LLMは非常に一貫性の高い応答を生成できる
- この手法はChatGPTとtext-davinci-003を用いて評価され、広く使われている公開データセットでの実験結果から、長いコンテキストの対話でより一貫した応答を生成できることが示された
- この手法は、LLMが極めて長いコンテキストをモデリングできるようにする潜在的な解決策である
- この手法に関するコードとスクリプトは今後公開される予定
- この研究はSimons Foundation、加盟機関、およびすべての貢献者の支援を受けた
1件のコメント
Hacker Newsの意見