AIエージェントのメモリ実験: 要約された知識はかえって性能を下げる
(blog.clawsouls.ai)AIエージェントにメモリをどう与えるかについての実験結果です。
同一のAIエージェント(Claude)に4種類のメモリ構成を与え、実際のソフトウェアプロジェクトについて同じ20の質問を投げました。
結果(5点満点):
• ハイブリッド(経験+合成): 4.95
• 経験的メモリ(生のログ): 4.55
• ベースライン(メモリなし): 3.30
• 合成メモリ(整理された要約): 2.65
最も驚くべき発見は、丁寧に整理した合成メモリが、メモリがまったくない場合よりも低かったことです。
これは「過剰確信効果」と名付けられており、きれいに要約された知識がエージェントに根拠のない確信を与え、知らないことを知らないと認める能力を低下させます。一方、生の経験的記録は不確実性の痕跡を保持するため、エージェントはより正直な推論を行います。
論文(プレプリント): https://doi.org/10.5281/zenodo.18802214
実験データ(公開): https://github.com/clawsouls/experiential-memory-dataset
4件のコメント
経験的にある程度そう感じてはいたけれど、合成メモリは自分の考え以上にあまりにも悲惨ですね
その通りです。私も最初は、合成メモリは少なくともベースラインよりは良いだろうと予想していましたが、結果を見て驚きました。
分析してみると、核心は「不確実性の保持」でした。生のログには「これを試したがうまくいかなかった」「原因はわからない」といった痕跡が残っているので、エージェントはわからないことにはわからないと答えるのですが、要約版ではそうした文脈がすべて消えてしまい、かえって間違った答えを自信満々に出すようだったのです。
では、合成メモリにそうした作業のプロセス、失敗、成功の内容を含めるように構成すれば、少しは変わるのでしょうか?
良い質問です。実際、私たちの実験における「ハイブリッド」条件は、まさにその方向でした。つまり、整理された要約に生の経験ログをあわせて提供する構成です。
結果として、ハイブリッドが4.95/5.0で最も高くなりました。要約だけだと2.65ですが、そこに「失敗した」「原因不明」といった過程の記録を付け加えると、むしろ要約の弱点が補われることが分かりました。
したがって結論は、「要約そのものが悪いのではなく、過程と不確実性を一緒に含める必要がある」ということです。
ただし N=1 なので、さまざまなユーザー層に対して汎用的に使える内容かどうかは、今後の研究が必要です。