18 ポイント 投稿者 tomlee 2026-02-27 | 4件のコメント | WhatsAppで共有

AIエージェントにメモリをどう与えるかについての実験結果です。

同一のAIエージェント(Claude)に4種類のメモリ構成を与え、実際のソフトウェアプロジェクトについて同じ20の質問を投げました。

結果(5点満点):

• ハイブリッド(経験+合成): 4.95
• 経験的メモリ(生のログ): 4.55
• ベースライン(メモリなし): 3.30
• 合成メモリ(整理された要約): 2.65
最も驚くべき発見は、丁寧に整理した合成メモリが、メモリがまったくない場合よりも低かったことです。

これは「過剰確信効果」と名付けられており、きれいに要約された知識がエージェントに根拠のない確信を与え、知らないことを知らないと認める能力を低下させます。一方、生の経験的記録は不確実性の痕跡を保持するため、エージェントはより正直な推論を行います。

論文(プレプリント): https://doi.org/10.5281/zenodo.18802214
実験データ(公開): https://github.com/clawsouls/experiential-memory-dataset

4件のコメント

 
shw00 2026-02-28

経験的にある程度そう感じてはいたけれど、合成メモリは自分の考え以上にあまりにも悲惨ですね

 
tomlee 2026-02-28

その通りです。私も最初は、合成メモリは少なくともベースラインよりは良いだろうと予想していましたが、結果を見て驚きました。

分析してみると、核心は「不確実性の保持」でした。生のログには「これを試したがうまくいかなかった」「原因はわからない」といった痕跡が残っているので、エージェントはわからないことにはわからないと答えるのですが、要約版ではそうした文脈がすべて消えてしまい、かえって間違った答えを自信満々に出すようだったのです。

 
mssmss 2026-02-28

では、合成メモリにそうした作業のプロセス、失敗、成功の内容を含めるように構成すれば、少しは変わるのでしょうか?

 
tomlee 2026-02-28

良い質問です。実際、私たちの実験における「ハイブリッド」条件は、まさにその方向でした。つまり、整理された要約に生の経験ログをあわせて提供する構成です。

結果として、ハイブリッドが4.95/5.0で最も高くなりました。要約だけだと2.65ですが、そこに「失敗した」「原因不明」といった過程の記録を付け加えると、むしろ要約の弱点が補われることが分かりました。

したがって結論は、「要約そのものが悪いのではなく、過程と不確実性を一緒に含める必要がある」ということです。

ただし N=1 なので、さまざまなユーザー層に対して汎用的に使える内容かどうかは、今後の研究が必要です。