AIエージェントのメモリ実験: 要約された知識はかえって性能を下げる

(blog.clawsouls.ai)

18 ポイント投稿者 tomlee 2026-02-27 | 4件のコメント | WhatsAppで共有

AIエージェントにメモリをどう与えるかについての実験結果です。

同一のAIエージェント（Claude）に4種類のメモリ構成を与え、実際のソフトウェアプロジェクトについて同じ20の質問を投げました。

結果（5点満点）:

• ハイブリッド（経験+合成）: 4.95
• 経験的メモリ（生のログ）: 4.55
• ベースライン（メモリなし）: 3.30
• 合成メモリ（整理された要約）: 2.65
最も驚くべき発見は、丁寧に整理した合成メモリが、メモリがまったくない場合よりも低かったことです。

これは「過剰確信効果」と名付けられており、きれいに要約された知識がエージェントに根拠のない確信を与え、知らないことを知らないと認める能力を低下させます。一方、生の経験的記録は不確実性の痕跡を保持するため、エージェントはより正直な推論を行います。

論文（プレプリント）: https://doi.org/10.5281/zenodo.18802214
実験データ（公開）: https://github.com/clawsouls/experiential-memory-dataset

4件のコメント

shw00 2026-02-28

経験的にある程度そう感じてはいたけれど、合成メモリは自分の考え以上にあまりにも悲惨ですね

tomlee 2026-02-28

その通りです。私も最初は、合成メモリは少なくともベースラインよりは良いだろうと予想していましたが、結果を見て驚きました。

分析してみると、核心は「不確実性の保持」でした。生のログには「これを試したがうまくいかなかった」「原因はわからない」といった痕跡が残っているので、エージェントはわからないことにはわからないと答えるのですが、要約版ではそうした文脈がすべて消えてしまい、かえって間違った答えを自信満々に出すようだったのです。

mssmss 2026-02-28

では、合成メモリにそうした作業のプロセス、失敗、成功の内容を含めるように構成すれば、少しは変わるのでしょうか？

tomlee 2026-02-28

良い質問です。実際、私たちの実験における「ハイブリッド」条件は、まさにその方向でした。つまり、整理された要約に生の経験ログをあわせて提供する構成です。

結果として、ハイブリッドが4.95/5.0で最も高くなりました。要約だけだと2.65ですが、そこに「失敗した」「原因不明」といった過程の記録を付け加えると、むしろ要約の弱点が補われることが分かりました。

したがって結論は、「要約そのものが悪いのではなく、過程と不確実性を一緒に含める必要がある」ということです。

ただし N=1 なので、さまざまなユーザー層に対して汎用的に使える内容かどうかは、今後の研究が必要です。

AIエージェントのメモリ実験: 要約された知識はかえって性能を下げる

関連記事

4件のコメント