コーディングエージェント、同じモデルなのになぜあるリクエストは46倍も高いのか？

(dev.to/johnonlee)

2 ポイント投稿者 johnonlee 2026-05-22 | まだコメントはありません。 | WhatsAppで共有

OpenCode Go の使用中、ダッシュボードで妙な点を見つけました。同じモデルで、入力トークンも近い値（300K vs 257K）なのに、コストは $0.0096 vs $0.4455 と 46 倍の差がありました。原因はプロンプトキャッシュです。

LLM は同一の prefix が繰り返されると以前の計算を再利用しますが、ほとんどのコーディングエージェントは各ターンで会話履歴全体（transcript）をそのまま送信します。その間はキャッシュのおかげで安く済みますが、context window が埋まって compaction が起きると prefix が崩れ、キャッシュが無効化されます。

この記事では、transcript 方式に潜む隠れたコストと、structured state だけを送る代替アプローチを、実際の 44 ターンのデバッグセッションのデータ（トークン 80.4% 削減）とともに分析しています。論点はキャッシュの有無ではなく、「いつキャッシュが壊れるかわからない構造」と「キャッシュに依存しない構造」の違いだという見方です。

コーディングエージェント、同じモデルなのになぜあるリクエストは46倍も高いのか？

関連記事

まだコメントはありません。