2 ポイント 投稿者 johnonlee 2 시간 전 | まだコメントはありません。 | WhatsAppで共有

OpenCode Go の使用中、ダッシュボードで妙な点を見つけました。同じモデルで、入力トークンも近い値(300K vs 257K)なのに、コストは $0.0096 vs $0.4455 と 46 倍の差がありました。原因はプロンプトキャッシュです。

LLM は同一の prefix が繰り返されると以前の計算を再利用しますが、ほとんどのコーディングエージェントは各ターンで会話履歴全体(transcript)をそのまま送信します。その間はキャッシュのおかげで安く済みますが、context window が埋まって compaction が起きると prefix が崩れ、キャッシュが無効化されます。

この記事では、transcript 方式に潜む隠れたコストと、structured state だけを送る代替アプローチを、実際の 44 ターンのデバッグセッションのデータ(トークン 80.4% 削減)とともに分析しています。論点はキャッシュの有無ではなく、「いつキャッシュが壊れるかわからない構造」と「キャッシュに依存しない構造」の違いだという見方です。

まだコメントはありません。

まだコメントはありません。