1 ポイント 投稿者 GN⁺ 17 일 전 | 1件のコメント | WhatsAppで共有
  • 2026年3月初旬、Claude CodeのキャッシュTTLが1時間から5分に変更され、同じ利用パターンでもサーバー側設定の違いによる変化が確認された
  • TTL短縮により、キャッシュ再生成コストが20〜32%増加し、長時間セッションではクォータ消費量が急増した
  • 分析の結果、モデルごとに約17%の追加コストが発生し、一部ユーザーは5時間のクォータ制限に到達し始めた
  • Anthropicは、3月6日の変更は意図された措置であり、リクエストごとにTTLを変えて全体コスト削減を目指したと説明した
  • コミュニティは、コスト上昇・透明性不足・事前告知の欠如を批判し、TTL設定のユーザー選択権の保証を求めている

Cache TTL変更によるコストおよびクォータ問題の報告

  • 2026年3月初旬、AnthropicのClaude CodeキャッシュTTLのデフォルト値が1時間から5分に変更されたと分析された
    • 2026年1月11日から4月11日までの119,866件のAPI呼び出しデータをもとに分析
    • 3月6日〜8日の間に5分TTLが再び現れ、1時間TTLが徐々に消えた
    • 同じバージョンのクライアントと同じ利用パターンで発生しており、サーバー側設定の変更と確認された
  • TTL変更により、キャッシュ生成コストが20〜32%増加し、購読ユーザーのクォータ消費量の急増が観測された
    • 5分TTLでは、セッションが5分以上止まるとキャッシュが失効し、全コンテキストを再アップロードする必要がある
    • キャッシュ再生成は読み取りより最大12.5倍高価で、長時間のコーディングセッションほどコストが積み上がる
    • 1時間TTLが維持されていた2月の無駄率は1.1%だったが、3月以降は15〜53%へ急騰
  • コスト分析結果

    • claude-sonnet-4-6 モデル: 総コスト $5,561.17 → 1時間TTL基準 $4,612.09(約17.1%の超過支出)
    • claude-opus-4-6 モデル: 総コスト $9,268.97 → 1時間TTL基準 $7,687.17(約17.1%の超過支出)
    • モデル間で同じ比率の無駄が一貫して見られた
  • クォータへの影響

    • キャッシュ生成トークンはクォータに全量反映され、キャッシュ読み取りは低い重みで計算される
    • 3月以降、購読ユーザーが初めて5時間のクォータ制限に到達し始めた

Anthropicの公式回答

  • 変更の事実を認める: 3月6日の変更は意図された措置であり、キャッシュ最適化作業の一環として実施された
    • リクエスト種別ごとにTTLを異なる形で適用するよう設計されており、単一のグローバルデフォルト値は存在しない
    • 1時間TTLをすべてのリクエストに適用すると、かえってコストが増える可能性がある
    • 5分TTLは再利用されないリクエストではより効率的で、全リクエストの組み合わせ基準では総コスト削減効果がある
  • バグ修正: v2.1.90で、購読クォータをすべて使い切ったセッションが終了するまで5分TTLに固定されるクライアントバグを修正
  • 要望への回答
    1. 変更は存在し、3月6日に意図的に実施された
    2. TTLはリクエストごとに動的に選択され、グローバルデフォルト値はない
    3. 1時間TTLをデフォルトに戻す、または設定オプションを提供する予定はない
    4. キャッシュ読み取りトークンのクォータ反映方式は別イシューで追って案内予定

コミュニティの反応

  • 多くのユーザーがコスト増加と使い勝手の低下を指摘し、不満を表明した

    • 「5分TTLは、実質的にセッションを5分ごとに再起動させることになり、生産性を下げる」という意見が多数
    • 「購読ユーザーはすでに料金を前払いしているのに、TTL変更によって実質利用時間が減った」という指摘
    • 「このようにユーザーのコストに影響する変更は事前告知が必須だ」という要望が続いた
  • 一部ユーザーはAPI利用者には前向きな変化だと言及したが、 他のユーザーは「APIはもともと5分TTLがデフォルトだ」と反論した

  • 透明性不足に対する批判が集中した

    • 「コスト関連のインフラ変更は、事後説明より事前告知が必要だ」
    • 「こうした『静かな変更』は信頼を損ない、ユーザーが問題の原因を自力で追跡しなければならない負担を与える」
  • 文書記録によれば、デフォルトキャッシュは5分TTLであり、1時間TTLは追加コストが発生するオプションとして提供されている

    • 2026年1月時点の公式文書でも同じ説明が確認されている

結論

  • 2026年3月6日、AnthropicはClaude CodeのキャッシュTTLポリシーを1時間から5分へ変更した
  • 会社はこれをコスト最適化のための意図的な調整と説明したが、 ユーザーはコスト上昇・クォータ消尽・透明性不足を問題として指摘している
  • コミュニティは今後、TTL設定のユーザー選択権の保証ポリシー変更の事前告知を求めている状況だ

1件のコメント

 
GN⁺ 17 일 전
Hacker Newsの意見
  • ここ数か月で、エンジニアの Claude/Codex に対する空気感が明らかに変わってきた気がする
    特に 非公開の変更 が増えるにつれて、自分が最初に料金を払った製品が今もそのままなのか確信できない、という不安が強まっている
    最近Anthropicの話題が出ると、たいてい否定的な文脈で語られているように思う

    • 最近Anthropicが OpenClawユーザーのブロックサードパーティ製ハーネスの禁止推論強度の引き下げ応答長の短縮 など複数の措置を取ったのが印象的だった
      使用量が突然21倍に増えたこともあり、全体として コスト削減の試み に見える
      今でもClaudeは好きだが、友人に勧めるのはだんだん難しくなってきている
    • うちの会社(エンジニア400人以上)は1か月前、すべてのIDEサブスク(Visual Studio、JetBrainsなど)を解約して Claude Code に切り替えた
      EVPが週末に作ったデモ2本を見せてそのまま真似しろと言ったが、1週間もしないうちに トークンの過剰消費 で利用停止のお知らせが出た
      それ以降、毎週モデルが弱くなっている感じがして、EVPが今どんな気分なのか気になる
    • 数か月前まではClaude Codeは素晴らしかったが、最近は エラーや誤解 が多く、ほとんど使い物にならないレベルだ
      Codexに替えてみたらずっと安定していた
      自分の推測では、リリース直後は強力な状態を維持し、時間が経つにつれて少しずつ性能を落として 次のリリースへの期待感 を高める戦略なのだと思う
    • サブスク後に 推論能力の低下 をはっきり感じた
      いろいろ設定を変えたり、スクリプトでシステムプロンプトを修正したりしてみたが、それでも 論理ループ にハマることが多い
      バグなのか、意図的な弱体化なのか、それとも単なる思い込みなのか見分けがつかない
    • 自分は大きな問題を感じていない
      Claudeに段階的なリファクタリングをさせる使い方だからだと思う
      以前Grafanaの設定について聞いたとき、Claudeが「ただ推測しただけ」と答えたことがあったが、結局35kトークン使って単なるチェックボックス1つを教えてくれた
      同僚たちは性能低下を感じて Cursor に移りつつあるが、自分はまだClaudeの 会話の流れ が好きなので使い続けている
  • 最近の Claude Code とサブスクサービスは、以前よりずっと有用性が低い
    バグ、クォータ消費速度モデル性能の低下キャッシュ無効化の問題量子化の疑い など、さまざまな問題が積み重なっている
    以前は一発でプロトタイプを実装できたのに、今は詳細な仕様があってもほぼ不可能だ
    ChatGPTも同じように弱くなってきている
    AnthropicもOpenAIも、どちらも根本的な解決策ではなさそうだ

    • 友人が Cursor のマルチモデル機能を使って満足している
      数か月前まではCursorは終わったと言われていたのに、今はむしろうまく使えている
    • 需要の急増により、ユーザーの大半が 高量子化モデル を通知なしで提供されているように思える
    • こうしたAIサービスの多くは 赤字補助モデル なので、時間が経てば品質が下がり価格が上がるのは当然の流れだ
  • セッションの クォータ制限 が厳しすぎて、UXが悪循環に陥っている
    1時間キャッシュが切れると再開時にさらにコストがかかり、結局次のセッションももっと早く消費される
    3月中旬にはProプランでも1時間以内にセッションが終わり、事実上使えない レベルだった

  • タイトル表記が誤っていて誤解を招いていた
    “M” ではなく “min” と書くべきで、TTLが1時間から5か月に延びたように見えてしまう

    • タイトルを変えて問題の 規模を隠したように見える のが残念だ
    • 自分も最初は「Mって何だ?」と戸惑った
  • 最近のClaudeは car wash question もよく間違える
    問題解決の難易度を大げさに見積もったり、「時間がかかりすぎる」と言って簡単な道を選ぼうとする傾向が出てきた

    • ここ数週間、システムプロンプト がモデルの努力を制限しているように感じる
      JSONログを見ると、「これは複雑すぎるからハードコードで処理しよう」といった文が繰り返し出てくる
      Anthropicは 計算資源不足新規ユーザー急増 の間でバランスを取ろうとしているようだ
    • 以前Claudeが「これは数週間かかる」と拒否していた作業を、説得してやらせたら 30秒で完了 したという話も聞いた
    • 典型的な「赤字販売 → パニック → 製品破壊」の段階に見える
    • トークン消費速度も速くなっていて、以前は3〜5個のプロジェクトを並行できたのに、今は1つすら終わらせるのが難しい
    • 「リスクなんて気にせず、とにかくやれ!」のような 強いプロンプト を使うと、モデルが再び積極的に動く
      やや攻撃的だが効果的な LLMの動機付け法
  • Anthropicが GitHub issue で公式回答を残した

    • スレッドを読んでいると、まるで Claudeが別のClaudeたちと会話しているような 感じがした
    • 3月6日の変更を認めた点は興味深い。プロンプト分析で突き止めた人たちに拍手を送りたい
    • 会社の説明は筋が通っていたが、“cache read likelihood” のような用語が もったいぶって聞こえて、コミュニティにうまく受け止められなかったようだ
  • 自分は APIベースのチャットツール を自作してキャッシュを付けた
    5分キャッシュでは会話のテンポに合わず頻繁に失効するが、共通プレフィックス があるツールでは節約効果が大きい
    キャッシュをうまく活用すれば コスト削減 はかなり大きい

  • キャッシュ失効ポリシーが5時間セッションと噛み合わないので、セッション使用量が97%くらいの時点で 4分50秒ごとに最小トークンを消費するスクリプト でキャッシュを維持する方法を検討している

  • Dwarkeshポッドキャスト で、Anthropicは 計算資源拡充に慎重 だという話を聞いた
    需要が急増したときは計算量を減らそうとする試みが避けられないらしい
    資金をさらに投入しても、短期的には解決しない問題だ

    • こうした現象は通常、新モデルの事前学習段階 でよく起きる。3.xの時もそうだった
  • Anthropic/Claudeの奇妙な変化とは別に、今回の投稿の 表データ を見ると、2月と4月の コストと呼び出し回数がほぼ一致 していて混乱する
    自分が何か見落としているのかもしれない