既存のKV圧縮手法比で最大25%の追加削減、性能はむしろ改善 — CASK

(arxiv.org)

9 ポイント投稿者 skyline23 15 일 전 | 2件のコメント | WhatsAppで共有

CASKは、LLMの推論過程で発生するKV cacheの増大問題を解決するために、
従来のtoken importanceベースのpruning方式ではなく、
構造的（role-based）アプローチを提案する論文。

本研究はわずか5日で導き出され、指導教員なしで進められた2人の個人研究者による成果という点でも注目に値する。

📌 問題定義

長いchain-of-thought推論ではKV cacheが急速に増加し、

メモリ使用量が急増
推論latencyが増加
長期reasoning性能が低下

従来方式:

token importance scoringベース
低スコアのトークンをeviction

❌ 従来方式の限界

論文の実験結果:

importance scoringを精緻に改善しても
→ 実際に保持されるトークン集合の変化は限定的

つまり、

eviction戦略の改善だけでは
性能と効率の改善には限界がある

🔥 核心アイデア

CASKはトークンを重要度ではなく役割ベースで分離する。

Core

最終出力の生成に直接寄与
reasoningの中核状態
常に保持

Scratch

中間計算や探索過程で生成される状態
重複や不要な情報を含む可能性
圧縮および統合の対象

⚙️ 動作方式

Prefix Phase

入力（prompt）区間
一部のKV evictionを実施

Decode Phase

推論が進行する区間
Scratch領域にのみ選択的compressionを適用

👉 従来比での違い:

単純削除 → 選別的保持 + 構造的圧縮

📊 性能

論文の結果ベース:

既存のKV圧縮手法比で
→ 最大25%の追加メモリ削減
同一のKV cache budgetで
→ より高い精度を維持
一部の区間では
→ より少ないKV cacheでより高い性能を達成

例:

CASK (KV 384) > 既存方式 (KV 512)

👉 メモリ使用量の削減と性能向上を同時に達成

📌 技術的特徴

token-level pruning → structure-aware compression
eviction中心 → preserve + reuse戦略
reasoning過程での情報再利用を強化

📌 意義

CASKはKV cache最適化を、

「どれだけ捨てるか」から
「何を必ず維持すべきか」へ転換

させるアプローチ。

🚀 要約

最大25%のKV cache追加削減
同等またはそれ以上の推論性能を確保
構造ベースのKV管理方式を提示

2件のコメント

wogns3623 14 일 전

論文執筆にAIを活用されたのであれば、どのように使われたのか気になります。5日でアイデア出しから実験まで進めたという点が印象的で、お伺いしています

skyline23 15 일 전

修正できなかったため、追加で残しておきます！

論文リンク
https://arxiv.org/abs/2604.10900
GitHubリンク
https://github.com/Skyline-23/CASK