Microsoft LLMLingua - 推論高速化とコスト削減のためのプロンプト圧縮

xguru · 2023-12-22T10:02:02+09:00

GPT2-small や LLaMA-7B のように、アラインメントされ十分に学習された小規模言語モデルを圧縮に使用プロンプト内の重要でないトークンを検出し、ブラックボックス LLM で圧縮されたプロンプトによる推論を可能にする LLM の推論速度を高め、主要情報に対する LLM の認識を向上させるため、プロンプトと KV-Cache を圧縮性能低下を最小限に抑えつつ、最大 20 倍の圧縮を達成プロンプトと生成されたコンテキストを削減してコストを節約プロンプト内の重要情報の密度をさらに高めることで、より長いコンテキストをサポート可能

(github.com/microsoft)

10 ポイント投稿者 xguru 2023-12-22 | まだコメントはありません。 | WhatsAppで共有

GPT2-small や LLaMA-7B のように、アラインメントされ十分に学習された小規模言語モデルを圧縮に使用
プロンプト内の重要でないトークンを検出し、ブラックボックス LLM で圧縮されたプロンプトによる推論を可能にする
- LLM の推論速度を高め、主要情報に対する LLM の認識を向上させるため、プロンプトと KV-Cache を圧縮
- 性能低下を最小限に抑えつつ、最大 20 倍の圧縮を達成
プロンプトと生成されたコンテキストを削減してコストを節約
プロンプト内の重要情報の密度をさらに高めることで、より長いコンテキストをサポート可能

Microsoft LLMLingua - 推論高速化とコスト削減のためのプロンプト圧縮

関連記事

まだコメントはありません。