10 ポイント 投稿者 xguru 2023-12-22 | まだコメントはありません。 | WhatsAppで共有
  • GPT2-small や LLaMA-7B のように、アラインメントされ十分に学習された小規模言語モデルを圧縮に使用
  • プロンプト内の重要でないトークンを検出し、ブラックボックス LLM で圧縮されたプロンプトによる推論を可能にする
    • LLM の推論速度を高め、主要情報に対する LLM の認識を向上させるため、プロンプトと KV-Cache を圧縮
    • 性能低下を最小限に抑えつつ、最大 20 倍の圧縮を達成
  • プロンプトと生成されたコンテキストを削減してコストを節約
  • プロンプト内の重要情報の密度をさらに高めることで、より長いコンテキストをサポート可能

まだコメントはありません。

まだコメントはありません。