vLLM: PagedAttentionを使った、簡単・高速・低コストなLLMサービング

xguru · 2023-06-23T10:32:02+09:00

高速なLLM推論とサービングのためのオープンソースライブラリ PagedAttentionアルゴリズムにより、アテンションのキー/バリューを効率的に管理モデルアーキテクチャを変更せずに、HuggingFace Transformersと比べて24倍高いスループット非連続なメモリ空間にも連続したキー/バリューを保存可能 LMSYS VicunaとChatbot Arenaで成功裏に利用中

(vllm.ai)

8 ポイント投稿者 xguru 2023-06-23 | まだコメントはありません。 | WhatsAppで共有

高速なLLM推論とサービングのためのオープンソースライブラリ
PagedAttentionアルゴリズムにより、アテンションのキー/バリューを効率的に管理
- モデルアーキテクチャを変更せずに、HuggingFace Transformersと比べて24倍高いスループット
- 非連続なメモリ空間にも連続したキー/バリューを保存可能
LMSYS VicunaとChatbot Arenaで成功裏に利用中

vLLM: PagedAttentionを使った、簡単・高速・低コストなLLMサービング

関連記事

まだコメントはありません。