8 ポイント 投稿者 xguru 2023-06-23 | まだコメントはありません。 | WhatsAppで共有
  • 高速なLLM推論とサービングのためのオープンソースライブラリ
  • PagedAttentionアルゴリズムにより、アテンションのキー/バリューを効率的に管理
    • モデルアーキテクチャを変更せずに、HuggingFace Transformersと比べて24倍高いスループット
    • 非連続なメモリ空間にも連続したキー/バリューを保存可能
  • LMSYS VicunaとChatbot Arenaで成功裏に利用中

まだコメントはありません。

まだコメントはありません。