- 大規模言語モデル(Large Language Models, LLMs)のストリーミングアプリケーション配備に関する記事。これは、メモリ消費と、LLMs が学習シーケンス長を超える長いテキストへ一般化する能力の不足により、困難な課題となっている。
- 著者らは「アテンションシンク(attention sink)」という概念を紹介しており、これは意味的に重要でなくても、初期トークンに対して強い注意スコアが向けられる現象を指す。
- 著者らは、有限長のアテンションウィンドウで学習された LLMs が、追加のファインチューニングなしで無限のシーケンス長へ一般化できるようにする効率的なフレームワーク、StreamingLLM を提示している。
- StreamingLLM は、Llama-2、MPT、Falcon、Pythia などのモデルが、最大 400 万トークン超でも安定かつ効率的に言語モデリングを行えるようにする。
- 著者らはまた、事前学習中に専用のアテンションシンクとしてプレースホルダートークンを追加すると、ストリーミング配備をさらに改善できることを見いだした。
- ストリーミング設定において、StreamingLLM はスライディングウィンドウ再計算ベースラインを最大 22.2 倍の速度で上回る。
- 著者らは、StreamingLLM では LLMs のコンテキストウィンドウ自体は拡張されず、モデルは最新のトークンしか処理できないことを明確にしている。
- StreamingLLM は、モデルが大規模なメモリや過去データに依存せず継続的に動作する必要がある、マルチラウンド対話のようなストリーミングアプリケーションに最適である。
- 著者らは、StreamingLLM の中核コード、Llama-2、MPT、Falcon、Pythia を含む実装、さらに perplexity コード、Streaming Llama Chatbot デモ、StreamEval データセットおよび評価コードを公開する予定である。
まだコメントはありません。