1 ポイント 投稿者 GN⁺ 2023-10-03 | まだコメントはありません。 | WhatsAppで共有
  • 大規模言語モデル(Large Language Models, LLMs)のストリーミングアプリケーション配備に関する記事。これは、メモリ消費と、LLMs が学習シーケンス長を超える長いテキストへ一般化する能力の不足により、困難な課題となっている。
  • 著者らは「アテンションシンク(attention sink)」という概念を紹介しており、これは意味的に重要でなくても、初期トークンに対して強い注意スコアが向けられる現象を指す。
  • 著者らは、有限長のアテンションウィンドウで学習された LLMs が、追加のファインチューニングなしで無限のシーケンス長へ一般化できるようにする効率的なフレームワーク、StreamingLLM を提示している。
  • StreamingLLM は、Llama-2、MPT、Falcon、Pythia などのモデルが、最大 400 万トークン超でも安定かつ効率的に言語モデリングを行えるようにする。
  • 著者らはまた、事前学習中に専用のアテンションシンクとしてプレースホルダートークンを追加すると、ストリーミング配備をさらに改善できることを見いだした。
  • ストリーミング設定において、StreamingLLM はスライディングウィンドウ再計算ベースラインを最大 22.2 倍の速度で上回る。
  • 著者らは、StreamingLLM では LLMs のコンテキストウィンドウ自体は拡張されず、モデルは最新のトークンしか処理できないことを明確にしている。
  • StreamingLLM は、モデルが大規模なメモリや過去データに依存せず継続的に動作する必要がある、マルチラウンド対話のようなストリーミングアプリケーションに最適である。
  • 著者らは、StreamingLLM の中核コード、Llama-2、MPT、Falcon、Pythia を含む実装、さらに perplexity コード、Streaming Llama Chatbot デモ、StreamEval データセットおよび評価コードを公開する予定である。

まだコメントはありません。

まだコメントはありません。