Meta、32kトークンのコンテキストウィンドウをサポートするLLaMA 2 Longを公開
(venturebeat.com)- 「Effective Long-Context Scaling of Foundation Models」という論文を通じてLLaMA 2 Longモデルを公開
- コンテキストウィンドウ(context window)の長さは32K(32,768)トークンまでサポート
- 70Bバージョンは、すでに長文コンテキスト向けベンチマーク群でgpt-3.5-turbo-16kの総合性能を上回る
- 既存のモデル構造は維持しつつ、位置エンコーディング(Positional Encoding)にRoPE(Rotary Positional Embedding)を適用し、少ない情報でより良い応答を生成
まだコメントはありません。