10 ポイント 投稿者 ninebow 2023-10-03 | まだコメントはありません。 | WhatsAppで共有
  • 「Effective Long-Context Scaling of Foundation Models」という論文を通じてLLaMA 2 Longモデルを公開
  • コンテキストウィンドウ(context window)の長さは32K(32,768)トークンまでサポート
  • 70Bバージョンは、すでに長文コンテキスト向けベンチマーク群でgpt-3.5-turbo-16kの総合性能を上回る
  • 既存のモデル構造は維持しつつ、位置エンコーディング(Positional Encoding)にRoPE(Rotary Positional Embedding)を適用し、少ない情報でより良い応答を生成

まだコメントはありません。

まだコメントはありません。