マルチトークン予測は大規模言語モデルのサンプル効率と性能を向上させる

(arxiv.org)

2 ポイント投稿者 brainer 2024-05-01 | まだコメントはありません。 | WhatsAppで共有

• 本論文は、マルチトークン予測という大規模言語モデル（LLM）のための新しい学習手法を提案しており、モデルが複数の将来トークンを同時に予測するよう訓練することを含む。著者らは、このアプローチがより高いサンプル効率につながり、与えられた量の学習データからモデルがより効果的に学習できることを意味すると主張している。

• 彼らは、コード生成や自然言語処理を含むさまざまなダウンストリームタスクにおけるこの手法の有効性を示し、マルチトークン予測が強力なベースラインを一貫して数パーセントポイント上回ることを示している。特に、13Bパラメータモデルは、HumanEval や MBPP のような挑戦的なコーディングベンチマークで大幅な改善を達成している。

• 性能向上に加えて、マルチトークン予測は計算上の利点ももたらす。4トークン予測で訓練されたモデルは、バッチサイズが大きい場合でも推論速度が最大3倍高速であり、実用アプリケーションにおいてより効率的である。

マルチトークン予測は大規模言語モデルのサンプル効率と性能を向上させる

関連記事

まだコメントはありません。