マルチトークン予測によるより良い性能と高速化を実現する大規模言語モデル
(arxiv.org)マルチトークン予測によるより良い大規模言語モデル学習
- GPTやLlamaのような大規模言語モデルは、次トークン予測損失で学習される
- 本研究では、言語モデルを一度に複数の将来トークンを予測するように学習させると、サンプル効率が向上することを提案している
- 具体的には、学習コーパスの各位置で、共有モデルトランク上で動作するn個の独立した出力ヘッドを用いて次のn個のトークンを予測するようモデルに求める
- マルチトークン予測を補助学習タスクとして扱うことで、コードと自然言語モデルの両方で、学習時間のオーバーヘッドなく下位タスク能力が向上することを測定した
モデルサイズが大きいほど有効で、複数エポック学習でも有望
- この手法はモデルサイズが大きいほど有用で、複数エポック学習を行う場合でも有効性を維持する
- 特にコーディングなどの生成ベンチマークでこの利点が顕著で、本モデルは強力なベースラインよりも一貫して数ポイント高い性能を示した
- 13BパラメータモデルはHumanEvalで12%、MBPPで17%多くの問題を解決した
誘導ヘッド開発とアルゴリズム推論能力に有利
- 小規模なアルゴリズムタスクの実験では、マルチトークン予測が誘導ヘッドの開発とアルゴリズム推論能力に有利であることを示した
- 追加的な利点として、4トークン予測で学習されたモデルは大きなバッチサイズでも推論速度が最大で3倍速い
GN⁺の意見
-
言語モデルの効率向上のために新しい学習方法を提案した興味深い研究である。特に大規模モデルほど性能向上が明確である点が注目に値する
-
マルチトークン予測が長期依存性学習にどのような影響を与えるかについて、追加実験があるとよいだろう。例えば文間参照解決のような長距離依存性タスクでの性能変化を見てみることも意味がある
-
コーディングや数学の問題解決など特定領域の生成タスクで性能向上が大きいとされているが、一般的な自然言語理解やQAタスクなどではどのような効果があるのか気になる。さまざまなベンチマークでの実験結果が補完されればよい
-
推論速度の向上は実用的観点で大きなメリットになる可能性がある。特にリアルタイム性が求められるチャットボットや質問応答システムへの適用が有望に見える
-
AnthropicのConstitutional AIやOpenAIのInstructGPTなどRLHFベースのモデルが注目を集める中で、本研究は教師あり学習のみで言語モデルの性能を高める方策を提示した点で意義があると考えられる。もちろん倫理的価値整合などの問題は依然として解決すべき課題として残るだろうが、学習効率の観点では十分に競争力のあるアプローチに見える
1件のコメント
Hacker Newsコメント
要約: