1 ポイント 投稿者 GN⁺ 2024-05-02 | 1件のコメント | WhatsAppで共有

マルチトークン予測によるより良い大規模言語モデル学習

  • GPTやLlamaのような大規模言語モデルは、次トークン予測損失で学習される
  • 本研究では、言語モデルを一度に複数の将来トークンを予測するように学習させると、サンプル効率が向上することを提案している
  • 具体的には、学習コーパスの各位置で、共有モデルトランク上で動作するn個の独立した出力ヘッドを用いて次のn個のトークンを予測するようモデルに求める
  • マルチトークン予測を補助学習タスクとして扱うことで、コードと自然言語モデルの両方で、学習時間のオーバーヘッドなく下位タスク能力が向上することを測定した

モデルサイズが大きいほど有効で、複数エポック学習でも有望

  • この手法はモデルサイズが大きいほど有用で、複数エポック学習を行う場合でも有効性を維持する
  • 特にコーディングなどの生成ベンチマークでこの利点が顕著で、本モデルは強力なベースラインよりも一貫して数ポイント高い性能を示した
  • 13BパラメータモデルはHumanEvalで12%、MBPPで17%多くの問題を解決した

誘導ヘッド開発とアルゴリズム推論能力に有利

  • 小規模なアルゴリズムタスクの実験では、マルチトークン予測が誘導ヘッドの開発とアルゴリズム推論能力に有利であることを示した
  • 追加的な利点として、4トークン予測で学習されたモデルは大きなバッチサイズでも推論速度が最大で3倍速い

GN⁺の意見

  • 言語モデルの効率向上のために新しい学習方法を提案した興味深い研究である。特に大規模モデルほど性能向上が明確である点が注目に値する

  • マルチトークン予測が長期依存性学習にどのような影響を与えるかについて、追加実験があるとよいだろう。例えば文間参照解決のような長距離依存性タスクでの性能変化を見てみることも意味がある

  • コーディングや数学の問題解決など特定領域の生成タスクで性能向上が大きいとされているが、一般的な自然言語理解やQAタスクなどではどのような効果があるのか気になる。さまざまなベンチマークでの実験結果が補完されればよい

  • 推論速度の向上は実用的観点で大きなメリットになる可能性がある。特にリアルタイム性が求められるチャットボットや質問応答システムへの適用が有望に見える

  • AnthropicのConstitutional AIやOpenAIのInstructGPTなどRLHFベースのモデルが注目を集める中で、本研究は教師あり学習のみで言語モデルの性能を高める方策を提示した点で意義があると考えられる。もちろん倫理的価値整合などの問題は依然として解決すべき課題として残るだろうが、学習効率の観点では十分に競争力のあるアプローチに見える

1件のコメント

 
GN⁺ 2024-05-02
Hacker Newsコメント

要約:

  • LLMでデータ、事前学習、学習、推論、Mixture of Experts、RAGなどの用語がどのような文脈で使われているのかを、わかりやすく説明できることが望まれる
  • 自己推論デコーディング(Self-speculative decoding)は、予測したラベル列を再びネットワークに入力し、一致している地点まで予測を維持することで、性能を低下させることなく速度を向上できる
  • LLMは現在、これまでの出力トークン数に対するすべてのトークン組み合わせの確率分布を考慮していないが、それを考慮すればより良い性能になると予想される
  • LLMのクロスエントロピー損失関数を修正して、学習データでn番目の未来トークンのみを考慮し、nごとのLLM性能を分析するのは興味深い研究テーマになりうる
  • LLMが出力したトークンの状態を次の回答で活用できる方法があるのか知りたい
  • 文全体の意味をエンコードするベクトルを予測するようにLLMを学習させるのはどうだろうか
  • 論文の5.2節の説明はやや不足がある。特にH(Y|X)を捨てる点についての説明が不明確である
  • LLMが次のN個のトークンに対して小さなPixelCNNのようなモデルを出力し、将来トークンに対する条件付き確率を説明できるようにする方策を検討できる
  • 次のnトークンだけでなく、128、512、2048などより遠い未来のトークンも予測して、長期的な談話構造を学習させるにはどうすればよいか
  • 複数トークンを予測する際にトークン間の干渉が生じる場合、どのように解決できるかという疑問が示されている