- Byte Latent Transformer (BLT) は、バイトレベル大規模言語モデル(LLM)の新しいアーキテクチャであり、トークナイゼーションベースのモデルと同等の性能を達成しつつ、推論効率と堅牢性が大幅に改善されている
- バイトを動的サイズのパッチとしてエンコードし、パッチが主要な演算単位として機能
- 動的パッチ分割: 次のバイトのエントロピーに基づき、複雑度の高いデータにより多くの計算資源を割り当て
- バイトベースモデルにおける初のFLOP制御スケーリング研究:
- 8B(80億)パラメータ、4兆(4T)学習バイトまでスケーリング
- 固定された語彙(vocabulary)を必要としない生バイトによるモデル学習の可能性を確認
主な結果
- 効率的な学習と推論:
- データが予測可能なときは長いパッチを選択して計算量を削減
- モデルが複雑さに応じて動的にパッチを調整し、資源を最適化
- スケーリングの改善:
- 固定された推論コストにおいて、トークナイゼーションベースのモデルより優れた性能
- パッチサイズとモデルサイズを同時に増加させることで、スケーリング効率を確保
- 定性的な性能改善:
- 推論および汎化能力の向上: 理由推論やスパースデータ(long-tail)処理において質的改善
- 固定語彙ベースのアプローチの限界を克服
意義
- BLTはトークナイゼーションなしで生バイトを処理しながらも、大規模データとモデル学習の効率性を実証
- 推論コストに対してより優れた性能を提供し、次世代バイトレベルLLMの可能性を示唆
- 特に、複雑なデータを扱う際に動的パッチ方式が適応型モデリングの新たな標準として定着する可能性を示している
1件のコメント
Hacker Newsの意見
BERTが公開された夏、文字ベースのCNNモデルを使って分類作業をしていたスタートアップで働いていた。チームメンバーは単語ベクトルに関心を持っていたが、語彙外単語が多く、失敗につながる可能性があると考えていた
階層構造は興味深いが、2段階しかないのが惜しい。さらに多くの階層を積み重ねることが研究の方向になり得る
パッチを生成するために小さなモデルを使って、入力文字列の次の文字の可能性を予測する
サンプリングはLLMの難しい点だが、有効なJSONを常に出力するよう強制したり、温度を調整してさまざまな分布を得たりするなど、興味深い使い方を可能にする
AIがバイナリファイルで事前学習できるのかという質問がある
トークナイゼーションを暗黙的なものにして、バイト(または文字)だけをモデルに与えられないのかという質問がある
Karpathyの関連する引用: トークナイゼーションはLLMの多くの奇妙さの中心にある
3つの構成要素からなるモデルである
バイトをグループ化する方法
現在のLLMのバイト対トークナイゼーションより利点がある
私たちは停滞期に入るべきだと思っていた