Llama3-gradient - LLAMAのコンテキスト長を8kから1Mに拡張したモデル
(ollama.com)- このモデルはGradientが開発したもので、LLama-3 8Bのコンテキスト長を8kから1040K以上に拡張した
- SOTAのLLMがRoPE thetaを適切に調整することで、最小限のトレーニングで長いコンテキストにおいて機能する方法を学習できることを示している
- この段階は830Mトークンで学習され、全段階で合計1.4Bトークンであり、Llama3のオリジナル事前学習データの0.1%にすぎない
- 注: 256kコンテキストを使用する場合、最小64GBのメモリが必要。1M以上のコンテキストを使用する場合は100GB以上が必要
1件のコメント
コンテキストウィンドウが拡張されたことで、元のLLaMa 3と比べて性能が著しく低下し、使うどころではないというコメントがあります。
https://twitter.com/ArkaPal999/status/1785611161540378707