Llama3-gradient - LLAMAのコンテキスト長を8kから1Mに拡張したモデル

xguru · 2024-05-02T10:46:01+09:00

このモデルはGradientが開発したもので、LLama-3 8Bのコンテキスト長を8kから1040K以上に拡張した SOTAのLLMがRoPE thetaを適切に調整することで、最小限のトレーニングで長いコンテキストにおいて機能する方法を学習できることを示しているこの段階は830Mトークンで学習され、全段階で合計1.4Bトークンであり、Llama3のオリジナル事前学習データの0.1%にすぎない注: 256kコンテキストを使用する場合、最小64GBのメモリが必要。1M以上のコンテキストを使用する場合は100GB以上が必要

(ollama.com)

6 ポイント投稿者 xguru 2024-05-02 | 1件のコメント | WhatsAppで共有

このモデルはGradientが開発したもので、LLama-3 8Bのコンテキスト長を8kから1040K以上に拡張した
SOTAのLLMがRoPE thetaを適切に調整することで、最小限のトレーニングで長いコンテキストにおいて機能する方法を学習できることを示している
この段階は830Mトークンで学習され、全段階で合計1.4Bトークンであり、Llama3のオリジナル事前学習データの0.1%にすぎない
注: 256kコンテキストを使用する場合、最小64GBのメモリが必要。1M以上のコンテキストを使用する場合は100GB以上が必要

1件のコメント

livekth 2024-05-02

コンテキストウィンドウが拡張されたことで、元のLLaMa 3と比べて性能が著しく低下し、使うどころではないというコメントがあります。

https://twitter.com/ArkaPal999/status/1785611161540378707

Llama3-gradient - LLAMAのコンテキスト長を8kから1Mに拡張したモデル

関連記事

1件のコメント