6 ポイント 投稿者 xguru 2024-05-02 | 1件のコメント | WhatsAppで共有
  • このモデルはGradientが開発したもので、LLama-3 8Bのコンテキスト長を8kから1040K以上に拡張した
  • SOTAのLLMがRoPE thetaを適切に調整することで、最小限のトレーニングで長いコンテキストにおいて機能する方法を学習できることを示している
  • この段階は830Mトークンで学習され、全段階で合計1.4Bトークンであり、Llama3のオリジナル事前学習データの0.1%にすぎない
  • 注: 256kコンテキストを使用する場合、最小64GBのメモリが必要。1M以上のコンテキストを使用する場合は100GB以上が必要

1件のコメント

 
livekth 2024-05-02

コンテキストウィンドウが拡張されたことで、元のLLaMa 3と比べて性能が著しく低下し、使うどころではないというコメントがあります。

https://twitter.com/ArkaPal999/status/1785611161540378707