XGen-7B - 1.5Tトークンで最大8Kシーケンス長まで学習した7B LLM
(blog.salesforceairesearch.com)- LLMの利用が広がるにつれ、長いシーケンスに適用する重要性が高まっている: 文書要約、コード生成、タンパク質配列予測など
- しかし、ほとんどのオープンソースLLM(LLaMA、MPT、Falcon など)は最大2Kトークンのシーケンス長までしか学習されていない
- XGen-7B は最大8Kシーケンス長まで、1.5Tトークンで学習
- 標準的なNLPベンチマークで、同サイズのMPT、Falcon、LLaMA、RedPajama、OpenLLaMAと同等またはそれ以上の性能
- テキスト(MMLU、QA)とコード(HumanEval)の両タスクで優れた結果
- TPU-v4で1Tトークンを学習するのに約$150Kの学習コストが必要
まだコメントはありません。