XGen-7B - 1.5Tトークンで最大8Kシーケンス長まで学習した7B LLM

xguru · 2023-07-01T10:02:01+09:00

LLMの利用が広がるにつれ、長いシーケンスに適用する重要性が高まっている: 文書要約、コード生成、タンパク質配列予測などしかし、ほとんどのオープンソースLLM（LLaMA、MPT、Falcon など）は最大2Kトークンのシーケンス長までしか学習されていない XGen-7B は最大8Kシーケンス長まで、1.5Tトークンで学習標準的なNLPベンチマークで、同サイズのMPT、Falcon、LLaMA、RedPajama、OpenLLaMAと同等またはそれ以上の性能テキスト（MMLU、QA）とコード（HumanEval）の両タスクで優れた結果 TPU-v4で1Tトークンを学習するのに約$150Kの学習コストが必要

(blog.salesforceairesearch.com)

4 ポイント投稿者 xguru 2023-07-01 | まだコメントはありません。 | WhatsAppで共有

LLMの利用が広がるにつれ、長いシーケンスに適用する重要性が高まっている: 文書要約、コード生成、タンパク質配列予測など
しかし、ほとんどのオープンソースLLM（LLaMA、MPT、Falcon など）は最大2Kトークンのシーケンス長までしか学習されていない
XGen-7B は最大8Kシーケンス長まで、1.5Tトークンで学習
標準的なNLPベンチマークで、同サイズのMPT、Falcon、LLaMA、RedPajama、OpenLLaMAと同等またはそれ以上の性能
テキスト（MMLU、QA）とコード（HumanEval）の両タスクで優れた結果
TPU-v4で1Tトークンを学習するのに約$150Kの学習コストが必要

XGen-7B - 1.5Tトークンで最大8Kシーケンス長まで学習した7B LLM

関連記事

まだコメントはありません。