4 ポイント 投稿者 xguru 2023-07-01 | まだコメントはありません。 | WhatsAppで共有
  • LLMの利用が広がるにつれ、長いシーケンスに適用する重要性が高まっている: 文書要約、コード生成、タンパク質配列予測など
  • しかし、ほとんどのオープンソースLLM(LLaMA、MPT、Falcon など)は最大2Kトークンのシーケンス長までしか学習されていない
  • XGen-7B は最大8Kシーケンス長まで、1.5Tトークンで学習
  • 標準的なNLPベンチマークで、同サイズのMPT、Falcon、LLaMA、RedPajama、OpenLLaMAと同等またはそれ以上の性能
  • テキスト(MMLU、QA)とコード(HumanEval)の両タスクで優れた結果
  • TPU-v4で1Tトークンを学習するのに約$150Kの学習コストが必要

まだコメントはありません。

まだコメントはありません。