RedPajama 3B、7Bモデルを公開

xguru · 2023-05-08T10:01:01+09:00

完全にオープンな言語モデルを作るためのプロジェクト 3週間前に公開した RedPajama-Data-1T データセットをベースに、3B（完了）、7B（プレビュー）パラメータの RedPajama-INCITE モデル群を公開 Base モデル Instruction-Tuned モデル Chat モデル 3B モデルは同クラスで最も強力。サイズが小さいため高速で、5年前に発売された RTX 2070 のような機器でも実行可能命令チューニング版の 7B モデルは HELM ベンチマークで LLaMA 7B より 3 ポイント高い 7B モデル（学習 80% 完了）はすでに Pythia 7B モデルを上回っている数週間以内に 7B の学習が完了すれば、LLaMA 7B を上回る見込み 3B モデルは 8000 億トークンで安定化しており、7B モデルは 1 兆トークンで学習完了に向けて進行中で、改善が続いている

(together.xyz)

7 ポイント投稿者 xguru 2023-05-08 | 2件のコメント | WhatsAppで共有

完全にオープンな言語モデルを作るためのプロジェクト
3週間前に公開した RedPajama-Data-1T データセットをベースに、3B（完了）、7B（プレビュー）パラメータの RedPajama-INCITE モデル群を公開
- Base モデル
- Instruction-Tuned モデル
- Chat モデル
3B モデルは同クラスで最も強力。サイズが小さいため高速で、5年前に発売された RTX 2070 のような機器でも実行可能
命令チューニング版の 7B モデルは HELM ベンチマークで LLaMA 7B より 3 ポイント高い
7B モデル（学習 80% 完了）はすでに Pythia 7B モデルを上回っている
数週間以内に 7B の学習が完了すれば、LLaMA 7B を上回る見込み
3B モデルは 8000 億トークンで安定化しており、7B モデルは 1 兆トークンで学習完了に向けて進行中で、改善が続いている

2件のコメント

coremaker 2023-05-08

研究やAIの発展にとって重要な出来事ではありますが、
こうしたモデルは、商用利用時に問題となる部分に対する解決策を提示できない可能性が高いです。
商用では、モデルの利用に加えて、チューニングや追加のフィルターを備えるといった作業が必ず伴う必要があるように思います。

xguru 2023-05-08

RedPajama - LLaMAデータセットを再構築するオープンソースプロジェクト

RedPajama 3B、7Bモデルを公開

関連記事

2件のコメント