RedPajama 3B、7Bモデルを公開
(together.xyz)- 完全にオープンな言語モデルを作るためのプロジェクト
- 3週間前に公開した RedPajama-Data-1T データセットをベースに、3B(完了)、7B(プレビュー)パラメータの RedPajama-INCITE モデル群を公開
- Base モデル
- Instruction-Tuned モデル
- Chat モデル
- 3B モデルは同クラスで最も強力。サイズが小さいため高速で、5年前に発売された RTX 2070 のような機器でも実行可能
- 命令チューニング版の 7B モデルは HELM ベンチマークで LLaMA 7B より 3 ポイント高い
- 7B モデル(学習 80% 完了)はすでに Pythia 7B モデルを上回っている
- 数週間以内に 7B の学習が完了すれば、LLaMA 7B を上回る見込み
- 3B モデルは 8000 億トークンで安定化しており、7B モデルは 1 兆トークンで学習完了に向けて進行中で、改善が続いている
2件のコメント
研究やAIの発展にとって重要な出来事ではありますが、
こうしたモデルは、商用利用時に問題となる部分に対する解決策を提示できない可能性が高いです。
商用では、モデルの利用に加えて、チューニングや追加のフィルターを備えるといった作業が必ず伴う必要があるように思います。
RedPajama - LLaMAデータセットを再構築するオープンソースプロジェクト