GPT4All - LLaMAベースで80万件の命令セットで学習されたチャットボット
(github.com/nomic-ai)- アシスタントスタイルの大規模言語モデル
- 収集したデータ、データ収集プロシージャ、学習コード、最終モデルの重みなどをすべて公開
- GPT 3.5 Turboで生成した80万件のデータ(コード/ストーリー/対話)で学習
- LAION OIG、Stack Overflowのコーディング質問、Big-Science/P3の命令チューニングなどをベースデータセットとして活用
- Stanford Alpacaなどを参考にし、データをATLASに上げてキュレーションおよびクリーニングを実施
まだコメントはありません。