Databricks、ChatGPTに似たDolly 2.0をオープンソースとして公開
(databricks.com)- 世界初の真にオープンな Instruction-Tuned LLM
- 学習コード、データセット、モデルの重みをすべて公開。つまり、個人でも企業でも自分自身の強力な LLM を生成・所有可能
- 人手で作成された命令文
databricks-dolly-15kデータセットでファインチューニング- 15,000件のプロンプト/回答ペア。誰でも変更・拡張でき、商用利用も可能
- (Alpaca、Koala、GPT4All、Vicuna などはすべて商用利用不可)
- このデータは Databricks の従業員 5,000 人が直接作成
- 15,000件のプロンプト/回答ペア。誰でも変更・拡張でき、商用利用も可能
- EleutherAI の 120億パラメータ言語モデル
pythiaベース
1件のコメント
社内の従業員向けにLLM訓練用の質問セットを作るための対話を募集したところ、予想以上に参加が多くて仕事の妨げになるのではと心配し、早期に締め切ったという話がとても面白いですね。
とにかく、こうした大企業が大胆な投資を通じて高品質なデータセットを完全なオープンソース(CC BY-SA 3.0)として公開した点は、本当に称賛したいです。
こうした企業が少しずつ増え、参加も広がっていけば、いつかGPT-4レベルの商用利用可能なオープンソースモデルが登場するのではないでしょうか?