Databricks、ChatGPTに似たDolly 2.0をオープンソースとして公開

xguru · 2023-04-14T10:03:01+09:00

世界初の真にオープンな Instruction-Tuned LLM 学習コード、データセット、モデルの重みをすべて公開。つまり、個人でも企業でも自分自身の強力な LLM を生成・所有可能人手で作成された命令文 databricks-dolly-15k データセットでファインチューニング 15,000件のプロンプト／回答ペア。誰でも変更・拡張でき、商用利用も可能（Alpaca、Koala、GPT4All、Vicuna などはすべて商用利用不可）このデータは Databricks の従業員 5,000 人が直接作成 EleutherAI の 120億パラメータ言語モデル pythia ベース

(databricks.com)

35 ポイント投稿者 xguru 2023-04-14 | 1件のコメント | WhatsAppで共有

世界初の真にオープンな Instruction-Tuned LLM
学習コード、データセット、モデルの重みをすべて公開。つまり、個人でも企業でも自分自身の強力な LLM を生成・所有可能
人手で作成された命令文 databricks-dolly-15k データセットでファインチューニング
- 15,000件のプロンプト／回答ペア。誰でも変更・拡張でき、商用利用も可能
  - （Alpaca、Koala、GPT4All、Vicuna などはすべて商用利用不可）
- このデータは Databricks の従業員 5,000 人が直接作成
EleutherAI の 120億パラメータ言語モデル pythia ベース

1件のコメント

kuroneko 2023-04-14

社内の従業員向けにLLM訓練用の質問セットを作るための対話を募集したところ、予想以上に参加が多くて仕事の妨げになるのではと心配し、早期に締め切ったという話がとても面白いですね。

とにかく、こうした大企業が大胆な投資を通じて高品質なデータセットを完全なオープンソース（CC BY-SA 3.0）として公開した点は、本当に称賛したいです。
こうした企業が少しずつ増え、参加も広がっていけば、いつかGPT-4レベルの商用利用可能なオープンソースモデルが登場するのではないでしょうか？

Databricks、ChatGPTに似たDolly 2.0をオープンソースとして公開

関連記事

1件のコメント