- 「データは新たな石油だ」は、この10年間のスローガンだった
- 企業はデータがどれほど価値を持つのか、あるいはどれほど価値を持ちうるのかを理解するようになった
- 企業は急いで最新のデータスタックに投資し、テラバイト単位のデータをデータウェアハウスに保存した
- データサイエンスチームは数値を分析し、その分析結果を製品の意思決定(あるいは場合によってはレコメンドフィードのような顧客向け機能)に活用する必要があった
- 成功事例もあったが、多くの組織は実行に失敗した
- サイロ化したデータ(またはデータチーム)、高価なクラウドデータウェアハウスと劣悪なクエリ(現在は縮小傾向にある)、整備されたデータパイプラインの欠如(データをクリーンな状態にするために相当な運用作業が必要)などがその理由だった
- では今、「生成AI」を使っていても、データは依然としてモートなのだろうか?
- 合成データセットが学習および推論パイプラインの中で無視できない割合を占めるとき、データの価値は高まるのか、それとも下がるのか?
- 一方で、「依然として高品質なデータは重要である」
- LLMの改善に関する多くの焦点は、モデルとデータセットの規模に置かれている
- LLMは学習に使われるデータの品質に大きく左右されうることを示す初期の証拠がある
- WizardLM、TinyStories、phi-1がその例
- 同様にRLHFデータセットも重要である
- 他方で、出力形式やカスタムスタイルに関するファインチューニングでは、「データポイントが100件程度あるだけでも大きく改善する」
- Databricks、Meta、Spark、AudibleのLLM研究者たちは、ファインチューニングに必要なデータ量について経験的分析を行った
- この程度のデータであれば、手作業で生成またはキュレーションするのも容易である
- モデル蒸留(Model distillation)は現実的で、しかも簡単に実行できる
- LLMを使って合成データを生成し、自前のLLMを学習またはファインチューニングでき、その過程で一部の知識は転移される
- これは生のLLMを相手に公開する場合には問題になりうるが(内部利用であればそれほど問題ではない)、特別に固有ではないデータは容易にコピーできることを意味する
まだコメントはありません。