- 以前はLLMは主にインターネット上のデータで学習されており、現在も大半はそうだが、次第にそれは当てはまらなくなっている
- 「インターネット・シミュレーター」という概念は、GPT-5以降の挙動を予測するうえで有用ではない
- 新しいモデルはすでにこの定義を超えつつあり、この変化はまだ始まったばかりである
データの壁(Data Wall)
- 2020年のOpenAIのGPT-3論文は学習データセットを詳細に記述していたが、これは過去の遺物である
- 2022年以降、LLMの学習にはユーザー向けのフィードバックが使われ始め、OpenAIなどは学習データについて多くを語らなくなっている
- GPT-4やSora、GPT-5が何で学習されたのかは分からないが、単なるインターネットデータだけではない
- LLMの学習者たちは最近「データの壁」にぶつかっている
- OpenAIはすでにウェブ上のほぼすべてのデータを保有しており、より優れたLLMを作るには非公開データの取得と生成が必要になる
- 資金力のある研究所にとっては、非公開データを確保し生成することが解決策である
- 初期には、既存の学習データをより有用にしたり、既存の非公開データを学習プールに追加したりすることに重点が置かれていた
- たとえば
- アノテーションとフィルタリング: 研究者は学習データにアノテーションを付け、高品質データに集中することで、より良いモデルを作れるようにする
- RLHF: 研究所は人間にモデル出力を評価させ、そのデータを使ってモデルを微調整し、有用な振る舞いを促進する
- 利用データ: ChatGPTは1日に約100億トークンのデータを生成するとされる
- データ取得: メール、チャットログ、独自マニュアル、JIRAチケット、通話録音、社内レポート、契約書など、多くのデータはインターネット上に存在せず、モデル学習者はこれらを学習データに追加できる
- しかし、これらの技術でも「既存データとは異なる出力を生成することにLLMは脆弱である」という問題は完全には解決できない
- LLMは次のような作業に苦労する(それを示すテキストがオンラインに多くないため)
- 回答に対する疑念や不確実性の表明
- 定型句の反復やループなしに長い対話を維持すること
- LLMエージェントが追求すべき高水準の計画立案
- 大規模なレガシーコードベースについて、主任エンジニアのように推論すること
- 非常に長いプロンプトや複雑なプロンプトに安定して従うこと
- 改善されたアーキテクチャやより多くのパラメータはこうした制約の解決に役立つかもしれないが、OpenAI、Meta、Google、Microsoftなどは、新しい例を作って学習するというよりシンプルな方法でこのギャップを埋めるために多額の資金を投じている
LLMは今やカスタムデータで学習されている
- MicrosoftのPhi-3技術レポート(4月発表)は、カスタムデータ増加の最近の例である
- phi-3-miniはパラメータ数がわずか38億だが、より大きく重いMixtralモデルと競える性能を示している
- こうした改善の一部は、より大きなLLMによって生成された高品質な合成データを学習データに含めたことで説明される
- 合成データによって、インターネット由来データのギャップを埋め、与えられたサイズに対するモデル性能を向上させられる
- 合成データは現在のLLM研究で注目されるテーマである
- LLMを自身の出力でどこまで学習させられるかは、まだ明確ではない(巨大なニューラルネットワークの蛇が自分の尾を食べるような状況になり得る)
- しかし少なくとも、合成データはLLMが「インターネット・シミュレーター」のように振る舞うことで生じるギャップを埋める助けになるだろう
- たとえば、不確実性を表現する学習例が不足していたり、データに代表性がなく偏っていたりする場合、より良い例を生成できる
- しかし、LLMで優れた合成データを作ることは難しい問題であり、限界もあるだろう
- そこで、インターネット外の最後の巨大な供給源である「人間」が登場する
年間10億ドル($1B)でどれだけのデータを作れるのか?
- お金を払えば、人々は喜んでデータを作ってくれる
- Scale.aiは自らを「AIのためのデータ製造工場」と称し、研究所が人々に報酬を払ってデータを作らせるサービスを運営している
- AI企業はすでにScaleのサービスに年間10億ドル以上を支払っているという
- その一部はウェブやLLMから取得したデータへのアノテーションや評価のためだが、新しい学習データをゼロから作ることもある
- Scaleは、博士レベルの研究者、弁護士、会計士、詩人、作家、特定言語に堪能な人など、高度に専門化された作業者に焦点を当てている
- 彼らはOpenAI、Cohere、Anthropic、Googleなどの企業のためにモデルを学習・テストし、より高い時給を受け取る
- OpenAIのような企業は、専門家がインターネット由来データの空白を埋める新しく優れたデータを作るよう費用を支払い、そのデータを後のモデル学習に使うことができる
- 「Ph.D.が答えを知らない質問を受けたときに、思慮深い不確実性を表現する5万件の例」のようなデータセットは、制作コストをはるかに上回る価値を持つかもしれない
- LLMはもともとインターネットから学習しており、初期の弱点の多くはウェブに投稿された雑多な内容に由来すると理解できる
- しかし、カスタム学習データの規模と影響力が拡大するにつれて、LLMは「インターネット・シミュレーション」を大きく超えていくと予想される
- 特に、インターネットには存在しないが、10億ドルを超えるカスタムデータ生成によって実証できる事柄について、今後も進化し続けるだろう
- つまり、この列車は当面走り続けるということだ
GN⁺の見解
- データの重要性: LLMの性能向上には多様な出所のデータが必要である。インターネットデータだけでは限界がある。
- コストの問題: カスタムデータ生成には多大なコストがかかる。これは小規模な研究所や企業にとって大きな負担となり得る。
- 合成データの限界: 合成データは有用だが、実際に人間が生成したデータとは差がある可能性がある。このため、モデルの現実適合性には限界があり得る。
- 今後の展望: カスタムデータと合成データを活用したLLMの発展は今後も続くと見られる。これはさまざまな分野で革新をもたらし得る。
- 競争状況: OpenAI、Google、Microsoftなどの主要企業がカスタムデータ生成に投資しており、競争はさらに激しくなるとみられる。
2件のコメント
いわゆるData wallは、結局のところ十分なComputeがあるときに問題になるものであり、むしろ電力効率と供給の問題を考えると、Compute増加の限界、つまり電力量の問題のほうがより重要になってくるはずだ。
Hacker Newsの意見