LLMはもはや「インターネットで学習」していない

(allenpike.com)

20 ポイント投稿者 GN⁺ 2024-06-03 | 2件のコメント | WhatsAppで共有

以前はLLMは主にインターネット上のデータで学習されており、現在も大半はそうだが、次第にそれは当てはまらなくなっている
「インターネット・シミュレーター」という概念は、GPT-5以降の挙動を予測するうえで有用ではない
- 新しいモデルはすでにこの定義を超えつつあり、この変化はまだ始まったばかりである

データの壁(Data Wall)

2020年のOpenAIのGPT-3論文は学習データセットを詳細に記述していたが、これは過去の遺物である
- 2022年以降、LLMの学習にはユーザー向けのフィードバックが使われ始め、OpenAIなどは学習データについて多くを語らなくなっている
- GPT-4やSora、GPT-5が何で学習されたのかは分からないが、単なるインターネットデータだけではない
LLMの学習者たちは最近「データの壁」にぶつかっている
- OpenAIはすでにウェブ上のほぼすべてのデータを保有しており、より優れたLLMを作るには非公開データの取得と生成が必要になる
資金力のある研究所にとっては、非公開データを確保し生成することが解決策である
- 初期には、既存の学習データをより有用にしたり、既存の非公開データを学習プールに追加したりすることに重点が置かれていた
- たとえば
  1. アノテーションとフィルタリング: 研究者は学習データにアノテーションを付け、高品質データに集中することで、より良いモデルを作れるようにする
  2. RLHF: 研究所は人間にモデル出力を評価させ、そのデータを使ってモデルを微調整し、有用な振る舞いを促進する
  3. 利用データ: ChatGPTは1日に約100億トークンのデータを生成するとされる
  4. データ取得: メール、チャットログ、独自マニュアル、JIRAチケット、通話録音、社内レポート、契約書など、多くのデータはインターネット上に存在せず、モデル学習者はこれらを学習データに追加できる
しかし、これらの技術でも「既存データとは異なる出力を生成することにLLMは脆弱である」という問題は完全には解決できない
- LLMは次のような作業に苦労する（それを示すテキストがオンラインに多くないため）
  1. 回答に対する疑念や不確実性の表明
  2. 定型句の反復やループなしに長い対話を維持すること
  3. LLMエージェントが追求すべき高水準の計画立案
  4. 大規模なレガシーコードベースについて、主任エンジニアのように推論すること
  5. 非常に長いプロンプトや複雑なプロンプトに安定して従うこと
改善されたアーキテクチャやより多くのパラメータはこうした制約の解決に役立つかもしれないが、OpenAI、Meta、Google、Microsoftなどは、新しい例を作って学習するというよりシンプルな方法でこのギャップを埋めるために多額の資金を投じている

LLMは今やカスタムデータで学習されている

MicrosoftのPhi-3技術レポート（4月発表）は、カスタムデータ増加の最近の例である
- phi-3-miniはパラメータ数がわずか38億だが、より大きく重いMixtralモデルと競える性能を示している
- こうした改善の一部は、より大きなLLMによって生成された高品質な合成データを学習データに含めたことで説明される
- 合成データによって、インターネット由来データのギャップを埋め、与えられたサイズに対するモデル性能を向上させられる
合成データは現在のLLM研究で注目されるテーマである
- LLMを自身の出力でどこまで学習させられるかは、まだ明確ではない（巨大なニューラルネットワークの蛇が自分の尾を食べるような状況になり得る）
- しかし少なくとも、合成データはLLMが「インターネット・シミュレーター」のように振る舞うことで生じるギャップを埋める助けになるだろう
  - たとえば、不確実性を表現する学習例が不足していたり、データに代表性がなく偏っていたりする場合、より良い例を生成できる
しかし、LLMで優れた合成データを作ることは難しい問題であり、限界もあるだろう
- そこで、インターネット外の最後の巨大な供給源である「人間」が登場する

年間10億ドル($1B)でどれだけのデータを作れるのか？

お金を払えば、人々は喜んでデータを作ってくれる
- Scale.aiは自らを「AIのためのデータ製造工場」と称し、研究所が人々に報酬を払ってデータを作らせるサービスを運営している
- AI企業はすでにScaleのサービスに年間10億ドル以上を支払っているという
- その一部はウェブやLLMから取得したデータへのアノテーションや評価のためだが、新しい学習データをゼロから作ることもある
- Scaleは、博士レベルの研究者、弁護士、会計士、詩人、作家、特定言語に堪能な人など、高度に専門化された作業者に焦点を当てている
- 彼らはOpenAI、Cohere、Anthropic、Googleなどの企業のためにモデルを学習・テストし、より高い時給を受け取る
OpenAIのような企業は、専門家がインターネット由来データの空白を埋める新しく優れたデータを作るよう費用を支払い、そのデータを後のモデル学習に使うことができる
- 「Ph.D.が答えを知らない質問を受けたときに、思慮深い不確実性を表現する5万件の例」のようなデータセットは、制作コストをはるかに上回る価値を持つかもしれない
LLMはもともとインターネットから学習しており、初期の弱点の多くはウェブに投稿された雑多な内容に由来すると理解できる
しかし、カスタム学習データの規模と影響力が拡大するにつれて、LLMは「インターネット・シミュレーション」を大きく超えていくと予想される
- 特に、インターネットには存在しないが、10億ドルを超えるカスタムデータ生成によって実証できる事柄について、今後も進化し続けるだろう
つまり、この列車は当面走り続けるということだ

GN⁺の見解

データの重要性: LLMの性能向上には多様な出所のデータが必要である。インターネットデータだけでは限界がある。
コストの問題: カスタムデータ生成には多大なコストがかかる。これは小規模な研究所や企業にとって大きな負担となり得る。
合成データの限界: 合成データは有用だが、実際に人間が生成したデータとは差がある可能性がある。このため、モデルの現実適合性には限界があり得る。
今後の展望: カスタムデータと合成データを活用したLLMの発展は今後も続くと見られる。これはさまざまな分野で革新をもたらし得る。
競争状況: OpenAI、Google、Microsoftなどの主要企業がカスタムデータ生成に投資しており、競争はさらに激しくなるとみられる。

2件のコメント

bytebrawlers 2024-06-04

いわゆるData wallは、結局のところ十分なComputeがあるときに問題になるものであり、むしろ電力効率と供給の問題を考えると、Compute増加の限界、つまり電力量の問題のほうがより重要になってくるはずだ。

GN⁺ 2024-06-03

Hacker Newsの意見

この記事はいくつかの優れた点を指摘しており、特にPhi-3は非常に興味深い技術である。Anthropic、Mistral、FAIRのような最新アーキテクチャに言及していないのは奇妙だ。
現代のLLMはウェブから収集したデータだけで訓練されているのではなく、多くの人々が作成したカスタムデータセットで訓練されている。これは成長の可能性を示しているが、誤った方向に無限に拡大する危険もある。
人間が偏ったデータを生成することは問題である。LLMが独創的な応答を生成できない例として、YouTubeの購読ボタンをクリックするよう促すさまざまな方法を提示できないことが挙げられる。
LLMの訓練に使われるデータは低賃金のインド人プログラマーたちが提供したものだ。現在は専門家たちがデータを提供しているが、低賃金労働者へ移行する可能性がある。
エキスパートシステムが失敗した理由は、専門家に継続して費用を支払わなければならないためだ。OpenAIとMSの協力はAGI（汎用人工知能）の達成を目標としているが、実質的な限界がある。
マルチモーダルモデルを訓練することは依然として課題である。データ不足ではなく、別の問題がボトルネックを引き起こしている。
「Ph.D.たちが答えを知らない質問について慎重に不確実性を表現する50,000件の例」のようなデータセットは、作成コストを上回る価値を持つ可能性がある。
技術投資によって、熟練した作家たちに執筆してもらうWPAのようなプログラムが生まれてほしい。これは優れた人間の著作物の集積を作り出せる。
AIの今後の大きな進展は、データとは関係ないものになりそうだ。
OpenAIなどは、データを非公開に保つと約束した企業に多額の金を支払うだろう。Slack、Atlassian、Dropboxのような企業がこれに当たる。