- OpenAI、Google、Anthropic などの主要AI企業は、新しいモデルの開発で次第に成果を上げにくくなっている
- OpenAIは最新AIモデル Orion を訓練したが、期待していた性能には届かなかった
- 特にコーディングに関する質問に適切に回答できない問題を抱えていた
- Googleの Gemini も社内の期待に届かない結果を示し、Anthropicでは新しい Claude 3.5 Opus の公開スケジュールが遅れている
データの限界とコストの問題
- 高品質な人間作成データの確保は、ますます難しくなっている
- AIモデルの性能は頭打ちになりつつあり、小幅な改善では莫大なコストを正当化しにくくなっている
- OpenAIのOrionでは、十分なコーディングデータを確保できなかったことが主な原因の一つとして指摘されている
- 新しいAIモデルの開発には数百万ドルの費用がかかり、今後は数十億ドル規模に達すると予想されている
AIの性能改善戦略
- OpenAIは Orion の公開前に 事後学習(post-training) の工程へ注力している。これには、ユーザーフィードバックを通じてモデルの応答を改善し、対話のトーンを調整する作業が含まれる
- データ不足の問題を解決するため、企業は出版社との契約を通じてデータを確保したり、専門家がデータにラベル付けする方法を用いたりしている
- 合成データ(synthetic data) の利用も増えているが、独自性があり高品質なデータの確保には依然として限界がある
AIスケーリング則への疑問
- AI業界は、より大きなモデルとより多くのデータが性能向上をもたらすという スケーリング則(scaling laws) に依存してきたが、最近の成果はこれに疑問を投げかけている
- AnthropicのCEOであるDario Amodeiは、データ不足が問題を引き起こす可能性はあるものの、それを克服する方法を見つけるだろうと楽観視している
コストと性能のバランス問題
- AI開発費が急増するなか、新しいモデルの性能向上が期待ほどでない場合、高コストが大きな問題となる
- OpenAIとAnthropicは、より大きなモデルではなく、AIエージェント(agent) のような新しいユースケースへと焦点を移している
- エージェントは、ユーザーの代わりにメールを送ったり航空券を予約したりするような作業を実行できる
- OpenAIのCEO Sam Altmanは、計算資源の利用において難しい意思決定が必要だと述べている
- Reddit AMAで「私たちは優れた新しいモデルを今後も出し続けるが、次の大きな革新は エージェント になるでしょう」と説明した
結論
- 主要AI企業は、ますます多くの計算資源とデータを使っている一方で、成果は停滞している
- 技術的な限界とデータ不足の問題を乗り越えるため、新しいアプローチとユースケースを模索している
- 今後のAI開発の方向性は、モデルの大きさよりも実際の活用事例に重点が置かれる可能性が高まっている
2件のコメント
結局のところ、お金がかかりすぎるという話ですね。
個人的には、脳のニューロンの数と同じくらいのアップサイドがあると思います。
Hacker Newsの意見
現在、LLM(大規模言語モデル)ベースで価値を提供できる選択肢はすべて使い尽くされたと感じるか、という問いがある。あるチームを率いる人物は、まだ先は長いと考えている
エンジニアリング分野では、この3年間、トランスフォーマーモデルの事前学習および事後学習の拡張に集中してきた
ChatGPTのコード生成機能は、既存コードに似たものをWeb上で見つけられる
AIの進歩がデータの限界に達したことは良いことであり、より優れたモデルアーキテクチャの開発へと圧力が移っている
AIが壁にぶつかったという否定的な見出しは、インターネットが初めて登場したころと似ている
既存技術は産業に大きな変化をもたらしており、AIと人間のハイブリッドモデルへ移行するには時間が必要である
OpenAIの最新モデルは期待に及ばなかったが、学習データの規模に応じて線形的に成長できる
AIソフトウェアを購入し、ユーザーが文書を自分で読み、新しいバージョンのアプリを書けるよう支援する機能を追加できるか、という問いが提起されている