Grok 3: The Bitter Lesson のもう一つの勝利

(thealgorithmicbridge.com)

3 ポイント投稿者 GN⁺ 2025-02-21 | 3件のコメント | WhatsAppで共有

I. AIの発展を支配するスケーリング則

Elon MuskがGrok 3を「地球上で最も賢いAI」と呼んだのは、誇張ではない可能性が高い
Grok 2と比べて飛躍的な進歩を遂げており、OpenAI、Google DeepMind、Anthropicのような成熟した研究所のモデルと同等、あるいは一部の領域ではそれを上回る
LMSys Arenaですべてのカテゴリで1位を獲得し、数学、コーディング、科学の問題でも高い水準（o3レベル）の成果を示している
一部の特定タスクでは最上位モデルに及ばないものの、ほとんどの基準で**同格の最先端（co-state-of-the-art）**レベルにある
Grok 3は単なるxAIの成功を超え、AI研究における規模の重要性を強調する The Bitter Lesson のもう一つの勝利を意味する
批判的な見方やメディア報道とは異なり、AIの発展において**スケーリング則（Scaling Laws）**は依然として有効であり、その重要性はさらに高まっている

II. DeepSeek: 法則を証明する例外

DeepSeekの成功の背景
- DeepSeekは比較的少ない計算資源（約50KのNvidia Hopper GPU）でも、業界トップクラスの競合と渡り合うことができた
- 米国の研究所は100K以上のNvidia H100を使っていたが、DeepSeekは技術スタック全体を最適化して成果を出した
- このことにより、DeepSeekはコミュニティが信じてきた「Bitter Lesson」および「Scaling Paradigm」への疑問を呼び起こした
誤った結論と Bitter Lesson の本当の意味
- 一部の人はDeepSeekの成功を「GPUは重要ではなく、アルゴリズム最適化の方が重要だ」という証拠だと解釈した
- しかしBitter Lessonは「アルゴリズム改善は不要だ」という意味ではなく、可能な場合にはより多くの計算資源を活用するのが最善だという意味である
- DeepSeekはGPUが不足していたため最適化に集中せざるを得なかったのであり、もし100K GPUで学習していれば、より良い成果を出していたはずだ
- つまり、DeepSeekが証明したのは最適化の可能性であって、「スケーリングは無意味だ」ということではない
DeepSeek CEOの立場
- CEOのLiang Wenfengでさえ、米国の輸出規制がより良いモデル開発の主要な障害だと明かしている
- 50KのHopper GPUを使ってなおこの発言をしたということは、「GPUは重要ではない」という解釈とは正反対の意味を持つ
- DeepSeekの成功はBitter LessonとScaling Paradigmを支持する事例と見ることができ、単に例外的なケースにすぎない

III. xAIは「スケーリング > 最適化」を証明する

Grok 3とxAIのアプローチ
- xAIの成果が「スケーリングは最適化より重要だ」という懐疑派の認識を変えられるかは疑問である
- Grok 3でアーキテクチャ変更があったのか、あるいはインフラ最適化の水準がどの程度だったのかは明確ではないが、100K H100 GPUを備えたMemphisのColossusスーパーコンピュータで学習したことは確かだ
- これはDeepSeekが保有するGPU数よりはるかに多い
DeepSeekとは異なる戦略
- DeepSeekは限られたGPU資源を極限まで最適化しなければならなかったが、xAIはその必要がなく、従来の標準レベルの最適化だけを行えばよかった
- Bitter Lessonの核心は、「十分な計算資源があるなら、不要な最適化に時間を無駄にせず、そのままスケーリングせよ」ということだ
- xAIはOpenAIよりもさらに多くの計算資源を投入してGrok 3を学習し、その結果、最先端モデルを生み出した
Bitter LessonはAIだけでなく普遍的な真理
- 「主要資源が豊富なら、補助資源を絞り出すことに時間を無駄にする必要はない」
- まるで砂漠のフレメン（Fremen）が汗を再利用する代わりに、ただ雨の降る惑星に住む方が効率的なのと同じだ
- アルゴリズム改善と計算能力の増加はどちらも重要だが、ある時点を過ぎると、最適化よりもより多くの資源を投入する方が効果的になる
- 計算能力は金さえあれば解決できるが、画期的なアルゴリズム改善は予測できず、将来も拡張可能だという保証もない
スケーリングを止めないことが重要
- 限界に突き当たったら、最適化ではなく、何をスケーリングするかを変えればよい
- 限られた資源がイノベーションを促進することはあるが、究極的には「より多くの資源」が「より良い最適化」に勝つ
- DeepSeekはやむを得ず最適化に集中したが、xAIやOpenAIがDeepSeekのような制約の中で働こうとすることはないだろう
- 結局、xAIとDeepSeekは「莫大な資源を投入するアプローチ vs 限られた資源を極限まで活用するアプローチ」の代表例である
- 両社とも与えられた環境で最善を尽くしたが、DeepSeekが計算資源不足の状態にとどまる限り、xAIが有利な立場を維持する可能性が高い
- このようにBitter Lessonは学界で議論が多いにもかかわらず、過去10年以上にわたる実際のAI開発で有効な法則であることが証明されている

IV. xAIとDeepSeekを助けたパラダイムシフト

AI競争における後発走者の難しさ
- AI競争で出遅れることは、克服しがたいハンディキャップのように見えていた
- 当初はxAIがOpenAIやAnthropicに追いつけるのか確信が持てなかった
- しかしGrok 2（2024年8月）からGrok 3（2025年2月）への進化の間には、Colossus GPUクラスタ以外にもxAIに有利に働いた要因があった
- それがまさにAIスケーリング・パラダイムの変化である
事前学習（pre-training）の時代（2019-2024）
- 初期のAI発展は、より大きなモデルを、より大きなデータセットと、より強力な計算資源で学習することを意味していた
- 例: GPT-2（2019年2月）は15億パラメータだったが、GPT-4（2023年3月）は約1.76兆で、1,000倍以上増加した
- この方式はOpenAIのような先行者に有利だった
  - 長期間にわたってデータを収集し、モデルを拡大し、GPUを確保できたためだ
- また、各モデルの学習には半年以上かかることが多く、世代間の反復速度が遅くなり、これは後発走者が追いつきにくくなる要因でもあった
事後学習（post-training）の時代（2024-???）
- 2024年を境に、AI業界は単にモデルを大きくするだけでは漸進的な性能向上が鈍化することに気づいた
- メディアではこれを「スケーリングの時代は終わった」と誤解したが、実際にはパラダイムが変わっただけである（Ilya SutskeverのNeurIPS 2024での講演を参照）
- 焦点が移った点:
  - 「テスト時点の計算（test-time compute）の拡張」 → モデルが答えをより深く考えられるようにする方式
  - 強化学習（RLHF）+ 教師あり学習（SFT）の組み合わせが有効
  - 特に、数学やコーディングのような定型的ドメインでは、検証可能な報酬関数を適用すると性能向上が大きい
- OpenAIがo1-previewでこれを主導し、その後AI企業は、もはやモデルサイズを大きくするよりも、「より優れた思考能力を持つモデル」を作る方向へ転換した
新しいパラダイムがxAIとDeepSeekに有利だった理由
- 事後学習（post-training）はまだ初期段階にあり、比較的少ないコストで急速な性能向上を達成できる
- OpenAIがわずか3か月でo1からo3へ進化できたのも、このおかげだ
- DeepSeekがより少なく、性能の劣るGPUしか持っていなくてもR1レベルまで追いつけたのも同じ理由である
- Grokもまた、わずか2年で最上位AIモデルの水準に到達した
競争構図の変化
- OpenAIが依然として一定の優位を保っているとはいえ、後発走者が追いつけないほどではない
- OpenAIは3億（300M）の週次利用者を抱えるChatGPTの運用負担のため、最先端研究と製品運用のバランスを取らなければならない
- 一方、xAIとDeepSeekは比較的柔軟に技術革新へ集中できる
- DeepSeekのアプリが人気を集めた後に再び下火になったのも、計算資源が不足して大規模な推論（inference）をさばけなかったためである
- 新しいパラダイムが開かれ、新たな競争構図が形成されつつある

V. xAIとDeepSeekの成果を正しく理解する

Bitter Lessonとパラダイム変化は成果を貶める理由ではない
- Bitter Lessonとスケーリング・パラダイムの変化がxAIとDeepSeekの成功を容易にしたのは事実だが、最終的に彼らはやり遂げた
- 同じ機会を持っていた他社（Mistral、Character、Inflection）は失敗した
- Grok 3はBitter Lessonの勝利であり、DeepSeekは例外的事例としてルールを証明した事例だが、それ以上の意味を持つ
計算資源だけがすべてではない
- Bitter Lessonがアルゴリズムやインフラ最適化の価値を否定しないのと同様に、企業の人的資源と戦略も重要である
- xAIは現在およそ1,000人の従業員を抱え、OpenAI（約2,000人）やAnthropic（約700人）に匹敵する
- また、Elon Muskの技術・金融ネットワークのおかげで、xAIは巨額の資金調達を比較的容易に行える
- DeepSeekもまた、制約のある環境の中でイノベーションを成し遂げた点で高く評価されるに値する
  - 中国のAIエコシステムは比較的野心や経験に乏しく、政府の支援も不足していた（この点は近く変わる可能性がある）
歴史的文脈の中で理解すべき
- OpenAI、Google DeepMind、Anthropicは事前学習（pre-training）の時代にモデルを開発しなければならなかった
  - 当時のAIスケーリングは今よりはるかに難しく、遅く、高コストだった
  - ChatGPTのような製品が成功するかどうかさえ不確実で、OpenAIも公開をためらっていた（当初は単なる研究用プレビューとして公開）
  - これらの企業は、不確実な未来の中でも強い信念でAIイノベーションを主導した先駆者だった
- 一方、DeepSeekとxAIはこれらの巨人の肩の上から出発した
  - 既存研究の試行錯誤を避けることができ、検証済みのアプローチを活用して急速に発展できた
  - ちょうどAIパラダイムが事後学習（post-training）の時代へ移行したことで、少ないコストで素早く成果を上げることができた
  - 初期のAI先駆者たちが引き受けた大規模な先行投資や不確実性を背負う必要が比較的少なかった
勝利は認めつつ、過程も忘れてはならない
- xAIとDeepSeekの成果を矮小化する必要はないが、AIの発展がどのようにしてここまで来たのかも忘れてはならない
- OpenAI、DeepMind、Anthropicのような初期の開拓者がいなければ、今の成果も不可能だっただろう
- つまり、xAIとDeepSeekの成功は**「運が良かった」のではなく、「良いタイミングで最善を尽くした結果」**と見るのが適切である

VI. 事後学習（post-training）は今は安価だが、すぐに高価になる

Grok 3とxAIが示した核心的な教訓
- 現在、事後学習（post-training）は比較的安価だが、まもなく事前学習（pre-training）と同じくらい莫大な投資コストが必要になるだろう
- 企業が事後学習を大規模に拡張する方法を見つけた瞬間、競争で生き残るには資金と計算資源が必須になる
- すでにAI企業は数十万個のGPUを積み上げ、大規模クラスタを構築している
- 「GPUは重要ではない」という主張とは逆に、GPU確保競争がAI競争の中核要素になるだろう
- このためDario Amodei（OpenAI共同創業者）らは、輸出規制（export controls）の重要性を強調している
xAIの強力なポジショニング
- 現在のxAIはDeepSeekだけでなく、OpenAIやAnthropicよりもさらに有利な位置を確保している
- 理由: 100K H100 GPUクラスタを保有しており、まもなく200Kへ拡張予定だからだ
- これは次世代AI開発競争で非常に大きな優位性をもたらす
- Metaも同じ戦略を取り、100K+ H100クラスタでLlama 4を学習中である
DeepSeekの限界と可能性
- DeepSeekの優れたエンジニアリング能力だけでは、もはや競争が難しい段階に入りつつある
- どれほど技術スタックを最適化しても、150K GPUの差を埋めることは不可能だ
- もし可能だったならDeepSeekもxAIのようにスケーリングを選んでいただろうが、米国の輸出規制が成長を制限する要因となっている
- ただし、Huaweiとの協力によってこの問題を解決する可能性もある
xAIの追加的な優位
- OpenAIやAnthropicでさえ、GPUクラスタ確保の面ではxAIほど安定した立場にはない
- Nvidiaの支援のおかげで、xAIは次世代AIハードウェアを最優先で供給されている
- Elon MuskのネットワークとNvidiaの友好的な姿勢により、xAIは将来のAI競争で独走的な優位を占める可能性が高い

VII. 1年後、誰が先行しているのか?

既存強者の優位
- こうしたすべてを踏まえても、OpenAI、Google DeepMind、Anthropicは依然としてわずかな先行優位を維持している
- OpenAI: まもなくGPT-4.5/GPT-5をリリース予定で、その後o4モデルも開発中
- Anthropic: Claude 4をリリース予定
- Google DeepMind: Gemini 2.0の「Thinking-model」版を改善しつつ、コスト削減とコンテキストウィンドウ拡張に取り組んでいる
不確実な未来
- 2024年にはGoogleがAI競争で先行すると予想していたが、今では確信できない
- AI競争はかつてないほど激化しており、AGI（汎用人工知能）競争に明確な勝者はいない
- 新しいパラダイムは後発走者に有利に働き、素早い適応力を要求する
- Googleがそのような機敏さを備えているのかは不確かである
- あるいは、Googleが単に自社の成果を効果的に広報できていないだけなのかもしれない
結論: 最終的にはスケーリングが勝つ
- この記事の結論は、AI競争の勝者を予測することではない
- 重要な教訓は、スケーリングが最終的には人間の創意工夫（ingenuity）を圧倒するという点である
  - こんな知らせを伝えるのは残念だが、私たちにはどうにもできないこともある
- Grok 3の成功は、再び「より賢いアルゴリズム」よりも「より大きな計算能力」がAIの発展を主導することを思い出させる

3件のコメント

kobings 2025-02-23

「OpenAIは週次アクティブユーザー3百万人を抱えるChatGPT」
原文を見ると300Mなので、3億に修正をお願いします。

doolayer 2025-02-22

直交しているが、正規直交ではない。

GN⁺ 2025-02-21

Hacker Newsの意見

「co-state-of-the-art」モデルの登場は、スケーリング則の勝利ではない
- xAIがGrok 3により多くの計算資源を投入したにもかかわらず既存モデルを大幅には上回れなかったことは、ハイパースケーリングが漸進的な改善しかもたらさない証拠かもしれない
- より多くの計算能力がコンピューターをより良くするのは当然の観察である
- この記事は、70年代の記号的AIと2010年代のニューラルネットワークの違いを、GPT-4とGrok 3の違いに当てはめようとする試みである
- 多くの人がGrok 3の実際の性能を疑っており、特定のベンチマーク向けに訓練されたのではないかと疑っている
- Sabine Hossenfelderは、Grok 3がベルの定理を説明するのに失敗したと言及している
- これは大規模なスケーリングが知能を向上させないことを示している
DeepseekはSOTA結果の達成に17か月を要し、xAIのモデルはDeepseek R1を大きく上回っていない
- xAIは$3 billionのうち$2.5 billionをGPUに、$0.5 billionを人材に投資する見込みである
- Deepseekは$1 billionをGPUに、$2 billionを人材に投資する見込みである
- Deepseekのアプローチの方がよりスケーラブルだと主張している
GPQA Diamondで非推論モデルが75%を記録したことに懐疑的である
- xAIが来週Grok 3 APIを提供したら、個人的な評価を通じて実際の性能を確認したい
- DeepSeekが50k Hopper GPUを保有しているというのは誇張された数字かもしれない
- DeepSeekのインターン募集広告では、「10k A100sへの無制限アクセス」にしか言及していない
最近の変化から奇妙な結論を導いている
- AIブームに多くの資金が流入しているが、これはまもなく終わるだろう
- 技術改善の経験が豊富な人々が長期的には最も有利な立場にいるだろう
Grokが他の先行モデルと同程度の知能を持つなら、どの企業がGrokに切り替えるのかという疑問
より多くの計算資源を投入することが数十億のコストを伴うなら、「苦い教訓」はもはやハードウェアではなく金に関するものかもしれない
- 消費電力の少ないモデルなら、VC資金がなくても運用可能になりうる道がある
「苦い教訓」に関するこの記事の主張は、論理的誤謬に依存している
- スケーリングと最適化を相互排他的な戦略として枠組み化している
- DeepSeekのアルゴリズム革新はスケーリングの取り組みを補完している
- 計算資源が「ポストトレーニング時代」を支配するという主張は、潜在的な破壊要因を見落としている
人材確保がどのように進化していくのか興味深い
- 強力なDEI重視のPRによって、多くのエンジニアが失望している
- 倫理的理由から中国との緊密な関係を避けていた人々が、同じ基準を米国にも適用するのかという疑問
また一つのAI誇大宣伝ブログ記事
- ベンチマーク結果の色違いの棒グラフに関する言及すらない
- Grok-3はスケーリング則を意味のある形で証明も反証もしていない