オープンウェイトLLMとクローズドLLMのギャップ
(blog.doubleword.ai)- Artificial Analysis Intelligence Index では、オープンウェイトLLMがクローズドLLMの過去の性能に追いつくまでの時間が、2024年夏から着実に短縮する傾向を示している
- この単一指標にトレンドラインを引くと、ギャップは2026年12月3日に0か月となり、オープンモデルが指標上で最前線のクローズドモデルに到達するという予測になる
- 同じ分析を18のベンチマーク全体に広げると、平均ギャップはほぼ横ばいで、全期間を通じて5か月未満の水準にとどまる
- 改善幅は主にコーディングベンチマークで生じており、コーディング指標のギャップは15か月から1〜2か月へと縮小した
- LLMの品質評価は測定基準によって大きく揺れ、オープンモデルがまもなく追いつくという解釈と、引き続き約5か月遅れているという解釈の両方が成り立つ
単一指標が示す急速な追い上げ
- ギャップは、オープンウェイトLLMのベンチマーク最前線を基準に、クローズドLLMの最前線が過去のどの時点で同じ性能を出していたかをさかのぼって算出する
- 使用されたヘッドライン指標は Artificial Analysis の Artificial Analysis Intelligence Index で、モデルの総合的な能力を評価しようとする指標である
- この指標では、2024年夏ごろからオープンウェイトLLMとクローズドLLMのギャップが縮まり始め、その後も縮小傾向が続いている
- トレンドラインを未来へ延長すると、ギャップは2026年12月3日に0か月になる
- 執筆時点を基準にすると約6か月後という計算である
18のベンチマークが示す異なる結論
- Artificial Analysis の18のベンチマーク全体に同じ分析を適用すると、単一指標とは異なる姿が見えてくる
- 各月ごとに18のデータセット別ギャップを箱ひげ図にし、データセット全体の平均ギャップに対してトレンドラインを計算する
- 平均ギャップのトレンドラインはほぼ完全に横ばいで、全期間を通じて5か月未満の水準に近い
- モデル改善の大部分はコーディング指標で生じている
- コーディングインデックスは15か月遅れの水準から1〜2か月遅れの水準へと縮小した
- それ以外の大半のデータセットでは、時間の経過とともにギャップが緩やかに拡大する傾向が見られる
- 測定基準によってLLMの品質判断は大きく異なる
- ある基準では、クリスマスごろにオープンソースの singularity を予測できる
- 別の基準では、オープンソースLLMはクローズドLLMより一貫して約5か月遅れており、そのギャップが広がる可能性もある
1件のコメント
Hacker Newsの意見
オープンウェイトモデルの未来における最大の問題は、現在のオープンウェイトモデルがDeepSeekのような民間組織の善意に頼って生まれた結果だという点だ
蛇口はいつでも閉められるし、何らかの形でコミュニティ所有のハードウェアが生まれるまでは、オープンウェイトモデルが途絶えるリスクを抱え続けることになる
今後まったく新しいモデルが出なくても、すでに到達した能力は残る。一方、APIベースのモデルは提供者が好きなように終了でき、
gpt5-miniが近いうちに消えて、より高価な5.4-miniに置き換わるといったことも可能だNvidiaは人々がモデルを動かすほど直接利益を得るので、Nemotron系を出し続けるインセンティブがあるし、Googleもブラウザ機能に使う小型モデルはいずれ流出すると分かっているのだから、開発者市場でシェアを取るほうがよい
中国の研究所もモデルを公開し続けるインセンティブがあり、国家間の商業戦争のおかげで政府支援も続く可能性が高い
「我々はコストの1/10で君たちの90%を実現できる。密度指標ではさらに優れている」と言うようなもので、少なくとも私の理論では、AI版のHindenburg Researchのように見える
モデルを学習できる会社が現れ、そのモデルをAPIを運営する推論会社にライセンスする構造になり得る
推論会社ははるかに少ない資本で運営でき、学習会社は推論にリソースを奪われずに済む
一部の中国のモデル学習会社は、すでにこのような形で推論プロバイダーにモデルをライセンスしている
財務的にも理にかなっていると思う。サブスクリプションの上限いっぱいまで使うユーザーは、運営者に購読料以上のコストを発生させる可能性があり、Anthropicが中国のデータ収集に大きく反応する理由もここにあるのかもしれない
ウェイトを公開すれば、競合はサブスクリプションサービスを叩く必要なく、モデルをダウンロードして分析し、一日中動かせるので負担が減る
最大級のモデルは、主要企業でなければ自分で動かす理由がほとんどない。ハードウェアのレンタルは購読料より途方もなく高く、数万ドルかかり、購入するには数十万ドルが必要だ
「今こそ年金を現金化して離島に飛び、文明に残された6か月ほどを平和に過ごすのにいい時期だ」「だからまだオープンソースの終末は来ないかもしれない」といった表現があったが、優れたオープンソースモデルがいつから終末の前兆になったのか分からない
少なくともサイバーパンク的ディストピアに対するヘッジと見なせる
それなのにオープンモデルLLMは怪物扱いされる。市場はOpenAIやAnthropicが安全に支配し、すべての決定を下すべきだというのか
おそらく冗談めいた表現だった可能性がある
現在の流れでは、中国モデルが米国の最先端モデルを追い越すのは難しい
米国モデルの優位性は、巨大な教師モデルで生成するなど、実際の対話型トラフィックには到底投入しにくい手法まで使って、より多く、より質の高い、主に合成データを確保していることから生まれている
中国モデルはモデル最適化に膨大な努力を注ぎ、米国の最先端モデルからより多く、より質の高い学習データを確保する形で前進している
中国のオープンウェイトモデルが米国研究所の最先端モデルを超えるには、この方程式が逆転しなければならない。中国の研究所は最先端モデルのデータ収穫から脱却し、新しいデータを作るデータシステムと取り組みを構築し、最新世代のハードウェアも大量に確保する必要がある
最先端規模のモデル学習自体は想像もできない偉業ではなく、本当にハードウェアが投入されるのは教師モデル推論の方だ
z.ai や Alibaba の内部も知らないし、Anthropic や OpenAI の内部も知らない
ただ、互いにデータを収集していない可能性は極めて低そうに見える。Anthropic にも、競合を見るためだけでも GLM 5.2 の重みを調べるチームがあるはずだと確信している
ある研究所が Anthropic のデータを手に入れたからといって、自前の研究をしていないという意味ではない
最適化に集中していたのは最高のハードウェアを入手できなかったからで、上位研究所が遅れた唯一の理由が H200 や MI350 を持っていなかったことだけだった可能性もある。今では持つようになった
もう一つのリスクも過小評価している。Anthropic は米国政府と神経戦を繰り広げた末、現在世界「最高」のモデル群を社内に閉じ込めている
中国も似た状況かもしれない。知られている限りでは、中国政府は AI 輸出とオープンウェイトモデルに意外なほど開かれているが、GLM 5.2 のより良いバージョンを内部で握っていて、誰も口にできないという、小さいが無視できない可能性もある
中国の研究所が6か月遅れている場合と、最高のモデルを抑え込むよう強制されている場合は、外からは見分けにくい
これを障壁とは見ておらず、過去50年続いてきたアジア過小評価に似ていると感じる
LLM を作るうえで米国だけに生来の優位性があるわけでもなく、米国の先行者利益は「公開するには危険すぎる」といった輸出規制ごっこによって遅延し、浪費される可能性が大きい
インターネットには、モデルが知っているべきだと期待される知識の大半がそのままある
より良いモデルから少量のデータで蒸留することは今でも役に立つが、もともとのインターネット学習モデルにまったく存在しない能力を移すというより、従順なアシスタントのペルソナに合う能力を見つけ出し、荒らしのような望ましくない能力を抑えることに近い
ChatGPT で作った命令チューニングデータセットを Alpaca などに使っていたのが、その原始的なバージョンだ
模倣すべき明確な目標がなければ、競合は人間評価者により依存する必要があるだろうが、中国にはデータラベリング会社が多いので大きな障害ではない
中国から出ているのは、モデル蒸留の新しい方法だけではない
米国政府は、明示的な許可なしに最新モデルへアクセスさせる気がなさそうだ
クローズドモデルがベンチマークを事実上ごまかせるという話はあまり見かけない
Anthropic や OpenAI がモデルとしてブランド化しているものは、必ずしも重みだけである必要はなく、モデル自体を補強するバックエンドシステム全体かもしれない
そうすれば、重みだけのオープンソースモデルよりベンチマークスコアが高く出る可能性がある
オープンソースも同じで、ベンチマークを何の実行ツールもなしに回しているわけではない
AGI が100%ニューラルネットワークで作られているのか、それとも**ニューラルネットワーク50%と Perl スクリプト50%**で作られているのかなど、誰も気にしない
モデル性能向上のかなりの部分がコーディングベンチマークから来ているという点は筋が通っている
コーディングはモデルの最も明確な短期的活用先の一つであり、トークンに多額の金を払う用意のある市場があり、取り組むべき巨大なコーパスがあり、問題領域自体にかなりの検証可能性が組み込まれている
自由の国として知られる米国は、今や米国人でなければ最先端モデルを使うことすら制限している
逆に「権威主義国家」であり「自由の反対語」のように見なされる中国は、特に資本主義的なソフトウェア産業を基盤に、競争力のあるオープンウェイトモデルをすべて作り上げている
本当に皮肉だ
中国人として、この戦略が遅れた立場からオープンソースを非対称な競争手段として使い、不足する計算資源を負担分散で補おうとするものだということは理解している。それでも非常に皮肉だ
米国は自らを自由の国と言うことはできるが、何百年もの間経済保護主義ゲームを続けてきた
今回のことは、その最新の事例にすぎない
クローズドモデル企業がオープンモデルにどの程度の性能ブーストを与えているのか気になる
クローズドモデルの改善が止まれば、オープンモデルの進歩も遅くなるのだろうか
たとえば DeepSeek はすでに効率性の面で多くのイノベーションを起こしている
クローズドモデルの改善が止まれば、すべてのクローズドモデルも止まるという仮定は、モデルが近いうちに何らかの壁にぶつからない限り、かなりあり得ない
中国企業は計算能力では米国に遅れを取るかもしれないが、現在うまく機能している問題生成と強化学習の分野では、米国の同業者とおおむね同じくらい優秀な研究者がいる [0]
特にプログラミングのように短いフィードバックループが可能な領域では、取るに足らない人間である私たちが目的関数を定義する能力を失う地点までは、急速な改善が続く可能性が高い
逆に、フィードバックが遅い、または高価な分野では魔法は期待していない。巨大で有能な製薬会社でさえ、評価プロセスが遅すぎて高すぎるため、素晴らしい新薬を安定して発明できておらず、モデルも同じ理由ですぐにそうできるようにはなりにくい
医薬品開発の経路を n 個、m 回反復しながら強化学習を回すには、可能だとしても n*m に 1,000万〜1億ドルを掛けたコストと m 年がかかるだろう
[0] 米国の大学システムを通じて世界中の人材が米国の研究所へ流れ込んでいた頭脳流出が枯れつつあり、この分野における米国の優位は小さくなる可能性が高い
最近の米国の輸出禁止と合わせて見ると興味深い
米国は、一般の人が使えるモデル品質という点で、オープンソース、とりわけ中国の研究所が追いつくようにさせることで、先行者優位を浪費しているのだろうか
ユーザーが最新モデルを使えない状況でも、米国の研究所は優位を保てるのだろうか
重要だという意味でも、重要でないという意味でもないが、「米国が勝つ」や「中国が勝つ」がどんな実質的価値を持つのか分からない
オープンウェイトや中国のモデルが最新の最先端モデルの蒸留に大きく依存しているという見方が正しければ、格差は、最新の最先端モデルから意味のあるデータを抽出するのに必要な最短時間に、最新の依存モデルの学習仕上げ時間を加えた程度で安定するだろう
この格差はプロセス効率を高めることで縮めることはできるが、完全になくすことはできない
Anthropic や OpenAI における蒸留を妨げようとする試みも、均衡を変える可能性がある
先進的な LLM 適用の最前線にいなければならないと信じ、ますます依存し始めた多くの企業や政府が、Arthur C. Clarke の短編 Superiority のような状況に陥るのではないかと気になる
[1] 原文: https://nob.cs.ucdavis.edu/classes/ecs153-2019-04/readings/s...
[2] Wikipedia: https://en.wikipedia.org/wiki/Superiority_(short_story)