オープンウェイトLLMとクローズドLLMのギャップ

(blog.doubleword.ai)

1 ポイント投稿者 GN⁺ 4 시간 전 | 1件のコメント | WhatsAppで共有

Artificial Analysis Intelligence Index では、オープンウェイトLLMがクローズドLLMの過去の性能に追いつくまでの時間が、2024年夏から着実に短縮する傾向を示している
この単一指標にトレンドラインを引くと、ギャップは2026年12月3日に0か月となり、オープンモデルが指標上で最前線のクローズドモデルに到達するという予測になる
同じ分析を18のベンチマーク全体に広げると、平均ギャップはほぼ横ばいで、全期間を通じて5か月未満の水準にとどまる
改善幅は主にコーディングベンチマークで生じており、コーディング指標のギャップは15か月から1〜2か月へと縮小した
LLMの品質評価は測定基準によって大きく揺れ、オープンモデルがまもなく追いつくという解釈と、引き続き約5か月遅れているという解釈の両方が成り立つ

単一指標が示す急速な追い上げ

ギャップは、オープンウェイトLLMのベンチマーク最前線を基準に、クローズドLLMの最前線が過去のどの時点で同じ性能を出していたかをさかのぼって算出する
使用されたヘッドライン指標は Artificial Analysis の Artificial Analysis Intelligence Index で、モデルの総合的な能力を評価しようとする指標である
この指標では、2024年夏ごろからオープンウェイトLLMとクローズドLLMのギャップが縮まり始め、その後も縮小傾向が続いている
トレンドラインを未来へ延長すると、ギャップは2026年12月3日に0か月になる
- 執筆時点を基準にすると約6か月後という計算である

18のベンチマークが示す異なる結論

Artificial Analysis の18のベンチマーク全体に同じ分析を適用すると、単一指標とは異なる姿が見えてくる
各月ごとに18のデータセット別ギャップを箱ひげ図にし、データセット全体の平均ギャップに対してトレンドラインを計算する
平均ギャップのトレンドラインはほぼ完全に横ばいで、全期間を通じて5か月未満の水準に近い
モデル改善の大部分はコーディング指標で生じている
- コーディングインデックスは15か月遅れの水準から1〜2か月遅れの水準へと縮小した
- それ以外の大半のデータセットでは、時間の経過とともにギャップが緩やかに拡大する傾向が見られる
測定基準によってLLMの品質判断は大きく異なる
- ある基準では、クリスマスごろにオープンソースの singularity を予測できる
- 別の基準では、オープンソースLLMはクローズドLLMより一貫して約5か月遅れており、そのギャップが広がる可能性もある

1件のコメント

GN⁺ 4 시간 전

Hacker Newsの意見

オープンウェイトモデルの未来における最大の問題は、現在のオープンウェイトモデルがDeepSeekのような民間組織の善意に頼って生まれた結果だという点だ
蛇口はいつでも閉められるし、何らかの形でコミュニティ所有のハードウェアが生まれるまでは、オープンウェイトモデルが途絶えるリスクを抱え続けることになる
- それでもオープンモデルの最大の利点は、一度公開された性能は奪われないという点だ
  今後まったく新しいモデルが出なくても、すでに到達した能力は残る。一方、APIベースのモデルは提供者が好きなように終了でき、gpt5-miniが近いうちに消えて、より高価な5.4-miniに置き換わるといったことも可能だ
  Nvidiaは人々がモデルを動かすほど直接利益を得るので、Nemotron系を出し続けるインセンティブがあるし、Googleもブラウザ機能に使う小型モデルはいずれ流出すると分かっているのだから、開発者市場でシェアを取るほうがよい
  中国の研究所もモデルを公開し続けるインセンティブがあり、国家間の商業戦争のおかげで政府支援も続く可能性が高い
- DeepSeekは慈善ではなく、西側のAI市場を空売りしようとするヘッジファンドに近い
  「我々はコストの1/10で君たちの90%を実現できる。密度指標ではさらに優れている」と言うようなもので、少なくとも私の理論では、AI版のHindenburg Researchのように見える
- 記事の元の書き手として、オープンウェイトモデルの未来はファブレス半導体設計会社に似たものになりそうだと思う
  モデルを学習できる会社が現れ、そのモデルをAPIを運営する推論会社にライセンスする構造になり得る
  推論会社ははるかに少ない資本で運営でき、学習会社は推論にリソースを奪われずに済む
  一部の中国のモデル学習会社は、すでにこのような形で推論プロバイダーにモデルをライセンスしている
- モデル学習のためのSETI@Homeのようなものが必要だ
- これは慈善ではなく、研究所同士が公開モデルから学び合うことで得るものがある
  財務的にも理にかなっていると思う。サブスクリプションの上限いっぱいまで使うユーザーは、運営者に購読料以上のコストを発生させる可能性があり、Anthropicが中国のデータ収集に大きく反応する理由もここにあるのかもしれない
  ウェイトを公開すれば、競合はサブスクリプションサービスを叩く必要なく、モデルをダウンロードして分析し、一日中動かせるので負担が減る
  最大級のモデルは、主要企業でなければ自分で動かす理由がほとんどない。ハードウェアのレンタルは購読料より途方もなく高く、数万ドルかかり、購入するには数十万ドルが必要だ
「今こそ年金を現金化して離島に飛び、文明に残された6か月ほどを平和に過ごすのにいい時期だ」「だからまだオープンソースの終末は来ないかもしれない」といった表現があったが、優れたオープンソースモデルがいつから終末の前兆になったのか分からない
- むしろオープンソースモデルは終末に対するヘッジだ
  少なくともサイバーパンク的ディストピアに対するヘッジと見なせる
- オープンウェイトが最先端モデルの能力に到達すると、制限のないmythos+級モデルを誰もが手にするという恐ろしい結果を、冗談交じりに指しているのだと受け取った
- かわいいものだ。気候変動が食料作物やがん発生率に及ぼす終末論的な影響、とくにオゾン層崩壊後の影響でさえ、人々を変えることはできなかった
  それなのにオープンモデルLLMは怪物扱いされる。市場はOpenAIやAnthropicが安全に支配し、すべての決定を下すべきだというのか
- この記事はオープンウェイトLLMをホスティングする会社のブログ記事だ（https://www.doubleword.ai/)
  おそらく冗談めいた表現だった可能性がある
- 終末論が史上最高水準に達していて、人々は日ごとにますます神経症的になっているようだ
現在の流れでは、中国モデルが米国の最先端モデルを追い越すのは難しい
米国モデルの優位性は、巨大な教師モデルで生成するなど、実際の対話型トラフィックには到底投入しにくい手法まで使って、より多く、より質の高い、主に合成データを確保していることから生まれている
中国モデルはモデル最適化に膨大な努力を注ぎ、米国の最先端モデルからより多く、より質の高い学習データを確保する形で前進している
中国のオープンウェイトモデルが米国研究所の最先端モデルを超えるには、この方程式が逆転しなければならない。中国の研究所は最先端モデルのデータ収穫から脱却し、新しいデータを作るデータシステムと取り組みを構築し、最新世代のハードウェアも大量に確保する必要がある
最先端規模のモデル学習自体は想像もできない偉業ではなく、本当にハードウェアが投入されるのは教師モデル推論の方だ
- その会社で働いていない限り、実際に何をしているのかは分からない
  z.ai や Alibaba の内部も知らないし、Anthropic や OpenAI の内部も知らない
  ただ、互いにデータを収集していない可能性は極めて低そうに見える。Anthropic にも、競合を見るためだけでも GLM 5.2 の重みを調べるチームがあるはずだと確信している
  ある研究所が Anthropic のデータを手に入れたからといって、自前の研究をしていないという意味ではない
  最適化に集中していたのは最高のハードウェアを入手できなかったからで、上位研究所が遅れた唯一の理由が H200 や MI350 を持っていなかったことだけだった可能性もある。今では持つようになった
  もう一つのリスクも過小評価している。Anthropic は米国政府と神経戦を繰り広げた末、現在世界「最高」のモデル群を社内に閉じ込めている
  中国も似た状況かもしれない。知られている限りでは、中国政府は AI 輸出とオープンウェイトモデルに意外なほど開かれているが、GLM 5.2 のより良いバージョンを内部で握っていて、誰も口にできないという、小さいが無視できない可能性もある
  中国の研究所が6か月遅れている場合と、最高のモデルを抑え込むよう強制されている場合は、外からは見分けにくい
- 「中国の研究所は最先端モデルのデータ収穫から脱却し、新しいデータを作らなければならない」という描写が正しいとしても、彼らは明日にでもそうできるし、それを思いつかないほど近視眼的ではない
  これを障壁とは見ておらず、過去50年続いてきたアジア過小評価に似ていると感じる
  LLM を作るうえで米国だけに生来の優位性があるわけでもなく、米国の先行者利益は「公開するには危険すぎる」といった輸出規制ごっこによって遅延し、浪費される可能性が大きい
- Anthropic が蒸留のために抽出されたと主張したデータ量は、インターネット全体に比べれば非常に小さい
  インターネットには、モデルが知っているべきだと期待される知識の大半がそのままある
  より良いモデルから少量のデータで蒸留することは今でも役に立つが、もともとのインターネット学習モデルにまったく存在しない能力を移すというより、従順なアシスタントのペルソナに合う能力を見つけ出し、荒らしのような望ましくない能力を抑えることに近い
  ChatGPT で作った命令チューニングデータセットを Alpaca などに使っていたのが、その原始的なバージョンだ
  模倣すべき明確な目標がなければ、競合は人間評価者により依存する必要があるだろうが、中国にはデータラベリング会社が多いので大きな障害ではない
- 「中国は米国をコピーするしかない」という考えは、非常に近視眼的で情報不足な判断だ
  中国から出ているのは、モデル蒸留の新しい方法だけではない
- どうしてそうなるのかと思う。まもなく選択肢は非常に古い OAI モデルか、新しい中国モデルだけになるだろう
  米国政府は、明示的な許可なしに最新モデルへアクセスさせる気がなさそうだ
クローズドモデルがベンチマークを事実上ごまかせるという話はあまり見かけない
Anthropic や OpenAI がモデルとしてブランド化しているものは、必ずしも重みだけである必要はなく、モデル自体を補強するバックエンドシステム全体かもしれない
そうすれば、重みだけのオープンソースモデルよりベンチマークスコアが高く出る可能性がある
- その通りだし、それでいいと思う。全部込みで性能として扱うべきだ
  オープンソースも同じで、ベンチマークを何の実行ツールもなしに回しているわけではない
  AGI が100%ニューラルネットワークで作られているのか、それとも**ニューラルネットワーク50%と Perl スクリプト50%**で作られているのかなど、誰も気にしない
モデル性能向上のかなりの部分がコーディングベンチマークから来ているという点は筋が通っている
コーディングはモデルの最も明確な短期的活用先の一つであり、トークンに多額の金を払う用意のある市場があり、取り組むべき巨大なコーパスがあり、問題領域自体にかなりの検証可能性が組み込まれている
自由の国として知られる米国は、今や米国人でなければ最先端モデルを使うことすら制限している
逆に「権威主義国家」であり「自由の反対語」のように見なされる中国は、特に資本主義的なソフトウェア産業を基盤に、競争力のあるオープンウェイトモデルをすべて作り上げている
本当に皮肉だ
中国人として、この戦略が遅れた立場からオープンソースを非対称な競争手段として使い、不足する計算資源を負担分散で補おうとするものだということは理解している。それでも非常に皮肉だ
- 比較は最初の一文から崩れている
  米国は自らを自由の国と言うことはできるが、何百年もの間経済保護主義ゲームを続けてきた
  今回のことは、その最新の事例にすぎない
クローズドモデル企業がオープンモデルにどの程度の性能ブーストを与えているのか気になる
クローズドモデルの改善が止まれば、オープンモデルの進歩も遅くなるのだろうか
- なぜ米国の研究所だけがイノベーションを起こせると仮定するのか分からない
  たとえば DeepSeek はすでに効率性の面で多くのイノベーションを起こしている
- 「蒸留」がオープンウェイトモデルのキャッチアップにどれほど役立っているかは、中国の一部の人たちは間違いなく知っているはず
  クローズドモデルの改善が止まれば、すべてのクローズドモデルも止まるという仮定は、モデルが近いうちに何らかの壁にぶつからない限り、かなりあり得ない
  中国企業は計算能力では米国に遅れを取るかもしれないが、現在うまく機能している問題生成と強化学習の分野では、米国の同業者とおおむね同じくらい優秀な研究者がいる [0]
  特にプログラミングのように短いフィードバックループが可能な領域では、取るに足らない人間である私たちが目的関数を定義する能力を失う地点までは、急速な改善が続く可能性が高い
  逆に、フィードバックが遅い、または高価な分野では魔法は期待していない。巨大で有能な製薬会社でさえ、評価プロセスが遅すぎて高すぎるため、素晴らしい新薬を安定して発明できておらず、モデルも同じ理由ですぐにそうできるようにはなりにくい
  医薬品開発の経路を n 個、m 回反復しながら強化学習を回すには、可能だとしても n*m に 1,000万〜1億ドルを掛けたコストと m 年がかかるだろう
  [0] 米国の大学システムを通じて世界中の人材が米国の研究所へ流れ込んでいた頭脳流出が枯れつつあり、この分野における米国の優位は小さくなる可能性が高い
最近の米国の輸出禁止と合わせて見ると興味深い
米国は、一般の人が使えるモデル品質という点で、オープンソース、とりわけ中国の研究所が追いつくようにさせることで、先行者優位を浪費しているのだろうか
ユーザーが最新モデルを使えない状況でも、米国の研究所は優位を保てるのだろうか
- なぜそれが重要なのか気になる
  重要だという意味でも、重要でないという意味でもないが、「米国が勝つ」や「中国が勝つ」がどんな実質的価値を持つのか分からない
オープンウェイトや中国のモデルが最新の最先端モデルの蒸留に大きく依存しているという見方が正しければ、格差は、最新の最先端モデルから意味のあるデータを抽出するのに必要な最短時間に、最新の依存モデルの学習仕上げ時間を加えた程度で安定するだろう
この格差はプロセス効率を高めることで縮めることはできるが、完全になくすことはできない
Anthropic や OpenAI における蒸留を妨げようとする試みも、均衡を変える可能性がある
先進的な LLM 適用の最前線にいなければならないと信じ、ますます依存し始めた多くの企業や政府が、Arthur C. Clarke の短編 Superiority のような状況に陥るのではないかと気になる
[1] 原文: https://nob.cs.ucdavis.edu/classes/ecs153-2019-04/readings/s...
[2] Wikipedia: https://en.wikipedia.org/wiki/Superiority_(short_story)

オープンウェイトLLMとクローズドLLMのギャップ

単一指標が示す急速な追い上げ

18のベンチマークが示す異なる結論

関連記事

1件のコメント

Hacker Newsの意見