GLM-5.2、Artificial Analysisのオープンウェイトモデル首位に

(artificialanalysis.ai)

1 ポイント投稿者 GN⁺ 4 시간 전 | 1件のコメント | WhatsAppで共有

Z aiのGLM-5.2はArtificial Analysis Intelligence Index v4.1で51点を記録し、オープンウェイトモデルの首位に立ち、コスト対性能でもPareto frontierに位置する
モデル規模はGLM-5.1と同じ総744B / アクティブ40Bパラメータだが、スコアは11点高く、MiniMax-M3、DeepSeek V4 Pro(max)、Kimi K2.6を上回る
改善幅は大半の評価で見られ、とくに科学的推論分野のCritPtとHLEの伸びが目立つ
GDPval-AA v2では1524点を記録し、MiniMax-M3とDeepSeek V4 Pro(max)を上回り、GPT-5.5(xhigh reasoning)に近い水準にある
1タスクあたり43k出力トークンを使うためトークン効率は低めだが、同等の知能水準のモデルの中ではタスクあたりコストは最も低い部類に入る

Intelligence Index v4.1でオープンウェイト首位

GLM-5.2はArtificial Analysis Intelligence Index v4.1で51点を記録し、オープンウェイトモデルの中で1位となった
主なオープンウェイトモデルのスコアは以下の通り
- MiniMax-M3: 44
- DeepSeek V4 Pro(max): 44
- Kimi K2.6: 43
GLM-5.2はGLM-5.1と同じ総744Bパラメータ / アクティブ40Bパラメータ規模だが、Intelligence Index v4.1のスコアは11点高い

評価別の性能向上

GLM-5.2はGLM-5.1比で大半の評価においてスコアが上昇した
とくに科学的推論関連の評価で改善幅が大きい
- CritPt: +16点、21%
- HLE: +12点、40%
- GPQA Diamond: +3点、89%
他の評価でも全体的に改善している
- AA-LCR: +9点、71%
- tau3 banking: +15点、27%
- SciCode: +7点、50%
- TerminalBench v2.1: +16点、78%

GDPval-AA v2とエージェント性能

GLM-5.2は実世界エージェント性能指標のGDPval-AA v2で1524点を記録した
オープンウェイトモデル比較では最高スコアとなる
- GLM-5.2: 1524
- MiniMax-M3: 1418
- DeepSeek V4 Pro(max): 1328
この結果は**GPT-5.5(xhigh reasoning)**の1514点と実質的に同等の水準である
GDPval-AA v2は従来のGDPval-AAから評価方式が変更された
- Elo基準線を人間の性能1000に設定
- frontier-model judgeの循環パネルを導入
- より長いエージェント軌跡を扱うため、ターン上限を100から250へ引き上げ

コスト、価格、トークン使用量

GLM-5.2はIntelligence vs Cost per TaskチャートでPareto frontierに位置し、同じ知能水準のモデルの中ではタスクあたりコストが最も低い部類に入る
タスクあたりコストはGLM-5.1より高いが、より高いIntelligenceスコアを踏まえるとコスト対効果の位置づけは有利
- GLM-5.2: 約$0.46
- GLM-5.1: $0.25
- Kimi K2.6: $0.31
- MiniMax-M3: $0.18
- DeepSeek V4 Pro(max): $0.05
first-party APIの価格はGLM-5.1と同水準
- 入力トークン1Mあたり**$1.4**
- 出力トークン1Mあたり**$4.4**
- cache hitトークン1Mあたり**$0.26**
Intelligence Indexの1タスクあたり43k出力トークンを使用し、このうち37kはreasoningトークン
出力トークン使用量は主要なオープンウェイトモデルより高め
- GLM-5.1: 26k
- MiniMax-M3: 24k
- Kimi K2.6: 35k
- DeepSeek V4 Pro(max): 37k
同等の知能水準にあるオープンウェイトモデルの中ではトークン効率は低めで、Intelligence vs Output Tokensチャートでも最も魅力的な象限には入らない

モデルの詳細とアクセシビリティ

GLM-5.2のライセンスはMIT
コンテキストウィンドウは1Mトークンで、GLM-5.1の200Kから増加
Z aiのfirst-party APIと複数のthird-partyプロバイダーで利用可能
- DeepInfra
- Novita
- Nebius
- Parasail
- Siliconflow
- GMI Cloud
- Baseten
  - Fireworks
  - GLM-5.2はAA-Omniscience Indexで4点を記録し、GLM-5.1の2点を上回る
  - 正確度は**25.1%**で、GLM-5.1の24.2%より高い
  - hallucination rateは**28.1%**で、GLM-5.1の29.4%より低い
  - attempt rateは**47%**で同じ
  - モデル比較はArtificial AnalysisのGLM-5.2ページで確認できる

1件のコメント

GN⁺ 4 시간 전

Hacker Newsの意見

かなり良い段階的な前進で、最前線にかなり近づいたように見えるが、これからは推論効率にもっと注力してほしい
LLMの評価用に、Nimで簡単な数式評価ライブラリを書かせるテストを使っているが、GLM 5.2 xhighは最初のファイルを書き始めるまでに15分以上推論し、約45kトークンを使った
https://artificialanalysis.ai/#output-tokens によると、GPT 5.5 xhighは平均総計16kトークン、highは10k、Fable 5は33k、Opus 4.8は41k、GLM 5.2は42kで、GPT 5.5の推論効率が圧倒的に優れている
実際のリクエストコストに換算すればGLM 5.2のほうがGPT 5.5/Opus 4.8より安いだろうが、多くの人にとっては速度も重要だ
- GLM 5.2 Maxは思考の仕方がOpus 4.8 Maxと同じに見え、思考チェーンと出力トークン使用量も非常によく似ている
  妥当なトークン使用量を望むならGLM 5.2はHighで回すべきで、たいていの作業ではMaxからHighに下げても品質低下は小さく、トークン使用量は2〜2.5倍減る
  要するにGLM 5.2は、はるかに安いOpus 4.8の弟分のようなモデルで、Opusモデルで学習していないなんて本当に信じがたい、という冗談まで出ている
- 「最前線に近づいた」というより、すでに追い越したと見ている
  個人的にはGLM + OpenCodeの組み合わせのほうが、会社で使わなければならないClaude Code + Opusよりずっと良く、StackOverflow的な初心者ミスもはるかに少なく、指示にもよりよく従う
  ハーネスのユーザー体験も、設定を無視したり勝手に変えたり誤報告したりしないのでずっと優れており、Anthropicの堀は急速に消えつつあるように見える
- Opusでも同じように、長く考えすぎた末に「ちょっと待て、もし…」を繰り返す問題がある
  結局は中断させて「まずコードを書いて、進めながら解決して」と言うことになり、作家のスランプがLLMにもあるように感じる
- https://en.wikipedia.org/wiki/Portia_(spider) を思い出す
- MoonshotがKimi K2.7 Codeで行った最近の取り組みが、他の公開モデル研究所にも広がってほしい
  Artificial Analysisによると、K2.7 Codeは知能面ではK2.6と似ているが、同じ水準に到達するのに出力トークンを半分しか使わない
Artificial Analysisのcodingindexを基準にモデル順位を付けるスクリプトを作って、毎日使っている
メインの表ページからJSONを取得し、関心のあるコーディング関連フィールドだけをパースしている。以前はメーリングリストもあったが、関心が高くなかったので止めた
現在は一部の結果でClaude Fable 5、GPT-5.5 xhigh/high、Claude Opus 4.8、Gemini 3.1 Pro Preview、GLM-5.2 max、Qwen3.7 Maxなどが上位に入り、実行は $ curl day50.dev/art-analysis.sh | bash で可能
リポジトリは https://github.com/day50-dev/aa-eval-email で、現時点の公開モデルは測定方法によってはおよそ4〜7か月遅れに見える。この傾向が続けば、新年までに公開重みモデルがClaude Fable 5級の作業をこなせるようになるかもしれない
- Artificial Analysisのコーディング指数はTerminal-Bench HardとSciCodeの2つのベンチマークだけで構成されており、良いコーディング指数なのか疑わしい
  Gemma 4 31BをDeepSeek V4 Flashより高く評価しているが、両方をさまざまなコーディング作業で使ってきた立場としては、毎回DeepSeekを選ぶだろう
- 面白いプロジェクトではあるが、出所不明のBashをそのまま実行しろと求めるのはかなり悪い慣行だと思う
なぜもっと多くの人がこれを話題にしないのかわからない
実質的にOpus 4.7品質をあり得ない価格で提供していて、月50ドルで無制限トークンを提供するところもあり、公式ZAI APIより3倍安いAPI料金を取るところもある
公式ZAI APIですらOpusより約10倍安いため、Anthropic/OpenAI/Googleには大きな打撃で、その他の世界には大きな勝利だ。公開モデルでは公式APIの価格と速度がすべてではない
- 中国の公開モデルを何度か使ったことがあるが、悪くはないものの、主張されるベンチマーク水準には届いていなかった
  GLM 5.2がOpus 4.7に近いのかもしれないが、確認するたびに結局まだベンチマーク最適化ばかりでGPTやOpus級ではなかった、となるなら、「オオカミが来た」的に受け止めるようになる
- 非公式プロバイダーには注意が必要だ
  モデル設定を誤っていたり、こっそり量子化していたりすることが多く、しばらくの間、公式APIのKimiと大半のサードパーティプロバイダーの間には20〜40%の差があった
- OpenRouterを見ると、より安い商品の一部は量子化モデルで、量子化によって知能がどれだけ落ちるのかははっきりしない
  3倍安いAPI料金がどこなのか気になっていたが、Croftの8ビット料金が $0.50/$0.08/$2.20 であることを確認した
  https://openrouter.ai/z-ai/glm-5.2
  https://ai.nahcrof.com/pricing
- 選択肢が多すぎて、人間の立場では追いかけること自体が計算コスト的に高い
  こうしたモデルの動かし方を突き止めるのも難しく、インストーラーもなく、本当に関心のある1%の人でなければガイドを検索して、そのガイドも古いと気づくことになる
  「Claude Codeをインストールして月100ドル払う」のに比べ、学習コストが急すぎる。月50ドル節約できても、その手間に見合う意味は小さい
- 私たちの組織では全員がClaudeに過剰に固定されていて、まるでそれが唯一のLLMであるかのように振る舞っている
  純粋に、エンタープライズ内の非エンジニア向けに最適化されているからだ
Artificial Analysis のコーディングベンチマークでは、GLM 5.1 high は実行コストの面で GPT 5.5 xhigh にかなり近く、GPT 5.5 medium ははるかに安価です。
GPT 5.5 medium と比べると、GLM 5.1 xhigh はコストが2倍で知能は半分程度なので、まだ GLM 5.2 がなくても埋めるべき差は大きいです。
https://artificialanalysis.ai/agents/coding-agents?coding-agents-performance-chart=deep-swe&coding-agents-harness-comparison-chart=harness-deep-swe#coding-agents-performance-chart-tabs
DeepSWE は個人的な経験ともよく一致していて、公開モデルに対するインターネット上の大騒ぎがどれほど正当なのか疑問です。
最前線に近いモデルが欲しいなら、現時点では Opus、Fable、GPT5.5 を挙げるのが正直に思えます。
- Z.ai の自己実行では、GLM 5.2 は DeepSWE 46.2点を取り、その位置は Opus 4.7 xhigh と Opus 4.8 medium の間です。
  https://z.ai/blog/glm-5.2
- 公開モデルを使えば、Codex と同じコストで プライバシー保護付きのサブスクリプション を受けられます。
  OpenAI、Google、Anthropic のサブスクリプションにはそうしたプライバシー保護の選択肢がなく、リンクを見ると GPT 5.5 が Cursor CLI では7位なのに Codex CLI では3位に上がっているのも興味深いです。
  公開モデルは Codex でテストされていないので、純粋なモデルベンチマークだと断定するのは難しく、公開モデルが SWE エージェントのハーネスに弱い可能性もありますが、それが最も単純な説明というわけでもなさそうです。
- DeepSWE は Artificial Analysis 指数や他のコーディングベンチマークよりも「正しい」ベンチマークのように感じられます。
  その指標で見ると、GPT-5.5 は依然としてトークン効率、速度、ドル当たり知能で王者です。
  https://deepswe.datacurve.ai/
  Fable 5 も良いですが、まだ GPT-5.6 は見ていません。
- 昨日 OpenRouter で GLM 5.2 を使ってみましたが、全体としては悪くなかったものの、比較的遅い作業の30分でトークンコストが 5ドル もかかりました。
  DeepSeek V4 より簡単に4倍高くなりますが、結果がそこまで良いとは感じられず、後で GPT 5.5 in Codex で確認してみると雑な部分も多くありました。
  コストパフォーマンスでは MiniMax M3 の方が優れていました。
GLM 5.1/5.2 が ビジョンモデルではない点 は意外でした。
最近ではかなり珍しく、OpenAI/Anthropic/Gemini のモデルはすべて画像を受け取れますし、Gemma 4、Qwen 3.6、Kimi 2.x のような主要な公開重み系統も画像入力をサポートしています。
GLM はウェブデザインのような作業でスコアの高いモデルなので、画像入力があればスクリーンショットを受け取って HTML+CSS を出力するのに役立つはずで、その点は明らかな穴です。
- コーディングハーネスに下位エージェントを設定して、そのような作業では任意の ビジョンモデル で新しい下位セッションを立ち上げ、結果をメインモデルに戻せばよいです。
  「何でもこなす1つのモデル」が必須というわけではありません。
- Google AI Studio を無料の ビジョンブリッジ として使っています。
  Gemma 31B はビジョンタスクをかなりうまくこなし、1日1500リクエストなら実質ほぼ無制限に近いです。
- それほど大きな穴には見えません。
  UX/UI 作業のような用途はあるでしょうが、それ以外ではあまり必要なく、最前線のモデルでも実際の画像を複製することはできず、個人的な経験では近似できる程度です。
- DeepSeek V4 でも同じ反応でした。
  ビジョンモデルだったならもっと有用だったと思います。
この24時間でこのモデルをかなり使ってみて、相当に有能だということは確認できました。
ただ、やや冗長で、思考記録の中で進路を決める前に3〜4回見直すことがあり、複雑で抽象的な要求を処理する能力は GPT5.5 ほどではありません。
それでも大半の人には Z.AI サブスクリプション + 月20ドルの OpenAI サブスクリプション の組み合わせを勧められる程度で、GLM が書いて GPT がレビュー/デバッグする流れは、月200ドルプランで GPT だけを使うよりほんの少し悪いだけで、ほぼ無制限のように感じられます。
- 今日知ったのですが、デフォルトの推論強度が max に設定されています。
  冗長なのはたぶんそのせいでしょう。
- 今いちばん重視しているのは、モデルがどれだけ 文章を書くのがうまいか です。
  プログラミングができるなら、モデルに必要な仕事をさせるための十分な情報を与えられる段階に来たと見ています。
  一方で文章作成はニュアンスが多すぎて、まだかなり難しそうですが、実際には着実に良くなっています。
- 私のワークフローもこれと同じです。
  1日に1回、コードを無料の Claude Sonnet にコピーして入れ、実際に読めるものにしています。
- Fable 5 を味わって以降、Opus 4.8 でももう十分ではないと感じます。
  Opus 4.8 は、DeepSeek 4.0 や Kimi 2.7 が揺らいだり失敗したりする場面で成功する、より強力なコーディングエージェントであるのは確かですが、会話調の 修辞的な装飾 がだんだん鼻につき、ときには強く問い詰めるまで意図的に曖昧に話したり真実を出し惜しみしたりしているように感じられ、サブスクリプションを見直したくなります。
GLM 5.2 は、私たちがテストしたモデルの中で初めて Opus 4.6 と明確に同格か、それ以上 のモデルです。
ただし、脆弱なテスト方法論を使う他のベンチマークに比べると、私たちの評価では GLM 5.2 と大半の中国モデルをやや低めに見ています。
データは https://gertlabs.com/rankings にあります。
こうしたモデルを動かす方法自体はよく分からないが、中堅・大企業がモデルをローカルに置くためにハードウェアを買い始める時期がどれほど近いのか気になる。
高価で、最前線のモデルほど有能ではないとしても、プライバシーとコントロール権の面での利点はかなり大きい。
- 欧州の複数の企業はすでにしばらく前から70Bモデルでそうしており、新しく出た700B〜1T級モデルを動かすためにハードウェアをアップグレードしている。
  Kimi K2の頃から本格化してきたが、そうしたハードウェアを購入してホスティングするには時間がかかる。
  すべての企業が営業秘密をOpenAIやAnthropicに送りたいわけではないし、法的に送れるとも限らない。
- 新しい状況ではない。
  AlexNetのような優れたビジョンモデルが出ていた時代、とくにOCRでも企業はクラウドとGPUの自前ホスティングの間で選択しなければならなかった。
  結局のところ問題は利用パターンで、特定の時間帯の業務時間に使用量が集中し、それ以外の時間にはGPUが遊んでしまう。
  レイテンシに敏感な作業では何十年も続くトレードオフであり、LLM特有の問題ではない。
- 約750BモデルなのでVRAMがとてつもなく必要になる。
  かなり本気度の高い中堅企業でないと難しそうだ。
- 完全なプライバシーが必要な主な用途は、今のところ法務業務のように見える。
  ディスカバリーで膨大なテキストを検索するのに最上位モデルまでは必要ないが、完全な機密性は必要だ。
  r/localllamaにはマルチGPUビルドを自慢する弁護士がかなりいて、ちょうど彼らには必要な資金もある。
- 本当に国家安全保障上の懸念があるのでなければ、既存の数社のベンダーとプライバシー保護を含む商用契約を交渉したほうがよい。
「GLM-5.2は知能に対するタスクあたりコストのパレートフロンティア上にあり、同じ知能レベルのモデルの中でタスクあたりコストが最も低い」としながら、GLM-5.2はタスクあたり約$0.46で、GLM-5.1は$0.25、Kimi K2.6は$0.31、MiniMax-M3は$0.18、DeepSeek V4 Pro maxは$0.05と書かれていて、何か見落としているのかと思った。
- 比較対象の選び方がよくない気がする。
  5.2と知能指標で近い他モデルを選ぶ代わりに、もっと下位の公開モデルをいくつか選んで並べたように見える。
- パレートフロンティアとは、最も安いという意味ではない。
- 一部のモデルには多額の補助金が入っている。
  推論コストについては、総パラメータ数とアクティブパラメータ数のほうがよりよい指標だ。
Mythosを見て、バグベースのベンチマークにGLM 5.2を追加したが、GLM 5.1よりは良いものの、依然として複数のモデルに後れを取っており、最も直接的にはQwen 3.7 Maxと比較できそうだ。
Gemma 4やQwen 3.6のような小型で自前ホスティング可能な公開モデルも、9件中3件で同じ数のバグを見つけており、GLM 5.2は1つのバグの位置は当てたものの、バグ自体をやや誤解していて部分点にとどまった。
同じ実行で追加したKimi K2.7-codeは、2.6の性能と一貫してあまり良くなく、この特定のベンチマークでは、より良くて安いモデルがある。
https://swelljoe.com/post/will-it-mythos/
この小さなベンチマークが何かを証明するわけではないが、モデルがコード内のかなり複雑な問題を推論できるかを素早く見極めるには有用だ。

GLM-5.2、Artificial Analysisのオープンウェイトモデル首位に

Intelligence Index v4.1でオープンウェイト首位

評価別の性能向上

GDPval-AA v2とエージェント性能

コスト、価格、トークン使用量

モデルの詳細とアクセシビリティ

DeepInfra

Novita

Nebius

Parasail

Siliconflow

GMI Cloud

Baseten

関連記事

1件のコメント

Hacker Newsの意見