GLM-5.2、Artificial Analysisのオープンウェイトモデル首位に
(artificialanalysis.ai)- Z aiのGLM-5.2はArtificial Analysis Intelligence Index v4.1で51点を記録し、オープンウェイトモデルの首位に立ち、コスト対性能でもPareto frontierに位置する
- モデル規模はGLM-5.1と同じ総744B / アクティブ40Bパラメータだが、スコアは11点高く、MiniMax-M3、DeepSeek V4 Pro(max)、Kimi K2.6を上回る
- 改善幅は大半の評価で見られ、とくに科学的推論分野のCritPtとHLEの伸びが目立つ
- GDPval-AA v2では1524点を記録し、MiniMax-M3とDeepSeek V4 Pro(max)を上回り、GPT-5.5(xhigh reasoning)に近い水準にある
- 1タスクあたり43k出力トークンを使うためトークン効率は低めだが、同等の知能水準のモデルの中ではタスクあたりコストは最も低い部類に入る
Intelligence Index v4.1でオープンウェイト首位
- GLM-5.2はArtificial Analysis Intelligence Index v4.1で51点を記録し、オープンウェイトモデルの中で1位となった
- 主なオープンウェイトモデルのスコアは以下の通り
- MiniMax-M3: 44
- DeepSeek V4 Pro(max): 44
- Kimi K2.6: 43
- GLM-5.2はGLM-5.1と同じ総744Bパラメータ / アクティブ40Bパラメータ規模だが、Intelligence Index v4.1のスコアは11点高い
評価別の性能向上
- GLM-5.2はGLM-5.1比で大半の評価においてスコアが上昇した
- とくに科学的推論関連の評価で改善幅が大きい
- CritPt: +16点、21%
- HLE: +12点、40%
- GPQA Diamond: +3点、89%
- 他の評価でも全体的に改善している
- AA-LCR: +9点、71%
- tau3 banking: +15点、27%
- SciCode: +7点、50%
- TerminalBench v2.1: +16点、78%
GDPval-AA v2とエージェント性能
- GLM-5.2は実世界エージェント性能指標のGDPval-AA v2で1524点を記録した
- オープンウェイトモデル比較では最高スコアとなる
- GLM-5.2: 1524
- MiniMax-M3: 1418
- DeepSeek V4 Pro(max): 1328
- この結果は**GPT-5.5(xhigh reasoning)**の1514点と実質的に同等の水準である
- GDPval-AA v2は従来のGDPval-AAから評価方式が変更された
- Elo基準線を人間の性能1000に設定
- frontier-model judgeの循環パネルを導入
- より長いエージェント軌跡を扱うため、ターン上限を100から250へ引き上げ
コスト、価格、トークン使用量
- GLM-5.2はIntelligence vs Cost per TaskチャートでPareto frontierに位置し、同じ知能水準のモデルの中ではタスクあたりコストが最も低い部類に入る
- タスクあたりコストはGLM-5.1より高いが、より高いIntelligenceスコアを踏まえるとコスト対効果の位置づけは有利
- GLM-5.2: 約$0.46
- GLM-5.1: $0.25
- Kimi K2.6: $0.31
- MiniMax-M3: $0.18
- DeepSeek V4 Pro(max): $0.05
- first-party APIの価格はGLM-5.1と同水準
- 入力トークン1Mあたり**$1.4**
- 出力トークン1Mあたり**$4.4**
- cache hitトークン1Mあたり**$0.26**
- Intelligence Indexの1タスクあたり43k出力トークンを使用し、このうち37kはreasoningトークン
- 出力トークン使用量は主要なオープンウェイトモデルより高め
- GLM-5.1: 26k
- MiniMax-M3: 24k
- Kimi K2.6: 35k
- DeepSeek V4 Pro(max): 37k
- 同等の知能水準にあるオープンウェイトモデルの中ではトークン効率は低めで、Intelligence vs Output Tokensチャートでも最も魅力的な象限には入らない
モデルの詳細とアクセシビリティ
- GLM-5.2のライセンスはMIT
- コンテキストウィンドウは1Mトークンで、GLM-5.1の200Kから増加
- Z aiのfirst-party APIと複数のthird-partyプロバイダーで利用可能
-
DeepInfra
-
Novita
-
Nebius
-
Parasail
-
Siliconflow
-
GMI Cloud
-
Baseten
- Fireworks
- GLM-5.2はAA-Omniscience Indexで4点を記録し、GLM-5.1の2点を上回る
- 正確度は**25.1%**で、GLM-5.1の24.2%より高い
- hallucination rateは**28.1%**で、GLM-5.1の29.4%より低い
- attempt rateは**47%**で同じ
- モデル比較はArtificial AnalysisのGLM-5.2ページで確認できる
-
1件のコメント
Hacker Newsの意見
かなり良い段階的な前進で、最前線にかなり近づいたように見えるが、これからは推論効率にもっと注力してほしい
LLMの評価用に、Nimで簡単な数式評価ライブラリを書かせるテストを使っているが、GLM 5.2 xhighは最初のファイルを書き始めるまでに15分以上推論し、約45kトークンを使った
https://artificialanalysis.ai/#output-tokens によると、GPT 5.5 xhighは平均総計16kトークン、highは10k、Fable 5は33k、Opus 4.8は41k、GLM 5.2は42kで、GPT 5.5の推論効率が圧倒的に優れている
実際のリクエストコストに換算すればGLM 5.2のほうがGPT 5.5/Opus 4.8より安いだろうが、多くの人にとっては速度も重要だ
妥当なトークン使用量を望むならGLM 5.2はHighで回すべきで、たいていの作業ではMaxからHighに下げても品質低下は小さく、トークン使用量は2〜2.5倍減る
要するにGLM 5.2は、はるかに安いOpus 4.8の弟分のようなモデルで、Opusモデルで学習していないなんて本当に信じがたい、という冗談まで出ている
個人的にはGLM + OpenCodeの組み合わせのほうが、会社で使わなければならないClaude Code + Opusよりずっと良く、StackOverflow的な初心者ミスもはるかに少なく、指示にもよりよく従う
ハーネスのユーザー体験も、設定を無視したり勝手に変えたり誤報告したりしないのでずっと優れており、Anthropicの堀は急速に消えつつあるように見える
結局は中断させて「まずコードを書いて、進めながら解決して」と言うことになり、作家のスランプがLLMにもあるように感じる
Artificial Analysisによると、K2.7 Codeは知能面ではK2.6と似ているが、同じ水準に到達するのに出力トークンを半分しか使わない
Artificial Analysisのcodingindexを基準にモデル順位を付けるスクリプトを作って、毎日使っている
メインの表ページからJSONを取得し、関心のあるコーディング関連フィールドだけをパースしている。以前はメーリングリストもあったが、関心が高くなかったので止めた
現在は一部の結果でClaude Fable 5、GPT-5.5 xhigh/high、Claude Opus 4.8、Gemini 3.1 Pro Preview、GLM-5.2 max、Qwen3.7 Maxなどが上位に入り、実行は
$ curl day50.dev/art-analysis.sh | bashで可能リポジトリは https://github.com/day50-dev/aa-eval-email で、現時点の公開モデルは測定方法によってはおよそ4〜7か月遅れに見える。この傾向が続けば、新年までに公開重みモデルがClaude Fable 5級の作業をこなせるようになるかもしれない
Gemma 4 31BをDeepSeek V4 Flashより高く評価しているが、両方をさまざまなコーディング作業で使ってきた立場としては、毎回DeepSeekを選ぶだろう
なぜもっと多くの人がこれを話題にしないのかわからない
実質的にOpus 4.7品質をあり得ない価格で提供していて、月50ドルで無制限トークンを提供するところもあり、公式ZAI APIより3倍安いAPI料金を取るところもある
公式ZAI APIですらOpusより約10倍安いため、Anthropic/OpenAI/Googleには大きな打撃で、その他の世界には大きな勝利だ。公開モデルでは公式APIの価格と速度がすべてではない
GLM 5.2がOpus 4.7に近いのかもしれないが、確認するたびに結局まだベンチマーク最適化ばかりでGPTやOpus級ではなかった、となるなら、「オオカミが来た」的に受け止めるようになる
モデル設定を誤っていたり、こっそり量子化していたりすることが多く、しばらくの間、公式APIのKimiと大半のサードパーティプロバイダーの間には20〜40%の差があった
3倍安いAPI料金がどこなのか気になっていたが、Croftの8ビット料金が $0.50/$0.08/$2.20 であることを確認した
https://openrouter.ai/z-ai/glm-5.2
https://ai.nahcrof.com/pricing
こうしたモデルの動かし方を突き止めるのも難しく、インストーラーもなく、本当に関心のある1%の人でなければガイドを検索して、そのガイドも古いと気づくことになる
「Claude Codeをインストールして月100ドル払う」のに比べ、学習コストが急すぎる。月50ドル節約できても、その手間に見合う意味は小さい
純粋に、エンタープライズ内の非エンジニア向けに最適化されているからだ
Artificial Analysis のコーディングベンチマークでは、GLM 5.1 high は実行コストの面で GPT 5.5 xhigh にかなり近く、GPT 5.5 medium ははるかに安価です。
GPT 5.5 medium と比べると、GLM 5.1 xhigh はコストが2倍で知能は半分程度なので、まだ GLM 5.2 がなくても埋めるべき差は大きいです。
https://artificialanalysis.ai/agents/coding-agents?coding-agents-performance-chart=deep-swe&coding-agents-harness-comparison-chart=harness-deep-swe#coding-agents-performance-chart-tabs
DeepSWE は個人的な経験ともよく一致していて、公開モデルに対するインターネット上の大騒ぎがどれほど正当なのか疑問です。
最前線に近いモデルが欲しいなら、現時点では Opus、Fable、GPT5.5 を挙げるのが正直に思えます。
https://z.ai/blog/glm-5.2
OpenAI、Google、Anthropic のサブスクリプションにはそうしたプライバシー保護の選択肢がなく、リンクを見ると GPT 5.5 が Cursor CLI では7位なのに Codex CLI では3位に上がっているのも興味深いです。
公開モデルは Codex でテストされていないので、純粋なモデルベンチマークだと断定するのは難しく、公開モデルが SWE エージェントのハーネスに弱い可能性もありますが、それが最も単純な説明というわけでもなさそうです。
その指標で見ると、GPT-5.5 は依然としてトークン効率、速度、ドル当たり知能で王者です。
https://deepswe.datacurve.ai/
Fable 5 も良いですが、まだ GPT-5.6 は見ていません。
DeepSeek V4 より簡単に4倍高くなりますが、結果がそこまで良いとは感じられず、後で GPT 5.5 in Codex で確認してみると雑な部分も多くありました。
コストパフォーマンスでは MiniMax M3 の方が優れていました。
GLM 5.1/5.2 が ビジョンモデルではない点 は意外でした。
最近ではかなり珍しく、OpenAI/Anthropic/Gemini のモデルはすべて画像を受け取れますし、Gemma 4、Qwen 3.6、Kimi 2.x のような主要な公開重み系統も画像入力をサポートしています。
GLM はウェブデザインのような作業でスコアの高いモデルなので、画像入力があればスクリーンショットを受け取って HTML+CSS を出力するのに役立つはずで、その点は明らかな穴です。
「何でもこなす1つのモデル」が必須というわけではありません。
Gemma 31B はビジョンタスクをかなりうまくこなし、1日1500リクエストなら実質ほぼ無制限に近いです。
UX/UI 作業のような用途はあるでしょうが、それ以外ではあまり必要なく、最前線のモデルでも実際の画像を複製することはできず、個人的な経験では近似できる程度です。
ビジョンモデルだったならもっと有用だったと思います。
この24時間でこのモデルをかなり使ってみて、相当に有能だということは確認できました。
ただ、やや冗長で、思考記録の中で進路を決める前に3〜4回見直すことがあり、複雑で抽象的な要求を処理する能力は GPT5.5 ほどではありません。
それでも大半の人には Z.AI サブスクリプション + 月20ドルの OpenAI サブスクリプション の組み合わせを勧められる程度で、GLM が書いて GPT がレビュー/デバッグする流れは、月200ドルプランで GPT だけを使うよりほんの少し悪いだけで、ほぼ無制限のように感じられます。
冗長なのはたぶんそのせいでしょう。
プログラミングができるなら、モデルに必要な仕事をさせるための十分な情報を与えられる段階に来たと見ています。
一方で文章作成はニュアンスが多すぎて、まだかなり難しそうですが、実際には着実に良くなっています。
1日に1回、コードを無料の Claude Sonnet にコピーして入れ、実際に読めるものにしています。
Opus 4.8 は、DeepSeek 4.0 や Kimi 2.7 が揺らいだり失敗したりする場面で成功する、より強力なコーディングエージェントであるのは確かですが、会話調の 修辞的な装飾 がだんだん鼻につき、ときには強く問い詰めるまで意図的に曖昧に話したり真実を出し惜しみしたりしているように感じられ、サブスクリプションを見直したくなります。
GLM 5.2 は、私たちがテストしたモデルの中で初めて Opus 4.6 と明確に同格か、それ以上 のモデルです。
ただし、脆弱なテスト方法論を使う他のベンチマークに比べると、私たちの評価では GLM 5.2 と大半の中国モデルをやや低めに見ています。
データは https://gertlabs.com/rankings にあります。
こうしたモデルを動かす方法自体はよく分からないが、中堅・大企業がモデルをローカルに置くためにハードウェアを買い始める時期がどれほど近いのか気になる。
高価で、最前線のモデルほど有能ではないとしても、プライバシーとコントロール権の面での利点はかなり大きい。
Kimi K2の頃から本格化してきたが、そうしたハードウェアを購入してホスティングするには時間がかかる。
すべての企業が営業秘密をOpenAIやAnthropicに送りたいわけではないし、法的に送れるとも限らない。
AlexNetのような優れたビジョンモデルが出ていた時代、とくにOCRでも企業はクラウドとGPUの自前ホスティングの間で選択しなければならなかった。
結局のところ問題は利用パターンで、特定の時間帯の業務時間に使用量が集中し、それ以外の時間にはGPUが遊んでしまう。
レイテンシに敏感な作業では何十年も続くトレードオフであり、LLM特有の問題ではない。
かなり本気度の高い中堅企業でないと難しそうだ。
ディスカバリーで膨大なテキストを検索するのに最上位モデルまでは必要ないが、完全な機密性は必要だ。
r/localllamaにはマルチGPUビルドを自慢する弁護士がかなりいて、ちょうど彼らには必要な資金もある。
「GLM-5.2は知能に対するタスクあたりコストのパレートフロンティア上にあり、同じ知能レベルのモデルの中でタスクあたりコストが最も低い」としながら、GLM-5.2はタスクあたり約$0.46で、GLM-5.1は$0.25、Kimi K2.6は$0.31、MiniMax-M3は$0.18、DeepSeek V4 Pro maxは$0.05と書かれていて、何か見落としているのかと思った。
5.2と知能指標で近い他モデルを選ぶ代わりに、もっと下位の公開モデルをいくつか選んで並べたように見える。
推論コストについては、総パラメータ数とアクティブパラメータ数のほうがよりよい指標だ。
Mythosを見て、バグベースのベンチマークにGLM 5.2を追加したが、GLM 5.1よりは良いものの、依然として複数のモデルに後れを取っており、最も直接的にはQwen 3.7 Maxと比較できそうだ。
Gemma 4やQwen 3.6のような小型で自前ホスティング可能な公開モデルも、9件中3件で同じ数のバグを見つけており、GLM 5.2は1つのバグの位置は当てたものの、バグ自体をやや誤解していて部分点にとどまった。
同じ実行で追加したKimi K2.7-codeは、2.6の性能と一貫してあまり良くなく、この特定のベンチマークでは、より良くて安いモデルがある。
https://swelljoe.com/post/will-it-mythos/
この小さなベンチマークが何かを証明するわけではないが、モデルがコード内のかなり複雑な問題を推論できるかを素早く見極めるには有用だ。