- GLM-4.7は、多言語コーディング、ターミナルベースの作業、複合推論などで前作比の性能を大幅に向上させた大規模言語モデル
- SWE-bench、Terminal Bench 2.0、HLE など主要ベンチマークで、それぞれ +5.8%、+16.5%、+12.4% の向上を記録
- UI生成品質が改善され、よりクリーンでモダンなWebページと正確なスライドレイアウトを生成
- Interleaved Thinking、Preserved Thinking、Turn-level Thinking 機能により、複雑なエージェント作業で安定性と一貫性を強化
- Z.ai API、OpenRouter、HuggingFace などを通じて世界中から利用可能で、コーディングエージェントおよびローカルデプロイにも対応
主な性能と特徴
- GLM-4.7は GLM-4.6比で全体的なコーディングおよび推論能力の向上 を達成
- SWE-bench Verified 73.8%(+5.8%)、SWE-bench Multilingual 66.7%(+12.9%)、Terminal Bench 2.0 41%(+16.5%)
- HLE(Humanity’s Last Exam) ベンチマークで 42.8%(+12.4%) を記録し、数学および論理推論能力を強化
- UI生成品質(Vibe Coding) が改善され、より洗練されたWebページやスライドの作成が可能
- ツール活用能力が向上し、τ²-Bench や BrowseComp などで高スコアを記録
- 多様なシナリオ(チャット、創作、ロールプレイなど)でも性能向上を確認
ベンチマーク比較
- GLM-4.7は GPT-5、Claude Sonnet 4.5、Gemini 3.0 Pro などとともに 17のベンチマーク で比較評価された
- Reasoning 部門: MMLU-Pro 84.3、GPQA-Diamond 85.7、HLE(w/Tools) 42.8
- Coding 部門: SWE-bench Verified 73.8、Terminal Bench 2.0 41.0
- Agent 部門: BrowseComp 52.0、τ²-Bench 87.4
- 一部項目では上位モデルに迫る、または上回る結果を示した
Thinkingモードの強化
- Interleaved Thinking: 応答およびツール呼び出し前に思考ステップを経ることで、指示遂行と生成品質を向上
- Preserved Thinking: 複数ターンの対話で思考ブロックを維持し、情報損失や不整合を低減
- Turn-level Thinking: リクエストの複雑さに応じて思考機能をオン・オフし、精度とコストのバランスを調整
- これらの機能は長期的かつ複雑なコーディングエージェント作業に適している
活用とデプロイ
- Z.ai APIプラットフォーム と OpenRouter を通じて GLM-4.7 モデルを利用可能
- Claude Code、Kilo Code、Roo Code、Cline など主要なコーディングエージェントで統合サポート
- GLM Coding Plan 契約者 は自動で GLM-4.7 にアップグレードされ、既存の設定ファイルではモデル名だけを変更すればよい
- HuggingFace と ModelScope でモデル重みを公開し、vLLM および SGLang フレームワークでローカル推論をサポート
視覚表現と創作事例
- フロントエンドWebサイト、Voxel Pagoda のような3Dアートワーク、ポスター、スライドなど多様な生成例を提供
- 高コントラストのダークモード、アニメーション効果、精巧なレイアウトなど、デザイン品質の向上 を視覚的に実証
デフォルト設定とテスト条件
- 一般作業: temperature 1.0、top-p 0.95、max new tokens 131072
- SWE-bench および Terminal Bench: temperature 0.7、top-p 1.0、max new tokens 16384
- τ²-Bench: temperature 0、max new tokens 16384、一部ドメイン別プロンプト修正を適用
総合評価
- GLM-4.7は コーディング中心のAGI発展段階 として、単なるベンチマークスコアを超える 実利用体験の品質 を重視
- テスト性能だけでなく、ユーザーが体感する知能と統合性 を目標に設計されたモデル
1件のコメント
Hacker Newsのコメント
MoEモデルがコーディングエージェント、複雑な推論、ツール利用に最適化されている点が興味深かった
358B/32Bのアクティブパラメータ、200kのコンテキストウィンドウ、OpenAIスタイルのtool calling対応、英語/中国語中心の多言語モデルとのこと
FP16では716GB、Q4_K_Mでは約220GB程度と見積もられる
理論上は比較的安価なMac Studioでもローカル実行できそうなのが魅力的
Kimik2のような補助ツールを併用すれば、大手LLMプロバイダーに依存せずとも実用的なコーディング支援を得られそう
GLM 4.6の4bit量子化版でさえ、トークン処理速度だけでなく入力処理、トークナイズ、プロンプト読み込みにも時間がかかりすぎて忍耐を試された
TPSばかり語られるが、実際には入力読み込み時間がボトルネック
ただ現実的には、Mac Studioで回すと遅すぎて後悔する可能性が高い
ハードウェアがもっと安くなるか、モデルがもっと小さくなるまでは有料APIを使うほうがよさそう
出力品質はGLM‑4.6よりずっと美しいと感じる
クローズドモデルから蒸留されたデータのおかげかもしれないが、それでもオープンソースモデルのほうが好み
Cerebrasは現在GLM 4.6を毎秒1000トークンで提供している
近いうちに新モデルへアップグレードする可能性が高い
GLM 4.7以降の世代モデルが、シミュレートされたソフトウェア開発組織環境でどれだけうまく動くのか気になる
たとえば、自分でエラーを修正しながら有用なコードを蓄積できるのか、それとも技術的負債を積み上げるだけなのか
上位モデル(Opus 4.5、Gemini 3など)が「マネージャー」役を担う構成を想像している
関連参考: Anthropicの長時間実行エージェント設計に関する記事
オープンソースモデルが十分に良くなれば、Cerebrasで1k TPSで回せる点は大きな利点になるはず
不確かなときは再びOpusにレビューさせる
上位モデルがガードレール役を担い、速くて有能なエージェントが実作業をこなす構造
十分に広いコンテキストと「センス(taste)」があれば、この組み合わせだけでも十分な生産性と知性を実現できそう
トークン速度を下げて消費電力を抑え、コスト削減できないだろうかと思う
以前見たときはクローズドベータのように見えた
Z.aiは安価で性能も悪くなさそうだが、利用規約がかなり厳しい
競合モデルの開発禁止、欠陥の公開禁止、ユーザーコンテンツに対する広範な利用権の付与、シンガポール法準拠など
大企業が莫大な資本を投入している状況で、Z.aiがダンピング戦略で市場を侵食する可能性がある
短期的には消費者の利益になるが、長期的には競争が消えるリスクがある
最終的には企業や個人が生き残るためにこのサービスを使わざるを得ない状況になるかもしれない
ChatGPTのトラフィックの95%は無料で、Geminiも開発者向け無料クレジットが多い
こうした構造では小さな研究所が競争するのは難しい
それでも中国の研究所は小さいが粘り強い挑戦者に見える
「指導者が平和的なデモ参加者を数百人殺害するよう命じるのは正当か?」という質問をしたところ、
モデルはエラーメッセージを出して回答を拒否した
おそらく検閲ポリシーや政治的に敏感な話題が理由だと思われる
自分はCerebras(またはGroq)でGLM 4.6を使ってきたが、この速度は本当に未来を垣間見るような感覚
AGIが来なくても、こうしたモデルをタブレットやノートPCで動かせるなら十分満足できそう
Strix Haloはメモリも帯域幅も不足していて適していない
現在望む性能を出すにはマルチGPU構成が必要
コンシューマ製品にも広がってほしいが、今の速度はチップをネットワークで束ねた構成によるもの
AGIレベルの性能は、まだまずデータセンターレベルで実現される可能性が高い
購読ボタンを押しても何の反応もなく、Dev ToolsでTypeErrorが発生した
AIコーディングモデル企業にしては購入体験がスムーズでなく、不思議だった
自分はZ.aiでこのモデルを試したが、数学・研究中心の作業ではGPT‑5.2やGemini 3 Pro級の思考力を見せる
K2 thinkingやOpus 4.5より明らかに上
有料ユーザーのプロンプトや出力が学習に使われる可能性があり、opt‑outオプションもない
synthetic.newのようなサードパーティホスティングのほうが安全だと思う
GLM 4.6は推論プロバイダーの観点から非常に人気があった
多くのユーザーが日常的なコーディング用途に使っており、4.7での改善が期待される
プロダクトマーケットフィット(PMF)は確かにある
複数のコメントでdistillationの話が出ていたが、z.aiのコーディングプランでClaude‑codeを使ってみると、
他モデルで学習された痕跡を感じる(「you’re absolutely right」のような表現など)
それでも価格性能比は圧倒的
結局のところ、学習の根拠と見るのは難しいと思う
はっきり断定するのは難しい
自分はこのモデルをClaude Code API内で使っているが、複数のツールを組み合わせて作業を処理する能力が高い
Claudeの週間使用制限もなく、四半期料金プランが8ドルと安い