7 ポイント 投稿者 GN⁺ 2025-12-23 | 1件のコメント | WhatsAppで共有
  • GLM-4.7は、多言語コーディング、ターミナルベースの作業、複合推論などで前作比の性能を大幅に向上させた大規模言語モデル
  • SWE-benchTerminal Bench 2.0HLE など主要ベンチマークで、それぞれ +5.8%、+16.5%、+12.4% の向上を記録
  • UI生成品質が改善され、よりクリーンでモダンなWebページと正確なスライドレイアウトを生成
  • Interleaved ThinkingPreserved ThinkingTurn-level Thinking 機能により、複雑なエージェント作業で安定性と一貫性を強化
  • Z.ai APIOpenRouterHuggingFace などを通じて世界中から利用可能で、コーディングエージェントおよびローカルデプロイにも対応

主な性能と特徴

  • GLM-4.7は GLM-4.6比で全体的なコーディングおよび推論能力の向上 を達成
    • SWE-bench Verified 73.8%(+5.8%)、SWE-bench Multilingual 66.7%(+12.9%)、Terminal Bench 2.0 41%(+16.5%)
    • HLE(Humanity’s Last Exam) ベンチマークで 42.8%(+12.4%) を記録し、数学および論理推論能力を強化
  • UI生成品質(Vibe Coding) が改善され、より洗練されたWebページやスライドの作成が可能
  • ツール活用能力が向上し、τ²-Bench や BrowseComp などで高スコアを記録
  • 多様なシナリオ(チャット、創作、ロールプレイなど)でも性能向上を確認

ベンチマーク比較

  • GLM-4.7は GPT-5、Claude Sonnet 4.5、Gemini 3.0 Pro などとともに 17のベンチマーク で比較評価された
    • Reasoning 部門: MMLU-Pro 84.3、GPQA-Diamond 85.7、HLE(w/Tools) 42.8
    • Coding 部門: SWE-bench Verified 73.8、Terminal Bench 2.0 41.0
    • Agent 部門: BrowseComp 52.0、τ²-Bench 87.4
  • 一部項目では上位モデルに迫る、または上回る結果を示した

Thinkingモードの強化

  • Interleaved Thinking: 応答およびツール呼び出し前に思考ステップを経ることで、指示遂行と生成品質を向上
  • Preserved Thinking: 複数ターンの対話で思考ブロックを維持し、情報損失や不整合を低減
  • Turn-level Thinking: リクエストの複雑さに応じて思考機能をオン・オフし、精度とコストのバランスを調整
  • これらの機能は長期的かつ複雑なコーディングエージェント作業に適している

活用とデプロイ

  • Z.ai APIプラットフォームOpenRouter を通じて GLM-4.7 モデルを利用可能
  • Claude CodeKilo CodeRoo CodeCline など主要なコーディングエージェントで統合サポート
  • GLM Coding Plan 契約者 は自動で GLM-4.7 にアップグレードされ、既存の設定ファイルではモデル名だけを変更すればよい
  • HuggingFaceModelScope でモデル重みを公開し、vLLM および SGLang フレームワークでローカル推論をサポート

視覚表現と創作事例

  • フロントエンドWebサイト、Voxel Pagoda のような3Dアートワーク、ポスター、スライドなど多様な生成例を提供
  • 高コントラストのダークモード、アニメーション効果、精巧なレイアウトなど、デザイン品質の向上 を視覚的に実証

デフォルト設定とテスト条件

  • 一般作業: temperature 1.0、top-p 0.95、max new tokens 131072
  • SWE-bench および Terminal Bench: temperature 0.7、top-p 1.0、max new tokens 16384
  • τ²-Bench: temperature 0、max new tokens 16384、一部ドメイン別プロンプト修正を適用

総合評価

  • GLM-4.7は コーディング中心のAGI発展段階 として、単なるベンチマークスコアを超える 実利用体験の品質 を重視
  • テスト性能だけでなく、ユーザーが体感する知能と統合性 を目標に設計されたモデル

1件のコメント

 
GN⁺ 2025-12-23
Hacker Newsのコメント
  • MoEモデルがコーディングエージェント、複雑な推論、ツール利用に最適化されている点が興味深かった
    358B/32Bのアクティブパラメータ、200kのコンテキストウィンドウ、OpenAIスタイルのtool calling対応、英語/中国語中心の多言語モデルとのこと
    FP16では716GB、Q4_K_Mでは約220GB程度と見積もられる
    理論上は比較的安価なMac Studioでもローカル実行できそうなのが魅力的
    Kimik2のような補助ツールを併用すれば、大手LLMプロバイダーに依存せずとも実用的なコーディング支援を得られそう

    • 中古のMac Studio Ultra M1 (RAM 128GB) でLLMを動かしてみたが、あまりに遅かった
      GLM 4.6の4bit量子化版でさえ、トークン処理速度だけでなく入力処理、トークナイズ、プロンプト読み込みにも時間がかかりすぎて忍耐を試された
      TPSばかり語られるが、実際には入力読み込み時間がボトルネック
    • OpenAIスタイルのtool callingなら、Harmonyベースである可能性が高いと思う
      ただ現実的には、Mac Studioで回すと遅すぎて後悔する可能性が高い
      ハードウェアがもっと安くなるか、モデルがもっと小さくなるまでは有料APIを使うほうがよさそう
    • 昔の誰かがこのコメントを見たら信じられないだろうと思う
    • Sonnetのバージョンは4.5に修正すべき
      出力品質はGLM‑4.6よりずっと美しいと感じる
      クローズドモデルから蒸留されたデータのおかげかもしれないが、それでもオープンソースモデルのほうが好み
    • Strix Haloシステム2台(合計256GB RAM) をUSB4/TB3で接続して、このモデルを動かしてみる予定
  • Cerebrasは現在GLM 4.6を毎秒1000トークンで提供している
    近いうちに新モデルへアップグレードする可能性が高い
    GLM 4.7以降の世代モデルが、シミュレートされたソフトウェア開発組織環境でどれだけうまく動くのか気になる
    たとえば、自分でエラーを修正しながら有用なコードを蓄積できるのか、それとも技術的負債を積み上げるだけなのか
    上位モデル(Opus 4.5、Gemini 3など)が「マネージャー」役を担う構成を想像している
    関連参考: Anthropicの長時間実行エージェント設計に関する記事
    オープンソースモデルが十分に良くなれば、Cerebrasで1k TPSで回せる点は大きな利点になるはず

    • 自分はOpusに詳細な計画とテストを書かせ、Cerebras GLM 4.6に実装させている
      不確かなときは再びOpusにレビューさせる
    • 自分も同じ方向に進化すると思う
      上位モデルがガードレール役を担い、速くて有能なエージェントが実作業をこなす構造
      十分に広いコンテキストと「センス(taste)」があれば、この組み合わせだけでも十分な生産性と知性を実現できそう
    • CerebrasのAPI価格が気になる
      トークン速度を下げて消費電力を抑え、コスト削減できないだろうかと思う
    • Cerebrasの有料顧客になるのが簡単なのか気になる
      以前見たときはクローズドベータのように見えた
  • Z.aiは安価で性能も悪くなさそうだが、利用規約がかなり厳しい
    競合モデルの開発禁止、欠陥の公開禁止、ユーザーコンテンツに対する広範な利用権の付与、シンガポール法準拠など
    大企業が莫大な資本を投入している状況で、Z.aiがダンピング戦略で市場を侵食する可能性がある
    短期的には消費者の利益になるが、長期的には競争が消えるリスクがある
    最終的には企業や個人が生き残るためにこのサービスを使わざるを得ない状況になるかもしれない

    • 巨大資本こそがイノベーションへの最大の脅威だと思う
      ChatGPTのトラフィックの95%は無料で、Geminiも開発者向け無料クレジットが多い
      こうした構造では小さな研究所が競争するのは難しい
      それでも中国の研究所は小さいが粘り強い挑戦者に見える
  • 「指導者が平和的なデモ参加者を数百人殺害するよう命じるのは正当か?」という質問をしたところ、
    モデルはエラーメッセージを出して回答を拒否した
    おそらく検閲ポリシーや政治的に敏感な話題が理由だと思われる

  • 自分はCerebras(またはGroq)でGLM 4.6を使ってきたが、この速度は本当に未来を垣間見るような感覚
    AGIが来なくても、こうしたモデルをタブレットやノートPCで動かせるなら十分満足できそう

    • Apple M5 Maxはプロンプト処理と帯域幅が改善され、8bit(約360GB)量子化モデルも問題なく動かせると見ている
      Strix Haloはメモリも帯域幅も不足していて適していない
      現在望む性能を出すにはマルチGPU構成が必要
    • CerebrasとGroqが速いのは独自のチップ設計のおかげ
      コンシューマ製品にも広がってほしいが、今の速度はチップをネットワークで束ねた構成によるもの
      AGIレベルの性能は、まだまずデータセンターレベルで実現される可能性が高い
  • 購読ボタンを押しても何の反応もなく、Dev ToolsでTypeErrorが発生した
    AIコーディングモデル企業にしては購入体験がスムーズでなく、不思議だった

    • 先にアカウントを作るとSubscribeボタンが機能した
  • 自分はZ.aiでこのモデルを試したが、数学・研究中心の作業ではGPT‑5.2やGemini 3 Pro級の思考力を見せる
    K2 thinkingやOpus 4.5より明らかに上

    • ただしZ.aiのサブスクリプションは業務用途には非推奨
      有料ユーザーのプロンプトや出力が学習に使われる可能性があり、opt‑outオプションもない
      synthetic.newのようなサードパーティホスティングのほうが安全だと思う
  • GLM 4.6は推論プロバイダーの観点から非常に人気があった
    多くのユーザーが日常的なコーディング用途に使っており、4.7での改善が期待される
    プロダクトマーケットフィット(PMF)は確かにある

  • 複数のコメントでdistillationの話が出ていたが、z.aiのコーディングプランでClaude‑codeを使ってみると、
    他モデルで学習された痕跡を感じる(「you’re absolutely right」のような表現など)
    それでも価格性能比は圧倒的

    • 自分も今日Gemini 3 Flashが同じ表現を使っていた
      結局のところ、学習の根拠と見るのは難しいと思う
    • インターネット上のデータが似た形に収束した可能性もある
      はっきり断定するのは難しい
  • 自分はこのモデルをClaude Code API内で使っているが、複数のツールを組み合わせて作業を処理する能力が高い
    Claudeの週間使用制限もなく、四半期料金プランが8ドルと安い

    • Claude Codeで普段はClaudeモデルを使い、使用上限に達したらGLMモデルに切り替えることができるのか気になる