GLM-5公開：複雑なシステムエンジニアリングと長期エージェント作業を目指すモデル

(z.ai)

6 ポイント投稿者 GN⁺ 2026-02-12 | 4件のコメント | WhatsAppで共有

人工知能の効率性と長期的な作業遂行能力を強化した大規模言語モデル
前世代比で**パラメータ7,440億個（アクティブ400億）**へ拡張され、事前学習データは28.5兆トークンに増加
DeepSeek Sparse Attention(DSA) の統合により、長いコンテキスト処理能力を維持しながらデプロイコストを削減
新たな**非同期強化学習インフラ「slime」**を通じて学習効率を高め、さまざまなベンチマークで最高水準の性能を記録
オープンソースとして公開され、Hugging Face、ModelScope、Z.aiプラットフォームなどで利用でき、Claude CodeおよびOpenClawと互換性あり

GLM-5概要

GLM-5は複雑なシステムエンジニアリングと長期エージェント作業の実行を目的に設計されたモデル
- GLM-4.5比でパラメータが3,550億（アクティブ320億）から7,440億（アクティブ400億）へ増加
- 事前学習データは23兆から28.5兆トークンへ拡大
DeepSeek Sparse Attention(DSA) を統合し、長いコンテキスト処理能力を維持しつつデプロイコストを大幅に削減
slimeという非同期強化学習インフラを導入し、学習スループットと効率を向上、きめ細かな事後学習の反復が可能

性能向上とベンチマーク結果

GLM-5はGLM-4.7比で全体的な性能向上を示し、Claude Opus 4.5水準に近づく
内部評価セットCC-Bench-V2でフロントエンド、バックエンド、長期作業のすべてで優れた結果
Vending Bench 2でオープンソースモデル中1位を記録し、1年間の自動販売機ビジネスシミュレーションで最終残高4,432ドルを達成
推論、コーディング、エージェント作業全般で世界最高水準のオープンソース性能を保有
- 例：SWE-bench Verified 77.8点、BrowseComp 62.0点、τ²-Bench 89.7点など
GPT-5.2、Gemini 3.0 Proなど上位モデルとの差を縮小

オープンソース公開と利用経路

GLM-5はMITライセンスで公開され、Hugging FaceとModelScopeからモデル重みをダウンロード可能
Z.ai、BigModel.cn、api.z.aiなどでAPIとして利用可能
Claude CodeおよびOpenClawと互換性があり、さまざまな開発環境で統合利用可能
Z.aiプラットフォームでは無料体験を提供

オフィスおよび文書生成機能

GLM-5は「チャットから仕事へ」の転換を志向し、知識労働者とエンジニア向けのオフィスツールとして機能
テキストやソース資料を直接**.docx、.pdf、.xlsx**形式に変換し、PRD、試験問題、財務報告書、メニューなどの完成文書を生成
Z.aiアプリケーションはPDF/Word/Excel生成をサポートするAgentモードを提供し、複数ターンの協業が可能

開発者およびデプロイ支援

GLM Coding Plan加入者は段階的にGLM-5へアクセス可能
- Max料金プラン利用者は即時に"GLM-5"モデル名で有効化可能
- GLM-5リクエストはGLM-4.7より多くのクォータを消費
GUI環境を好むユーザー向けにZ Codeエージェント開発環境を提供
OpenClawフレームワークを通じて、GLM-5をアプリやデバイス全体で動作する個人秘書型エージェントとして活用可能

ローカルデプロイとハードウェア互換性

GLM-5はvLLM、SGLangなどの推論フレームワークをサポートし、公式GitHubでデプロイ手順を提供
NVIDIA以外のチップセット（Huawei Ascend、Moore Threads、Cambricon、Kunlun、MetaX、Enflame、Hygonなど）でも実行可能
- カーネル最適化とモデル量子化により、妥当なスループットを確保

4件のコメント

GN⁺ 2026-02-12

Hacker News のコメント

Pelican が OpenRouter 経由で生成された結果を見た
鳥自体はしっかりした鳥のように見えるが、自転車フレームとしては微妙
関連リンク
- Simon が維持している唯一まともに意味のあるベンチマークシステムに感謝
  Pelican 自転車テストの文脈はこちらで見られる
- これこそ本当に重要なテストだと思う、Simon に乾杯
- もう Pelican ベンチマークは時代遅れだと感じる
  SVG はすでにどこにでもあるので、もっと現実的な新しいシナリオが必要
- このテストができる前には、Pelican の自転車 SVG はいくつあったのだろうかと気になる
  こうした結果が学習データを汚染しているのではないかと心配になる
- 羽のない鳥を「しっかりした鳥」と呼ぶのは、AI 期待ギャップを象徴する例だと思う
  AI が自分で「水かきが必要だ」と言いながら、実際の画像にはない点が興味深い
  MMLU や AIME のように 90% の正確さを「解決済みの問題」とみなす姿勢が不安だ
  本当の AGI なら100% の正確さを達成すべきなのに、私たちは簡単に満足しすぎている
今後はグレー市場の distillation ベース高速コピーが不可避だと思う
昔は N-1、N-2 モデルには魅力がないだろうと思っていたが、今ではユーザー選好すら飽和状態なので、それでも十分満足されそうだ
Opus 4.5 は確かに飛躍だったが、4.6 は自分のワークフローを変えるほどではなかった
結局、「人類史上最大の窃盗」の次には「最大の因果応報」が来る気がする
ユーザーたちは、中国製 AI が米国ビッグテックから盗んだという事実をまったく気にしないだろう
- LLM 企業が学習データ利用を正当化するなら、distiller が LLM 出力を学習するのも同じ理屈で合法であるべきだ
  「人間のように学んだだけなのになぜ違法なのか」という主張が可能だ
- distillation を防ぐことの方がむしろ違法であるべきだ
  何千もの AI 生成コンテンツサイトを作り、各投稿にプロンプトとモデル情報を公開すればよい
  他の者がそれを「偶然」クロールして学習に使う構造だ
- Opus 4.6 は長い作業の持続性が際立っている
  以前より 2 倍は遠くまで行ける感覚で、もう戻りたくない
- ただしトークン消費量が多すぎて、効率の面では後退だと感じる
最近のベンチマークは印象的だが、比較対象が旧世代モデル（Opus 4.5、GPT-5.2）だ
最近の公開モデルはベンチマークスコアは高いが、実際の使用感は期待以下であることが多い
benchmaxxing は確実に存在する
- オープンウェイトモデルへの批判はあまりに攻撃的に感じる
  20 個のベンチマークを回すのも簡単ではないし、新世代モデルが出てからまだ 5 日しか経っていない
  多くの開発者がクローズドモデル崇拝に陥っていて、他のモデル群では同じプロンプトが通用しないことを知らない
  GLM-4.7 をよく使うが Sonnet 4.5 レベルで、GLM-5 はおそらく Opus 4.5 級だと思う
- GLM-4.7 が 4.5 や 5.2 レベルなら、それ自体がとてつもない飛躍だ
- 最近のモデルは結局トークン生成器にすぎないと感じる
  ブラインドテストをしたら見分けがつかないほど似ている
  Claude と ChatGPT の回答を比べてもほとんど同じだ
  結局、たいていの用途ではToyota 級モデルで十分だ
- 問題は RLHF（人間のフィードバックによる強化学習）の限界だ
  アルゴリズム革新は可能でも、人間データ生成コストが高すぎてスケールしない
  オープンソースモデルはいまだに構文エラーが多く、フロンティアモデルはそうした問題をほぼ解決している
- Anthropic、OpenAI、Google は実ユーザーデータでモデルを改善しているが
  中国の研究所はベンチマーク中心なので差が出る
  セルフホスティングと継続的改善は両立しにくい
中国オープンソースのおかげでセルフホストできる知能を持てるようになりそうだ
コスト面では非効率だが、インターネット接続なしでも独立して運用できる点が気に入っている
結局、macOS が大型モデルをローカルで動かせる唯一の消費者向け選択肢だ
- 自分はClaude Max の購読上限を頻繁に超えるので、2x RTX3090 と Qwen3 量子化モデルでしのいでいる
  プライバシーと可用性の面でもセルフホスティングには価値がある
  特に米国のデジタル規制が厳しくなるのに備えて代替手段が必要だ
- オープンウェイトモデルだとしても学習データと検閲基準は依然として非公開だ
  それでもファインチューニングでバイアスを修正できる点は利点だ
- 128GB VRAM のStrix Halo マシンが約 3,000 ドル程度で、かなりまともなモデルをローカルで動かせる
  GPT-OSS 120GB、Qwen Coder Next 80B、Step 3.5 Flash などを勧める
  1〜2 年以内には消費者向けハードウェアでも512GB 級モデルを動かせるようになると期待している
- macOS の代わりにLinux のヘッドレス推論ボックスを家に置くのも良いアイデアだ
  ホームネットワーク回帰だ
- 自分は直接ホスティングよりも、ホスティングのコモディティ化の方が重要だと思う
  いつでも供給者を切り替えられる自由こそが核心だ
GLM-4.7 を数週間使ってみたが Sonnet と似たレベルだ
ただし、より明確な指示が必要だ
大きな作業は依然として Anthropic 系を使うが、小さく明確な作業には GLM がコスパ最強だ
- 自分も似た経験だ
  GLM-4.7 は放っておくと不要に世界を作りたがる傾向がある
  ただ、小さな作業では Sonnet と似ていて、価格も非常に安いので補助モデルとして有用だ
- 自分はここ 6〜8 か月 Sonnet ばかり使ってきたが、Opus はトークン爆食いバグがよく起きる
  オープンモデルがあと 6 か月ほど進化すれば乗り換えるつもりだ
MiniMax M2.5 も今日から Chat UI で使える
GLM の方がコーディングには向いているが、MiniMax は速度とツール呼び出し能力のおかげで日常作業でよく使っている
OpenRouter で新モデルが公開された
個人ベンチマークでは指示追従能力がかなり弱かった
chat.md + mcps フォーマットに従うテストだが、うまく実行できなかった
- カスタムツール呼び出しフォーマットはモデルごとに異なる形で学習されているので、一貫性の確保が難しいと感じる
  他のフロンティアモデルではどんな結果だったのか気になる
- chat.md のアイデアが気に入った
  自分も vim キーバインディングベースのテキストエディタを作っていたところで、このアプローチはUI の着想になるかもしれない
  不要なテキストを折りたたむ機能を追加してみようと思う
- 問題はOpenRouter のプロバイダー品質かもしれない
  ときどき性能が悪いことがある
- OpenRouter はしばしば量子化モデルをホスティングしていて品質が落ちる
  可能なら元のプロバイダーを直接使う方がいい
GLM-4.7-Flash は、初めてローカルコーディングに使える知的なモデルだと感じた
Claude 4.5 Haiku に近いレベルで、推論過程が透明なのでなぜその判断に至ったのか把握できる
Devstral 2 Small や Qwen-Coder-Next よりずっと良い
- minimax-m.2 もかなり近いレベルだ
GLM 4.7 を opencode で使っている
最高ではないが、寛大な利用上限のおかげで一日中使える
まだ新モデルへのアクセスは制限されているが、期待している
opencode で新モデルを少し使ってみたが、かなり印象的だ
大幅な革新ではないが、4.7 よりは確実に改善している
記憶力と長期作業の安定性が目立って良くなっていた

jinifor 2026-02-12

サブスクリプション料金が上がりましたね。

princox 2026-02-13

初回登録時にもらえた50%割引がなくなりました..

fanotify 2026-02-12

Max基準の初回超割引価格が年間360ドルだったのに、672ドルになりましたね……