GLM-4.7-Flashモデル公開

(huggingface.co)

11 ポイント投稿者 GN⁺ 2026-01-20 | 4件のコメント | WhatsAppで共有

GLM-4.7-Flashは、30B-A3B MoE構造を持つ大規模言語モデルで、性能と効率のバランスを取った軽量デプロイ向けモデル
AIME 25、GPQA、SWE-benchなどさまざまなベンチマークテストで高得点を記録し、同クラスのモデル（Qwen3-30B/GPT-OSS-20B）と比べても競争力のある結果
30B級モデルの中で最高水準の性能を志向し、オープンソースベースのAI研究とデプロイ効率化に向けた重要な前進

紹介 (Introduction)

GLM-4.7-Flashは30B-A3B Mixture-of-Experts(MoE)モデルで、30B級モデルの中で最も強力な性能を目指す
- 性能と効率のバランスを重視した軽量デプロイオプションを提供
- 大規模モデルをより効率的に活用できる設計

ベンチマーク性能 (Performances on Benchmarks)

さまざまな標準ベンチマークテストでのGLM-4.7-Flashの性能指標を提示
- AIME 25: 91.6 (Qwen3-30B-A3B-Thinking-2507は85.0、GPT-OSS-20Bは91.7)
- GPQA: 75.2 (比較モデルより高い)
- LCB v6: 64.0
- HLE: 14.4
- SWE-bench Verified: 59.2 (他モデルと比べて大きな差)
- τ²-Bench: 79.5
- BrowseComp: 42.8
複数項目でQwen3-30B-A3B-Thinking-2507およびGPT-OSS-20Bを上回る結果を示す

ローカルデプロイ (Serve GLM-4.7-Flash Locally)

GLM-4.7-FlashはvLLMおよびSGLang推論フレームワークをサポート
- 両フレームワークともメインブランチでのみサポート
- 公式**GitHubリポジトリ(zai-org/GLM-4.5)**でデプロイ手順を確認

4件のコメント

kimjoin2 2026-01-20

30Bなら…VRAMはどれくらい必要なんでしょうか？（泣）

crawler 2026-01-21

30B A3B なので、そこまで重くはありません。
30B 分の容量は確保する必要がありますが、ひとたび容量さえ確保できれば、アクティブパラメータは 3B なので速度は速いです。

そのため、よく使うレイヤーだけを VRAM に載せる形で最適化する方法も見たことがある気がします。

geekygeek 2026-01-20

VRAM 24GB……？あるいはMacなら、RAM 32GBあれば最低ラインにはなりそうです。

GN⁺ 2026-01-20

Hacker Newsのコメント

最近 OpenCode で実験していて、32GB GPU で llama.cpp(4bit) により 30B-A3B モデルを動かしている
VRAM に余裕があるので 128k コンテキストも問題なく使える
これまでのところ Qwen3-coder が最も良い結果を出している。Nemotron 3 Nano のほうがベンチマーク上では優れているらしいが、自分が主に行う「テストコード作成」では大きな違いを感じなかった
誰かが 4bit GGUF に量子化してくれたら試してみるつもり。Codex は品質は高いが遅すぎる。小型モデルが単なるベンチマークだけでなく実際の品質でもどんどん良くなってほしい
- GLM-4.7-GGUF モデルを勧める。ほかの良い量子化版は 0xSero でも確認できる
- Codex はたいていより高品質だが、ときどき AIスロップ レベルの結果を出して、かえって Opus なら数分で終わる作業を長く待たされることがある
自分は z.ai のコーディングプランで GLM-4.7 を使っているが、価格性能比は驚くほど高い
claude-code と opencode を併用しているが、最近は opencode のほうをより多く使っている。claude-code は Anthropic モデル向けに最適化されているためだ
今回のリリースは「-Flash」版で、以前の 4.5-Flash から 4.6-Flash を飛ばしてそのまま上がってきた。ドキュメントによると Haiku と同等のモデルで、ANTHROPIC_DEFAULT_HAIKU_MODEL に指定されている
- 最近の性能がどうなのか気になる。一部ユーザーからは制限が変わってほとんど使えなくなったと聞いた
- 自分も同じプランを使っている。プロモーションで 12か月 $28 で購入し、Claude Pro の 5倍の使用量 がある。今は claude code だけ使っている
GLM-4.7 は漸進的な改善だが、かなり堅実に見える。UI oneshot デモ は 4.6 よりかなり良くなっていた
オープンモデルは依然としてベンチマークでは約1年遅れているが、長期的には興味深い
GLM は 355B パラメータのうち 31B しかアクティブでないため self-host は難しいが、Cerebras エンドポイント で使う候補としては悪くないと思う
- 昨日 Cerebras で GLM-4.7（Flash ではない）を $10 クレジットで試した。毎秒1000トークンで速いが、rate limit のせいで実用には不便。キャッシュ済みトークンも制限に含まれるため、毎分の前半で止められて待たされる
  キャッシュ済みトークンにも課金されるので、単純な作業1件で $4 使った。GPT-5.2-Codex なら $0.5 もかからなかったはずだ
- ベンチマークの話は多いが、実際のワークロードとは違う。自分は claude をやめて minimax m2.1 に移行した。open code と一緒に使ってみるとむしろこちらのほうが気に入っている。$10 プランで十分だ
- オープンモデルは結局 distillation で追いかける構造なので、革新がない限り常に遅れ続けるだろう。「追いつく」というよりトラックにぶら下がったトレーラーのようなものだ
- UI デモでモデル品質を判断するのは不適切だ。UI が分布外なら大半は失敗する。Codex ですら完璧ではない
LMStudio で M4 MacBook Pro 上で動かしてみたが、gpt-oss-20b よりかなり悪かった
2回のコードプロンプトの両方で誤ったコードと無限ループを生成した。LMStudio の量子化方式の問題かもしれないが、第一印象は良くない
- BF16 のフルモデル を使っているのか、それとも mlx4 量子化 版なのか気になる
すでにローカルで動かしている人たちに聞きたい — 今いちばん簡単なセットアップ（ツール + 量子化フォーマット）は何だろう？動くコマンド例があれば共有してほしい
- 自分は llama.cpp の CUDA バックエンドでコンパイルした llama-server を使っている。Lubuntu + RTX 3090 環境で Q4_K_M quant 版を動かしている
  関連リンク: llama.cpp releases, GLM-4.7-Flash-GGUF, supported backends
```
llama-server -ngl 999 --ctx-size 32768 -m GLM-4.7-Flash-Q4_K_M.gguf
```
  その後 http://127.0.0.1:8080 でチャットするか、OpenAI 互換 API でアクセスできる
  ただし新モデル公開直後はバグがあるかもしれないので、数日後のアップデートを勧める
- ollama run hf.co/ngxson/GLM-4.7-Flash-GGUF:Q4_K_M コマンドでも実行できる。速度は速いが、テンプレートがまだ完成していないため出力が崩れる。ollama.com に正式テンプレートが載るのを待っている
- LM Studio で「4.7-flash」を検索して mlx コミュニティ版をインストールすればよい
- 個人的には llama.cpp 4bit quant かそのラッパーを勧める
今回のリリース説明によると、
「GLM-4.7-Flash は 軽量・高効率モデル で、GLM-4.7 の無料版であり、コーディング・推論・生成タスクで低レイテンシと高スループットを提供する。
翻訳、ロールプレイ、美的生成などでも強力な性能を示す。」
詳細は公式リリースノートを参照
- 今年投稿された2件のノートが誤って 2025年 と表示されている。手作業で作られたページなのかもしれない
このリリースがなぜ重要なのか知りたい人向けに言うと、
いまや MacBook 32GB RAM でも GPT-5-mini 級の AI をローカルで動かせる
また LLM-as-a-service のコストも大幅に安くなっており、Haiku 4.5 の 1/10 の価格 水準だ
SWE-bench Verified スコアが 59.2 で、30B モデルとしてはかなり印象的だ。Qwen3-Coder 480B の 55.4 より高い
- Devstral 2 Small(24B) は 68.0% でさらに高い。公式リンク
- ただし SWE-Bench Verified はもはや信用しづらい。リポジトリと言語が限定されており、データ暗記の問題 もある。SWE-Bench Pro のほうが有望だが完璧ではない
自分は高速な作業が必要なときは Gemini や Cerebras を使う。Cerebras ブログ参照
GLM 4.7 は日常用途には十分だが、指示理解力 が不足していることがあり、そこがもどかしい
- 自分にとって Opus 4.5 が良いのも、まさにその 指示処理能力 のためだ。次のバージョンで改善されることを願う
GLM 4.7 が GPT-OSS-20B と比較されているのはあまり信用できない。Sonnet 4/4.5 級なら Flash 版が GPT-OSS-120B を圧倒すべきだと思う。Aider の結果 も一緒に出してほしい
- 30-A3B が 117-A5.1B を上回ると期待するのは欲張りすぎだ。ただ エージェント呼び出し の面では GPT-20B より優れているようだ
- 実際に使ってみるとベンチマークは誇張気味だ。単純な作業には十分だが Sonnet には遠く及ばない。それでも コストパフォーマンス は良い
- コード品質の基準で見ると Sonnet 3.5 レベルだ。Sonnet 4/4.5 とは隔たりがある