- GLM-4.7-Flashは、30B-A3B MoE構造を持つ大規模言語モデルで、性能と効率のバランスを取った軽量デプロイ向けモデル
- AIME 25、GPQA、SWE-benchなどさまざまなベンチマークテストで高得点を記録し、同クラスのモデル(Qwen3-30B/GPT-OSS-20B)と比べても競争力のある結果
- 30B級モデルの中で最高水準の性能を志向し、オープンソースベースのAI研究とデプロイ効率化に向けた重要な前進
紹介 (Introduction)
- GLM-4.7-Flashは30B-A3B Mixture-of-Experts(MoE)モデルで、30B級モデルの中で最も強力な性能を目指す
- 性能と効率のバランスを重視した軽量デプロイオプションを提供
- 大規模モデルをより効率的に活用できる設計
ベンチマーク性能 (Performances on Benchmarks)
- さまざまな標準ベンチマークテストでのGLM-4.7-Flashの性能指標を提示
- AIME 25: 91.6 (Qwen3-30B-A3B-Thinking-2507は85.0、GPT-OSS-20Bは91.7)
- GPQA: 75.2 (比較モデルより高い)
- LCB v6: 64.0
- HLE: 14.4
- SWE-bench Verified: 59.2 (他モデルと比べて大きな差)
- τ²-Bench: 79.5
- BrowseComp: 42.8
- 複数項目でQwen3-30B-A3B-Thinking-2507およびGPT-OSS-20Bを上回る結果を示す
ローカルデプロイ (Serve GLM-4.7-Flash Locally)
- GLM-4.7-FlashはvLLMおよびSGLang推論フレームワークをサポート
4件のコメント
30Bなら…VRAMはどれくらい必要なんでしょうか?(泣)
30B A3B なので、そこまで重くはありません。
30B 分の容量は確保する必要がありますが、ひとたび容量さえ確保できれば、アクティブパラメータは 3B なので速度は速いです。
そのため、よく使うレイヤーだけを VRAM に載せる形で最適化する方法も見たことがある気がします。
VRAM 24GB……? あるいはMacなら、RAM 32GBあれば最低ラインにはなりそうです。
Hacker Newsのコメント
VRAM に余裕があるので 128k コンテキストも問題なく使える
これまでのところ Qwen3-coder が最も良い結果を出している。Nemotron 3 Nano のほうがベンチマーク上では優れているらしいが、自分が主に行う「テストコード作成」では大きな違いを感じなかった
誰かが 4bit GGUF に量子化してくれたら試してみるつもり。Codex は品質は高いが遅すぎる。小型モデルが単なるベンチマークだけでなく実際の品質でもどんどん良くなってほしい
claude-code と opencode を併用しているが、最近は opencode のほうをより多く使っている。claude-code は Anthropic モデル向けに最適化されているためだ
今回のリリースは「-Flash」版で、以前の 4.5-Flash から 4.6-Flash を飛ばしてそのまま上がってきた。ドキュメントによると Haiku と同等のモデルで、
ANTHROPIC_DEFAULT_HAIKU_MODELに指定されているオープンモデルは依然としてベンチマークでは約1年遅れているが、長期的には興味深い
GLM は 355B パラメータのうち 31B しかアクティブでないため self-host は難しいが、Cerebras エンドポイント で使う候補としては悪くないと思う
キャッシュ済みトークンにも課金されるので、単純な作業1件で $4 使った。GPT-5.2-Codex なら $0.5 もかからなかったはずだ
2回のコードプロンプトの両方で誤ったコードと無限ループを生成した。LMStudio の量子化方式の問題かもしれないが、第一印象は良くない
関連リンク: llama.cpp releases, GLM-4.7-Flash-GGUF, supported backends その後 http://127.0.0.1:8080 でチャットするか、OpenAI 互換 API でアクセスできる
ただし新モデル公開直後は バグ があるかもしれないので、数日後のアップデートを勧める
ollama run hf.co/ngxson/GLM-4.7-Flash-GGUF:Q4_K_Mコマンドでも実行できる。速度は速いが、テンプレートがまだ完成していないため出力が崩れる。ollama.com に正式テンプレートが載るのを待っている「GLM-4.7-Flash は 軽量・高効率モデル で、GLM-4.7 の無料版であり、コーディング・推論・生成タスクで低レイテンシと高スループットを提供する。
翻訳、ロールプレイ、美的生成などでも強力な性能を示す。」
詳細は 公式リリースノート を参照
いまや MacBook 32GB RAM でも GPT-5-mini 級の AI をローカルで動かせる
また LLM-as-a-service のコストも大幅に安くなっており、Haiku 4.5 の 1/10 の価格 水準だ
GLM 4.7 は日常用途には十分だが、指示理解力 が不足していることがあり、そこがもどかしい