11 ポイント 投稿者 GN⁺ 2026-01-20 | 4件のコメント | WhatsAppで共有
  • GLM-4.7-Flashは、30B-A3B MoE構造を持つ大規模言語モデルで、性能と効率のバランスを取った軽量デプロイ向けモデル
  • AIME 25、GPQA、SWE-benchなどさまざまなベンチマークテストで高得点を記録し、同クラスのモデル(Qwen3-30B/GPT-OSS-20B)と比べても競争力のある結果
  • 30B級モデルの中で最高水準の性能を志向し、オープンソースベースのAI研究とデプロイ効率化に向けた重要な前進

紹介 (Introduction)

  • GLM-4.7-Flashは30B-A3B Mixture-of-Experts(MoE)モデルで、30B級モデルの中で最も強力な性能を目指す
    • 性能と効率のバランスを重視した軽量デプロイオプションを提供
    • 大規模モデルをより効率的に活用できる設計

ベンチマーク性能 (Performances on Benchmarks)

  • さまざまな標準ベンチマークテストでのGLM-4.7-Flashの性能指標を提示
    • AIME 25: 91.6 (Qwen3-30B-A3B-Thinking-2507は85.0、GPT-OSS-20Bは91.7)
    • GPQA: 75.2 (比較モデルより高い)
    • LCB v6: 64.0
    • HLE: 14.4
    • SWE-bench Verified: 59.2 (他モデルと比べて大きな差)
    • τ²-Bench: 79.5
    • BrowseComp: 42.8
  • 複数項目でQwen3-30B-A3B-Thinking-2507およびGPT-OSS-20Bを上回る結果を示す

ローカルデプロイ (Serve GLM-4.7-Flash Locally)

  • GLM-4.7-FlashはvLLMおよびSGLang推論フレームワークをサポート

4件のコメント

 
kimjoin2 2026-01-20

30Bなら…VRAMはどれくらい必要なんでしょうか?(泣)

 
crawler 2026-01-21

30B A3B なので、そこまで重くはありません。
30B 分の容量は確保する必要がありますが、ひとたび容量さえ確保できれば、アクティブパラメータは 3B なので速度は速いです。

そのため、よく使うレイヤーだけを VRAM に載せる形で最適化する方法も見たことがある気がします。

 
geekygeek 2026-01-20

VRAM 24GB……? あるいはMacなら、RAM 32GBあれば最低ラインにはなりそうです。

 
GN⁺ 2026-01-20
Hacker Newsのコメント
  • 最近 OpenCode で実験していて、32GB GPU で llama.cpp(4bit) により 30B-A3B モデルを動かしている
    VRAM に余裕があるので 128k コンテキストも問題なく使える
    これまでのところ Qwen3-coder が最も良い結果を出している。Nemotron 3 Nano のほうがベンチマーク上では優れているらしいが、自分が主に行う「テストコード作成」では大きな違いを感じなかった
    誰かが 4bit GGUF に量子化してくれたら試してみるつもり。Codex は品質は高いが遅すぎる。小型モデルが単なるベンチマークだけでなく実際の品質でもどんどん良くなってほしい
    • GLM-4.7-GGUF モデルを勧める。ほかの良い量子化版は 0xSero でも確認できる
    • Codex はたいていより高品質だが、ときどき AIスロップ レベルの結果を出して、かえって Opus なら数分で終わる作業を長く待たされることがある
  • 自分は z.ai のコーディングプランで GLM-4.7 を使っているが、価格性能比は驚くほど高い
    claude-code と opencode を併用しているが、最近は opencode のほうをより多く使っている。claude-code は Anthropic モデル向けに最適化されているためだ
    今回のリリースは「-Flash」版で、以前の 4.5-Flash から 4.6-Flash を飛ばしてそのまま上がってきた。ドキュメントによると Haiku と同等のモデルで、ANTHROPIC_DEFAULT_HAIKU_MODEL に指定されている
    • 最近の性能がどうなのか気になる。一部ユーザーからは制限が変わってほとんど使えなくなったと聞いた
    • 自分も同じプランを使っている。プロモーションで 12か月 $28 で購入し、Claude Pro の 5倍の使用量 がある。今は claude code だけ使っている
  • GLM-4.7 は漸進的な改善だが、かなり堅実に見える。UI oneshot デモ は 4.6 よりかなり良くなっていた
    オープンモデルは依然としてベンチマークでは約1年遅れているが、長期的には興味深い
    GLM は 355B パラメータのうち 31B しかアクティブでないため self-host は難しいが、Cerebras エンドポイント で使う候補としては悪くないと思う
    • 昨日 Cerebras で GLM-4.7(Flash ではない)を $10 クレジットで試した。毎秒1000トークンで速いが、rate limit のせいで実用には不便。キャッシュ済みトークンも制限に含まれるため、毎分の前半で止められて待たされる
      キャッシュ済みトークンにも課金されるので、単純な作業1件で $4 使った。GPT-5.2-Codex なら $0.5 もかからなかったはずだ
    • ベンチマークの話は多いが、実際のワークロードとは違う。自分は claude をやめて minimax m2.1 に移行した。open code と一緒に使ってみるとむしろこちらのほうが気に入っている。$10 プランで十分だ
    • オープンモデルは結局 distillation で追いかける構造なので、革新がない限り常に遅れ続けるだろう。「追いつく」というよりトラックにぶら下がったトレーラーのようなものだ
    • UI デモでモデル品質を判断するのは不適切だ。UI が分布外なら大半は失敗する。Codex ですら完璧ではない
  • LMStudio で M4 MacBook Pro 上で動かしてみたが、gpt-oss-20b よりかなり悪かった
    2回のコードプロンプトの両方で誤ったコードと無限ループを生成した。LMStudio の量子化方式の問題かもしれないが、第一印象は良くない
    • BF16 のフルモデル を使っているのか、それとも mlx4 量子化 版なのか気になる
  • すでにローカルで動かしている人たちに聞きたい — 今いちばん簡単なセットアップ(ツール + 量子化フォーマット)は何だろう? 動くコマンド例があれば共有してほしい
    • 自分は llama.cpp の CUDA バックエンドでコンパイルした llama-server を使っている。Lubuntu + RTX 3090 環境で Q4_K_M quant 版を動かしている
      関連リンク: llama.cpp releases, GLM-4.7-Flash-GGUF, supported backends
      llama-server -ngl 999 --ctx-size 32768 -m GLM-4.7-Flash-Q4_K_M.gguf
      
      その後 http://127.0.0.1:8080 でチャットするか、OpenAI 互換 API でアクセスできる
      ただし新モデル公開直後は バグ があるかもしれないので、数日後のアップデートを勧める
    • ollama run hf.co/ngxson/GLM-4.7-Flash-GGUF:Q4_K_M コマンドでも実行できる。速度は速いが、テンプレートがまだ完成していないため出力が崩れる。ollama.com に正式テンプレートが載るのを待っている
    • LM Studio で「4.7-flash」を検索して mlx コミュニティ版をインストールすればよい
    • 個人的には llama.cpp 4bit quant かそのラッパーを勧める
  • 今回のリリース説明によると、
    「GLM-4.7-Flash は 軽量・高効率モデル で、GLM-4.7 の無料版であり、コーディング・推論・生成タスクで低レイテンシと高スループットを提供する。
    翻訳、ロールプレイ、美的生成などでも強力な性能を示す。」
    詳細は 公式リリースノート を参照
    • 今年投稿された2件のノートが誤って 2025年 と表示されている。手作業で作られたページなのかもしれない
  • このリリースがなぜ重要なのか知りたい人向けに言うと、
    いまや MacBook 32GB RAM でも GPT-5-mini 級の AI をローカルで動かせる
    また LLM-as-a-service のコストも大幅に安くなっており、Haiku 4.5 の 1/10 の価格 水準だ
  • SWE-bench Verified スコアが 59.2 で、30B モデルとしてはかなり印象的だ。Qwen3-Coder 480B の 55.4 より高い
    • Devstral 2 Small(24B) は 68.0% でさらに高い。公式リンク
    • ただし SWE-Bench Verified はもはや信用しづらい。リポジトリと言語が限定されており、データ暗記の問題 もある。SWE-Bench Pro のほうが有望だが完璧ではない
  • 自分は高速な作業が必要なときは GeminiCerebras を使う。Cerebras ブログ 参照
    GLM 4.7 は日常用途には十分だが、指示理解力 が不足していることがあり、そこがもどかしい
    • 自分にとって Opus 4.5 が良いのも、まさにその 指示処理能力 のためだ。次のバージョンで改善されることを願う
  • GLM 4.7 が GPT-OSS-20B と比較されているのはあまり信用できない。Sonnet 4/4.5 級なら Flash 版が GPT-OSS-120B を圧倒すべきだと思う。Aider の結果 も一緒に出してほしい
    • 30-A3B が 117-A5.1B を上回ると期待するのは欲張りすぎだ。ただ エージェント呼び出し の面では GPT-20B より優れているようだ
    • 実際に使ってみるとベンチマークは誇張気味だ。単純な作業には十分だが Sonnet には遠く及ばない。それでも コストパフォーマンス は良い
    • コード品質の基準で見ると Sonnet 3.5 レベルだ。Sonnet 4/4.5 とは隔たりがある