- 人工知能の効率性と長期的な作業遂行能力を強化した大規模言語モデル
- 前世代比で**パラメータ7,440億個(アクティブ400億)**へ拡張され、事前学習データは28.5兆トークンに増加
- DeepSeek Sparse Attention(DSA) の統合により、長いコンテキスト処理能力を維持しながらデプロイコストを削減
- 新たな**非同期強化学習インフラ「slime」**を通じて学習効率を高め、さまざまなベンチマークで最高水準の性能を記録
- オープンソースとして公開され、Hugging Face、ModelScope、Z.aiプラットフォームなどで利用でき、Claude CodeおよびOpenClawと互換性あり
GLM-5概要
- GLM-5は複雑なシステムエンジニアリングと長期エージェント作業の実行を目的に設計されたモデル
- GLM-4.5比でパラメータが3,550億(アクティブ320億)から7,440億(アクティブ400億)へ増加
- 事前学習データは23兆から28.5兆トークンへ拡大
- DeepSeek Sparse Attention(DSA) を統合し、長いコンテキスト処理能力を維持しつつデプロイコストを大幅に削減
- slimeという非同期強化学習インフラを導入し、学習スループットと効率を向上、きめ細かな事後学習の反復が可能
性能向上とベンチマーク結果
- GLM-5はGLM-4.7比で全体的な性能向上を示し、Claude Opus 4.5水準に近づく
- 内部評価セットCC-Bench-V2でフロントエンド、バックエンド、長期作業のすべてで優れた結果
- Vending Bench 2でオープンソースモデル中1位を記録し、1年間の自動販売機ビジネスシミュレーションで最終残高4,432ドルを達成
- 推論、コーディング、エージェント作業全般で世界最高水準のオープンソース性能を保有
- 例:SWE-bench Verified 77.8点、BrowseComp 62.0点、τ²-Bench 89.7点 など
- GPT-5.2、Gemini 3.0 Proなど上位モデルとの差を縮小
オープンソース公開と利用経路
- GLM-5はMITライセンスで公開され、Hugging FaceとModelScopeからモデル重みをダウンロード可能
- Z.ai、BigModel.cn、api.z.aiなどでAPIとして利用可能
- Claude CodeおよびOpenClawと互換性があり、さまざまな開発環境で統合利用可能
- Z.aiプラットフォームでは無料体験を提供
オフィスおよび文書生成機能
- GLM-5は「チャットから仕事へ」の転換を志向し、知識労働者とエンジニア向けのオフィスツールとして機能
- テキストやソース資料を直接**.docx、.pdf、.xlsx**形式に変換し、PRD、試験問題、財務報告書、メニューなどの完成文書を生成
- Z.aiアプリケーションはPDF/Word/Excel生成をサポートするAgentモードを提供し、複数ターンの協業が可能
開発者およびデプロイ支援
- GLM Coding Plan加入者は段階的にGLM-5へアクセス可能
- Max料金プラン利用者は即時に
"GLM-5"モデル名で有効化可能
- GLM-5リクエストはGLM-4.7より多くのクォータを消費
- GUI環境を好むユーザー向けにZ Codeエージェント開発環境を提供
- OpenClawフレームワークを通じて、GLM-5をアプリやデバイス全体で動作する個人秘書型エージェントとして活用可能
ローカルデプロイとハードウェア互換性
- GLM-5はvLLM、SGLangなどの推論フレームワークをサポートし、公式GitHubでデプロイ手順を提供
- NVIDIA以外のチップセット(Huawei Ascend、Moore Threads、Cambricon、Kunlun、MetaX、Enflame、Hygonなど)でも実行可能
- カーネル最適化とモデル量子化により、妥当なスループットを確保
4件のコメント
Hacker News のコメント
Pelican が OpenRouter 経由で生成された結果を見た
鳥自体はしっかりした鳥のように見えるが、自転車フレームとしては微妙
関連リンク
Pelican 自転車テストの文脈はこちらで見られる
SVG はすでにどこにでもあるので、もっと現実的な新しいシナリオが必要
こうした結果が学習データを汚染しているのではないかと心配になる
AI が自分で「水かきが必要だ」と言いながら、実際の画像にはない点が興味深い
MMLU や AIME のように 90% の正確さを「解決済みの問題」とみなす姿勢が不安だ
本当の AGI なら100% の正確さを達成すべきなのに、私たちは簡単に満足しすぎている
今後はグレー市場の distillation ベース高速コピーが不可避だと思う
昔は N-1、N-2 モデルには魅力がないだろうと思っていたが、今ではユーザー選好すら飽和状態なので、それでも十分満足されそうだ
Opus 4.5 は確かに飛躍だったが、4.6 は自分のワークフローを変えるほどではなかった
結局、「人類史上最大の窃盗」の次には「最大の因果応報」が来る気がする
ユーザーたちは、中国製 AI が米国ビッグテックから盗んだという事実をまったく気にしないだろう
「人間のように学んだだけなのになぜ違法なのか」という主張が可能だ
何千もの AI 生成コンテンツサイトを作り、各投稿にプロンプトとモデル情報を公開すればよい
他の者がそれを「偶然」クロールして学習に使う構造だ
以前より 2 倍は遠くまで行ける感覚で、もう戻りたくない
最近のベンチマークは印象的だが、比較対象が旧世代モデル(Opus 4.5、GPT-5.2)だ
最近の公開モデルはベンチマークスコアは高いが、実際の使用感は期待以下であることが多い
benchmaxxing は確実に存在する
20 個のベンチマークを回すのも簡単ではないし、新世代モデルが出てからまだ 5 日しか経っていない
多くの開発者がクローズドモデル崇拝に陥っていて、他のモデル群では同じプロンプトが通用しないことを知らない
GLM-4.7 をよく使うが Sonnet 4.5 レベルで、GLM-5 はおそらく Opus 4.5 級だと思う
ブラインドテストをしたら見分けがつかないほど似ている
Claude と ChatGPT の回答を比べてもほとんど同じだ
結局、たいていの用途ではToyota 級モデルで十分だ
アルゴリズム革新は可能でも、人間データ生成コストが高すぎてスケールしない
オープンソースモデルはいまだに構文エラーが多く、フロンティアモデルはそうした問題をほぼ解決している
中国の研究所はベンチマーク中心なので差が出る
セルフホスティングと継続的改善は両立しにくい
中国オープンソースのおかげでセルフホストできる知能を持てるようになりそうだ
コスト面では非効率だが、インターネット接続なしでも独立して運用できる点が気に入っている
結局、macOS が大型モデルをローカルで動かせる唯一の消費者向け選択肢だ
プライバシーと可用性の面でもセルフホスティングには価値がある
特に米国のデジタル規制が厳しくなるのに備えて代替手段が必要だ
それでもファインチューニングでバイアスを修正できる点は利点だ
GPT-OSS 120GB、Qwen Coder Next 80B、Step 3.5 Flash などを勧める
1〜2 年以内には消費者向けハードウェアでも512GB 級モデルを動かせるようになると期待している
ホームネットワーク回帰だ
いつでも供給者を切り替えられる自由こそが核心だ
GLM-4.7 を数週間使ってみたが Sonnet と似たレベルだ
ただし、より明確な指示が必要だ
大きな作業は依然として Anthropic 系を使うが、小さく明確な作業には GLM がコスパ最強だ
GLM-4.7 は放っておくと不要に世界を作りたがる傾向がある
ただ、小さな作業では Sonnet と似ていて、価格も非常に安いので補助モデルとして有用だ
オープンモデルがあと 6 か月ほど進化すれば乗り換えるつもりだ
MiniMax M2.5 も今日から Chat UI で使える
GLM の方がコーディングには向いているが、MiniMax は速度とツール呼び出し能力のおかげで日常作業でよく使っている
OpenRouter で新モデルが公開された
個人ベンチマークでは指示追従能力がかなり弱かった
chat.md + mcps フォーマットに従うテストだが、うまく実行できなかった
他のフロンティアモデルではどんな結果だったのか気になる
自分も vim キーバインディングベースのテキストエディタを作っていたところで、このアプローチはUI の着想になるかもしれない
不要なテキストを折りたたむ機能を追加してみようと思う
ときどき性能が悪いことがある
可能なら元のプロバイダーを直接使う方がいい
GLM-4.7-Flash は、初めてローカルコーディングに使える知的なモデルだと感じた
Claude 4.5 Haiku に近いレベルで、推論過程が透明なのでなぜその判断に至ったのか把握できる
Devstral 2 Small や Qwen-Coder-Next よりずっと良い
GLM 4.7 を opencode で使っている
最高ではないが、寛大な利用上限のおかげで一日中使える
まだ新モデルへのアクセスは制限されているが、期待している
opencode で新モデルを少し使ってみたが、かなり印象的だ
大幅な革新ではないが、4.7 よりは確実に改善している
記憶力と長期作業の安定性が目立って良くなっていた
サブスクリプション料金が上がりましたね。
初回登録時にもらえた50%割引がなくなりました..
Max基準の初回超割引価格が年間360ドルだったのに、672ドルになりましたね……