Z-Image - 強力で効率的な画像生成モデル

(github.com/Tongyi-MAI)

23 ポイント投稿者 GN⁺ 2025-12-08 | 3件のコメント | WhatsAppで共有

Nano Banana Pro級の性能を示すAlibabaの画像生成モデルで、Apache 2.0ライセンスのオープンソース
Single-Stream Diffusion Transformerに基づく60億パラメータの効率的な画像生成モデル
3つのバージョンで構成され、Z-Image-Turboはわずか8ステップの推論で競合モデル級の品質を達成し、16GB VRAM環境でも動作
Z-Image-Editは自然言語指示に基づく画像編集機能を提供し、Z-Image-Baseはコミュニティのファインチューニング向け基本モデルとして公開予定
モデルはS3-DiTアーキテクチャを採用し、テキスト・視覚・VAEトークンを単一シーケンスに統合して、パラメータ効率を最大化
Decoupled-DMDとDMDRアルゴリズムにより、少ないステップでも高品質な画像を生成し、オープンソースモデル中で最高水準の性能を記録

Z-Image 概要

Z-Imageは効率性と性能を兼ね備えた基盤画像生成モデルで、単一ストリーム拡散トランスフォーマー構造を使用
60億パラメータを基盤とし、Z-Image-Turbo、Z-Image-Base、Z-Image-Editの3つの派生モデルを提供
- Z-Image-Turbo: 8回の関数評価(NFE)だけで高品質画像を生成し、H800 GPUで1秒未満の推論レイテンシ
- Z-Image-Base: 非蒸留型の基本モデルで、コミュニティ主導のファインチューニングおよびカスタム開発を支援
- Z-Image-Edit: 画像編集向けに特化したバージョンで、自然言語ベースの画像変換機能を提供

主な機能と性能

Z-Image-Turboは写真レベルのリアルな画像と英語・中国語のバイリンガルテキストレンダリングを正確に実行
Prompt Enhancer機能により、推論能力と世界知識に基づく描写能力を強化
Z-Image-Editは創造的な画像変換と正確な指示理解をサポート
Alibaba AI ArenaのEloベースの人間選好評価でオープンソースモデル中で最高水準の性能を記録

モデルアーキテクチャ (S3-DiT)

**Scalable Single-Stream DiT(S3-DiT)**構造を採用
- テキスト、視覚意味トークン、画像VAEトークンを1つのシーケンスに結合
- 従来の二重ストリーム構造に比べてパラメータ効率を最大化
この構造により、テキスト・画像統合表現学習が可能

中核アルゴリズム

Decoupled-DMD
- Decoupled-DMDは、Z-Imageの8ステップ推論を可能にする中核蒸留アルゴリズム
- 従来のDMD(Distribution Matching Distillation)を**CFG増強(CA)と分布整合(DM)**の2つのメカニズムに分離
  - CAは蒸留過程の主要エンジンの役割を担う
  - DMは出力安定性と品質維持のための正則化の役割
- 2つのメカニズムを分離・最適化することで、少ないステップでも高性能な画像生成を実現
DMDR
- **DMDR(Distribution Matching Distillation with Reinforcement Learning)は、DMDと強化学習(RL)**を組み合わせた後処理手法
- RLがDMDの性能を最大化し、DMDがRLを正則化する相互補完構造
- これにより、意味整合性、美的品質、構造的一貫性を向上させ、高周波ディテール表現力を強化

コミュニティとエコシステム支援

Cache-DiT: DBCache、Context Parallelism、Tensor Parallelismによる推論高速化支援
stable-diffusion.cpp: C++ベースのエンジンで、4GB VRAM環境でもZ-Imageを実行可能
LeMiCa: 学習不要でタイムステップレベルの推論高速化を提供
ComfyUI ZImageLatent: 公式解像度向けの簡便なlatentインターフェースを提供

要約

Z-Imageは、効率的な構造(S3-DiT)と革新的な蒸留手法(Decoupled-DMD、DMDR)を組み合わせた高性能オープンソース画像生成モデル
Z-Image-Turboは高速推論と高品質を両立し、コンシューマー向けGPUでも実行可能
Z-Image-Editは自然言語ベースの精密な画像編集をサポート
Alibaba AI Arenaでオープンソースモデル中最高水準の人間選好スコアを記録
Z-Imageエコシステムは多様なコミュニティプロジェクトと統合され、汎用的な生成モデルプラットフォームへと拡大中

3件のコメント

crawler 2025-12-09

ローカルでの画像生成は本当に長い間sdxlにとどまっていましたが、良いベースモデルが出てきたようなので期待しています。
何より、Stable diffusionが有名になるにつれて検閲が厳しくなり、学習が難しくなるほどでしたが、検閲がない点も本当にすごいですね

wedding 2025-12-08

気になって試してみました。検閲がないので、鋭い刃物になり得るなと…

GN⁺ 2025-12-08

Hacker Newsのコメント

先週 Z-Image Turbo を試してみた
- RTX 4090では約3秒と非常に高速で、1536x1024〜2048x2048の解像度でも画像の 一貫性維持 が驚くほど高い
- 6Bパラメータのモデルとしては精度が印象的
- Qwen-Image 20bの生成結果を後処理するrefinerとして特に効果的。Qwenはプロンプト理解は優れているが、画像がなめらかにぼやける傾向がある
- テストサンプル
- RTX 4090基準では3秒だが、M1 Ultraでは1ステップあたり8秒、基本の9ステップなら1分以上かかる
- Apple Siliconが 非言語モデル の処理でどれほど遅れているかを実感する
- fal.aiでは1秒未満で生成可能。LoRAを組み合わせれば3秒以内に パーソナライズ画像 を生成できる
- seedream、nanobananaなどと比べてもトップ5に入るほど 速度と品質の組み合わせ が強力
- ただしテスト中は4件中2件しか通らず、たとえばKitKatバーは形状もロゴもまったく異なり、DNA armorもただの金属素材として表現された
- GitHubリンクにタイプミス（gitub）があり、悪意あるサイトに誘導されるため注意が必要
- 中国が オープンウェイトAIエコシステム を事実上支えている。今後コンシューマー向けGPU市場が存続するとすれば、それは中国のおかげかもしれない
6Bパラメータでこの結果が出るのは驚くべき進歩
- コミュニティはこのモデルを素早く受け入れており、Flux(2)はほぼ忘れられた状態
- Z-Imageは 無検閲モデル なので、さらに人気を集めている。一方でFlux 2の開発元BFLは、プレスリリースのかなりの部分を「安全性」（つまり検閲）の強調に割いていた
- ただしその「安全性」はモデル自体よりオンラインサービスのポリシーに関するものだった。実際には制限なく生成できる
- 「安全性」への言及は、実質的には投資家に対して「我々は あなたを困らせません」というメッセージにすぎない
- 「ロボトマイズする（lobotomizing）」という表現が興味深い。画像生成モデルにそれを適用するとはどういう意味なのか気になる
- ただしこのモデルが 中国製 なら、習近平の画像は生成できないかもしれない
最近のPretrainedポッドキャストでこのモデルが取り上げられていた
- テキストエンコーディングとセマンティックトークンに既存のバックボーンを再利用し、効率的な構造 を持つ
- さまざまな長さの 合成キャプションデータ で学習されており、テキスト理解力が高い
- 画像内OCRテキストを学習に含めることでテキスト生成品質が向上している。Nano Banana Proも似た方式で進化した
公式デモPDFを見ると、女性の単独写真が50枚近くある一方、男性の単独写真はわずか2枚しかない
- 開発者が想定する ターゲット市場 は明確
- 実際、civitaiのようなサイトを見ると、ユーザー生成画像やLoRAの大半がその市場を反映している
- こうした技術は結局 若い男性層の欲望 によって主導されている
- r/stablediffusionコミュニティの反応を見ると、Flux 2は事実上終わったようだ。知識量はずっと多いが、Z-Imageのほうが人気がある
- 興味深いことに、男性モデルの1人は修正なしで トニー・レオン（Tony Leung） そのものになっている
- モデルが 無検閲状態 なので、その市場により適していそうだ
実際に使ってみた感想は期待外れだった
- 見た目は悪くないが、実際には プロンプト追従性 が低く、「most cultures」のような文句は漫画風の画像に変わってしまった
Z-Imageは Stable Diffusion 1.5の真の後継 と評価されている
- 品質、拡張性、ローカル実行のしやすさがいずれも向上しており、エコシステムも急速に形成されつつある
- ただ、SDXLを忘れていないかと聞きたい。発売はわずか2年半前だった
Framework Desktopで試したところ、ComfyUIが40ステップあたりで amdgpuカーネルエラー を起こしたため、自分で回避コードを書いた
- LoRAでそこそこ良い結果が出ており、8ステップ（15〜20秒）だけでも十分見栄えのする画像を生成できる
- llama.cppベースの プロンプト強化ノード を作って品質を高めた
16GiBにこれほどの 世界知識 が入っているのは驚き
- まだ初期段階だが、今後はローカルAIがより パーソナライズされ、ハック可能 な方向へ進化していくだろう
- Nano Bananaのような 知能モデル中心の未来 が来ると思う
- モデルに直接制御レイヤーを注入できてこそ、本当の活用が可能になる
- いつかNano Banana Pro級のモデルがローカルでも動くようになることを期待している
しかしこのモデルも 中国の検閲 の影響を受けている
- 「Tank Man」や「Lady Liberty Hong Kong」を求めると、「Maybe Not Safe」という文言しか出力されない
AI初心者として、24GBのMacBookで動かせるのか気になった
- 実際にはM5 MacBook Proで1枚の生成に399秒かかり、その間システムが固まった
- replicate.comでは1枚1.5秒、1000枚あたり1ドル程度なので、はるかに効率的
- Macでのローカル実行は非効率 という結論
- 初心者ならmacOS向けComfyUIが最も簡単。Z-Imageワークフローを読み込めば自動でモデルをインストールして実行できる
- Linux、Windows、Macのいずれでも koboldcpp で動かす方法もある。設定ファイルを読み込めば、ローカルサーバー（http://localhost:5001/sdui）ですぐ使える