- Nano Banana Pro級の性能を示すAlibabaの画像生成モデルで、Apache 2.0ライセンスのオープンソース
- Single-Stream Diffusion Transformerに基づく60億パラメータの効率的な画像生成モデル
- 3つのバージョンで構成され、Z-Image-Turboはわずか8ステップの推論で競合モデル級の品質を達成し、16GB VRAM環境でも動作
- Z-Image-Editは自然言語指示に基づく画像編集機能を提供し、Z-Image-Baseはコミュニティのファインチューニング向け基本モデルとして公開予定
- モデルはS3-DiTアーキテクチャを採用し、テキスト・視覚・VAEトークンを単一シーケンスに統合して、パラメータ効率を最大化
- Decoupled-DMDとDMDRアルゴリズムにより、少ないステップでも高品質な画像を生成し、オープンソースモデル中で最高水準の性能を記録
Z-Image 概要
- Z-Imageは効率性と性能を兼ね備えた基盤画像生成モデルで、単一ストリーム拡散トランスフォーマー構造を使用
- 60億パラメータを基盤とし、Z-Image-Turbo、Z-Image-Base、Z-Image-Editの3つの派生モデルを提供
- Z-Image-Turbo: 8回の関数評価(NFE)だけで高品質画像を生成し、H800 GPUで1秒未満の推論レイテンシ
- Z-Image-Base: 非蒸留型の基本モデルで、コミュニティ主導のファインチューニングおよびカスタム開発を支援
- Z-Image-Edit: 画像編集向けに特化したバージョンで、自然言語ベースの画像変換機能を提供
主な機能と性能
- Z-Image-Turboは写真レベルのリアルな画像と英語・中国語のバイリンガルテキストレンダリングを正確に実行
- Prompt Enhancer機能により、推論能力と世界知識に基づく描写能力を強化
- Z-Image-Editは創造的な画像変換と正確な指示理解をサポート
- Alibaba AI ArenaのEloベースの人間選好評価でオープンソースモデル中で最高水準の性能を記録
モデルアーキテクチャ (S3-DiT)
- **Scalable Single-Stream DiT(S3-DiT)**構造を採用
- テキスト、視覚意味トークン、画像VAEトークンを1つのシーケンスに結合
- 従来の二重ストリーム構造に比べてパラメータ効率を最大化
- この構造により、テキスト・画像統合表現学習が可能
中核アルゴリズム
-
Decoupled-DMD
- Decoupled-DMDは、Z-Imageの8ステップ推論を可能にする中核蒸留アルゴリズム
- 従来のDMD(Distribution Matching Distillation)を**CFG増強(CA)と分布整合(DM)**の2つのメカニズムに分離
- CAは蒸留過程の主要エンジンの役割を担う
- DMは出力安定性と品質維持のための正則化の役割
- 2つのメカニズムを分離・最適化することで、少ないステップでも高性能な画像生成を実現
-
DMDR
- **DMDR(Distribution Matching Distillation with Reinforcement Learning)は、DMDと強化学習(RL)**を組み合わせた後処理手法
- RLがDMDの性能を最大化し、DMDがRLを正則化する相互補完構造
- これにより、意味整合性、美的品質、構造的一貫性を向上させ、高周波ディテール表現力を強化
コミュニティとエコシステム支援
- Cache-DiT: DBCache、Context Parallelism、Tensor Parallelismによる推論高速化支援
- stable-diffusion.cpp: C++ベースのエンジンで、4GB VRAM環境でもZ-Imageを実行可能
- LeMiCa: 学習不要でタイムステップレベルの推論高速化を提供
- ComfyUI ZImageLatent: 公式解像度向けの簡便なlatentインターフェースを提供
要約
- Z-Imageは、効率的な構造(S3-DiT)と革新的な蒸留手法(Decoupled-DMD、DMDR)を組み合わせた高性能オープンソース画像生成モデル
- Z-Image-Turboは高速推論と高品質を両立し、コンシューマー向けGPUでも実行可能
- Z-Image-Editは自然言語ベースの精密な画像編集をサポート
- Alibaba AI Arenaでオープンソースモデル中最高水準の人間選好スコアを記録
- Z-Imageエコシステムは多様なコミュニティプロジェクトと統合され、汎用的な生成モデルプラットフォームへと拡大中
3件のコメント
ローカルでの画像生成は本当に長い間sdxlにとどまっていましたが、良いベースモデルが出てきたようなので期待しています。
何より、Stable diffusionが有名になるにつれて検閲が厳しくなり、学習が難しくなるほどでしたが、検閲がない点も本当にすごいですね
気になって試してみました。検閲がないので、鋭い刃物になり得るなと…
Hacker Newsのコメント
先週 Z-Image Turbo を試してみた
6Bパラメータでこの結果が出るのは驚くべき進歩
最近のPretrainedポッドキャストでこのモデルが取り上げられていた
公式デモPDFを見ると、女性の単独写真が50枚近くある一方、男性の単独写真はわずか2枚しかない
実際に使ってみた感想は期待外れだった
Z-Imageは Stable Diffusion 1.5の真の後継 と評価されている
Framework Desktopで試したところ、ComfyUIが40ステップあたりで amdgpuカーネルエラー を起こしたため、自分で回避コードを書いた
16GiBにこれほどの 世界知識 が入っているのは驚き
しかしこのモデルも 中国の検閲 の影響を受けている
AI初心者として、24GBのMacBookで動かせるのか気になった