Z-Image の推論を20〜30%高速化する ComfyUI カスタムノード
(github.com/newgrit1004)こんにちは。前回の Qwen3-TTS Triton カーネル最適化プロジェクトに寄せていただいた関心に後押しされ、2つ目のオープンソースプロジェクトを作成して共有します。
HuggingFace で月間360万回以上のダウンロードを記録している人気画像生成モデル Z-Image S3-DiT (6.15B) の推論を20〜30%高速化する ComfyUI カスタムノードです。
1. なぜ作ったのか?(背景と特徴)
現在、Z-Image を高速化するツールとして Nunchaku(SVDQuant) がありますが、これは Z-Image の「Turbo」モデルのみをサポートしています。Base モデル向けのカーネルレベル高速化ソリューションが必要だと考えました。
また、ユーザーの立場では、数十GBに達する量子化済みモデル(GGUF など)を新たにダウンロードし直すのは大きな負担です。そこで、既存で使用していた BF16 safetensors モデルをランタイムで即座に量子化(On-the-fly Quantization) し、そのまま使えるようにしました。
- ComfyUI Manager からワンクリックでインストールでき、
pip installでも簡単に導入できます。(煩雑なカスタム CUDA ビルドやバージョン整合に悩まされません。) - 既存のワークフローにノードを1つ追加するだけでよく、LoRA および ControlNet と完全に互換です。
2. 性能ベンチマーク(RTX 5090、30 steps 基準)
- T2I Baseline: 18.9s → Triton + INT8: 15.3s(1.24倍高速化)
- LoRA Baseline: 19.0s → LoRA + Triton + INT8: 14.6s(1.30倍高速化)
- VRAM 削減: 合計 23GB → 19.5GB(約 3.5GB 削減)
3. 目で直接確認できる品質維持(チェリーピッキングなし)
前回の TTS プロジェクトでは、結果を確認するために音声を直接ダウンロードして聴く必要があり手間がかかりましたが、今回は Web 上ですぐに品質比較が可能です。
性能比較のために、いかなるチェリーピッキング(Cherry-picking)も行っていません。カーネル融合と量子化の特性上、ピクセル単位の微細な変化はありますが、全体的な構図とディテール品質は非常によく保たれています。以下のリンクから、すべてのシナリオの元比較画像を直接確認してください。
4. エンジニアリング上のポイント
今回のカーネルコードでも Claude Code の支援を積極的に受け、その代わり私は徹底したベンチマークと品質検証に全エネルギーを注ぎました。
- 6つの Triton 融合カーネル(RMSNorm, SwiGLU, QK-Norm+RoPE, Norm+Gate+Residual, AdaLN, RoPE 3D)を適用
- W8A8 + Hadamard Rotation(NeurIPS 2024 QuaRot / ConvRot ベース)によりアウトライヤーを分散させ、量子化品質を最大限維持
5. 前回プロジェクトのアップデート予告
付け加えると、以前公開した qwen3-tts-triton プロジェクトも近いうちに ComfyUI カスタムノードとして移植する予定です。(v0.2.0 アップデート: Triton+PyTorch ハイブリッドによる発音の崩れの緩和、TurboQuant の適用、Cohere 評価ツールへの置き換え など)
現在、私個人の環境(RTX 5090)でテストを完了しています。30/40 シリーズ GPU や他の環境で試してみて、GitHub Issue やコメントでフィードバックをいただけると本当に助かります。ありがとうございます!
まだコメントはありません。