Z-Image の推論を20〜30%高速化する ComfyUI カスタムノード

(github.com/newgrit1004)

6 ポイント投稿者 newgrit1004 2026-04-05 | まだコメントはありません。 | WhatsAppで共有

こんにちは。前回の Qwen3-TTS Triton カーネル最適化プロジェクトに寄せていただいた関心に後押しされ、2つ目のオープンソースプロジェクトを作成して共有します。

HuggingFace で月間360万回以上のダウンロードを記録している人気画像生成モデル Z-Image S3-DiT (6.15B) の推論を20〜30%高速化する ComfyUI カスタムノードです。

1. なぜ作ったのか？（背景と特徴）
現在、Z-Image を高速化するツールとして Nunchaku(SVDQuant) がありますが、これは Z-Image の「Turbo」モデルのみをサポートしています。Base モデル向けのカーネルレベル高速化ソリューションが必要だと考えました。

また、ユーザーの立場では、数十GBに達する量子化済みモデル（GGUF など）を新たにダウンロードし直すのは大きな負担です。そこで、既存で使用していた BF16 safetensors モデルをランタイムで即座に量子化（On-the-fly Quantization） し、そのまま使えるようにしました。

ComfyUI Manager からワンクリックでインストールでき、pip install でも簡単に導入できます。（煩雑なカスタム CUDA ビルドやバージョン整合に悩まされません。）
既存のワークフローにノードを1つ追加するだけでよく、LoRA および ControlNet と完全に互換です。

2. 性能ベンチマーク（RTX 5090、30 steps 基準）

T2I Baseline: 18.9s → Triton + INT8: 15.3s（1.24倍高速化）
LoRA Baseline: 19.0s → LoRA + Triton + INT8: 14.6s（1.30倍高速化）
VRAM 削減: 合計 23GB → 19.5GB（約 3.5GB 削減）

3. 目で直接確認できる品質維持（チェリーピッキングなし）
前回の TTS プロジェクトでは、結果を確認するために音声を直接ダウンロードして聴く必要があり手間がかかりましたが、今回は Web 上ですぐに品質比較が可能です。

性能比較のために、いかなるチェリーピッキング（Cherry-picking）も行っていません。カーネル融合と量子化の特性上、ピクセル単位の微細な変化はありますが、全体的な構図とディテール品質は非常によく保たれています。以下のリンクから、すべてのシナリオの元比較画像を直接確認してください。

ベンチマーク結果を見る: https://github.com/newgrit1004/ComfyUI-ZImage-Triton/…

4. エンジニアリング上のポイント
今回のカーネルコードでも Claude Code の支援を積極的に受け、その代わり私は徹底したベンチマークと品質検証に全エネルギーを注ぎました。

6つの Triton 融合カーネル（RMSNorm, SwiGLU, QK-Norm+RoPE, Norm+Gate+Residual, AdaLN, RoPE 3D）を適用
W8A8 + Hadamard Rotation（NeurIPS 2024 QuaRot / ConvRot ベース）によりアウトライヤーを分散させ、量子化品質を最大限維持

5. 前回プロジェクトのアップデート予告
付け加えると、以前公開した qwen3-tts-triton プロジェクトも近いうちに ComfyUI カスタムノードとして移植する予定です。（v0.2.0 アップデート: Triton+PyTorch ハイブリッドによる発音の崩れの緩和、TurboQuant の適用、Cohere 評価ツールへの置き換えなど）

現在、私個人の環境（RTX 5090）でテストを完了しています。30/40 シリーズ GPU や他の環境で試してみて、GitHub Issue やコメントでフィードバックをいただけると本当に助かります。ありがとうございます！

GitHub: https://github.com/newgrit1004/ComfyUI-ZImage-Triton

Z-Image の推論を20〜30%高速化する ComfyUI カスタムノード

関連記事

まだコメントはありません。