- Qwen-Image-EditはQwen-Imageモデルをベースにした画像編集専用の拡張モデル
- 入力画像を同時にQwen2.5-VLとVAE Encoderに渡し、セマンティック編集と外観編集の両方をサポートする構造
- テキスト編集機能が強力で、中国語と英語においてフォント、サイズ、スタイルを維持したまま直接修正可能
- さまざまなベンチマークで最先端(SOTA)性能を達成し、画像編集のための強力な基盤モデルとして位置付けられている
- オープンソースのApache 2.0ライセンスで公開されており、開発者や研究者が自由に活用できる
紹介
- Qwen-Image-Editは、Qwen-Imageのテキストレンダリング能力を拡張して画像編集を支援するモデル
- 画像入力をセマンティック制御(Qwen2.5-VL)と外観制御(VAE Encoder)に同時に渡す構造
- 精密なテキスト編集とセマンティック・外観編集の両方をサポートする特徴がある
主な機能
- セマンティック & 外観編集: オブジェクトの追加、削除、回転、スタイル変換のようなセマンティック変更と、特定領域のみを変更する外観編集をサポート
- 高精度テキスト編集: 英語と中国語を直接修正でき、元のフォントとスタイルを保持
- 性能優位: 多数のパブリックベンチマークで最先端性能を達成
クイックスタート
- Hugging Faceの
diffusersライブラリを通じて利用可能
- サンプルコードでは、ウサギの色を紫に変え、背景をフラッシュライトに変更する作業を実行
- CUDAアクセラレーションと
torch.bfloat16対応により効率的に実行可能
デモ事例(Showcase)
- セマンティック編集: キャラクターIPの生成、オブジェクトの回転(90度、180度)、スタイル変換(例: ジブリ風)が可能
- 外観編集: 看板の追加、髪の毛の除去、特定テキストの色変更、背景の差し替え、衣装変更などを高精度に実行
- テキスト編集: 英語と中国語のポスターにある大小の文字まで正確に修正可能
- 連続編集チェーン: 書道作品の文字の誤りを段階的に修正し、最終的に完全版を作り上げる事例を実演
応用シナリオ
- ブランドIP拡張: CapybaraキャラクターをベースにしたMBTI絵文字制作の事例を紹介
- アートと創作: 肖像画のさまざまなスタイル変換を通じて仮想アバター制作の可能性を提示
- 産業活用: 標識を挿入する際に反射効果まで自然に生成するなど、細かな編集を支援
ライセンス
- Apache 2.0ライセンスで公開されており、自由に使用、修正、配布可能
まだコメントはありません。