Qwen-Image: ネイティブテキストレンダリングを適用した画像生成モデル

(qwenlm.github.io)

1 ポイント投稿者 GN⁺ 2025-08-05 | 1件のコメント | WhatsAppで共有

Qwen-Imageは、ネイティブテキストレンダリングと精密画像編集に強みを持つ20BパラメータMMDiT画像生成モデルです
アルファベットや漢字を含む多様な言語の複雑な文字表現で、高精度かつ高い視覚的完成度を実現
様々な**公開ベンチマーク（GenEval、DPG、OneIG-Benchなど）**で同格最高性能を達成し、テキスト生成能力も優れています
実デモでは、多言語、ポスター、PPT、イラストなど複雑なレイアウトとさまざまなスタイルを正確に実装
スタイル変換、オブジェクト追加・削除、詳細描写、ポーズ変更などの編集機能をサポートし、オープンソースエコシステム拡張を志向

イントロダクションと主な特徴

Qwen-Imageは、複雑なテキストレンダリングと精密画像編集に特化した20BパラメータベースのMMDiT画像生成ベースモデルです
Qwen Chatで最新モデルを体験できます

主な機能

優れたテキストレンダリング: 多行レイアウト、段落レベルの意味理解、精密な表現が可能
- 英語や漢字など、アルファベット系と表意文字系の両方を高忠実度でサポート
一貫性のある画像編集: 強化されたマルチタスク訓練を通じて、意味的正確性と視覚的リアリティの両方を保持
強力なベンチマーク性能: さまざまな公開ベンチマークで生成と編集タスクの両方で同格最高性能を達成
テキスト生成・編集分野でLongText-Bench、ChineseWord、TextCraftなどで優れた成績を記録
創作、デザイン、ストーリーテリングなどのクリエイティブ用途に幅広く活用可能

性能とベンチマーク

Qwen-Imageは、GenEval、DPG、OneIG-Bench（一般画像生成）、GEdit、ImgEdit、GSO（編集）などのベンチマークでいずれも最新のSOTA（最先端）性能を達成
特に中国語テキスト生成などにおいて、既存の最高モデルを大きく上回る
広い汎用性能と正確なテキストレンダリングを組み合わせ、リーディング画像生成モデルとして確立

デモサンプル

中国語テキスト表現

サンプルプロンプトを基に、宮崎アニメーションのスタイルと同時に、「云存储」「云计算」「云模型」や珍しい漢字（「千问」）を正確に表現
人物のポーズや表情、シーン内の深度なども自然に再現

複雑な漢字の並列表現

格式高い対聯、揮毫、青花字などのディテールまで繊細に表現
書体、レイアウト、図版（例：岳阳楼）まで、実物に近い形で完璧に生成

英語テキスト & 複数行

書店の本棚、案内板、ポスターなど複数箇所のテキストを詳細に反映
「New Arrivals This Week」から書籍表紙の短い文面まで、実際と同様のフォントとレイアウトを実装

複雑な英語インフォグラフィック

各サブモジュールをアイコン＋タイトル＋説明文の段落ごとに分け、正確に配置
「Habits for Emotional Wellbeing」を中心にした複雑なインフォグラフィックも、自然なアートワークとバランスの取れた構成で完成

小規模/長文テキスト

画像内の1/10未満の小規模領域まで、長文の手書きテキストを詳細に実装
大量の文章も、手書き、レイアウト、改行まで精密に再現

多言語混在

英語と中国語を1枚の画像内で同時に手書きで実現
プロンプトの言語切り替えに応じて、自然にテキスト生成可能

ポスター生成

映画ポスター、サブタイトル、出演・監督・公開情報など、各テキスト/ビジュアル要素をSci-Fi、グラフィックデザインなど多様なスタイルで自由に組み合わせ

韓国語PPTサンプル

最新のAI/企業向けPPTスタイル（Alibabaロゴ、見出し、サブタイトル、芸術作品画像の配置、カリグラフィーフォント、詳細説明など）を統一感を持って生成

一般画像生成と編集

フォトリアル、印象派、アニメ、ミニマルなど、多様なアートスタイルをサポートし、豊富なクリエイティブ活用性を提供
スタイル変換、オブジェクト追加/削除、詳細改善、テキスト編集、人物ポーズ調整など、さまざまな実践的画像編集コマンドをサポート

結論

Qwen-Imageは画像生成の地平を拡大し、視覚コンテンツ制作の技術的障壁を下げ、クリエイティブ活用を促進することを目的としています
コミュニティ協力、開放性、持続可能な生成AIエコシステムの構築に重点
実際のユーザー利用とフィードバックを反映し、機能向上とオープンエコシステム拡大を計画

1件のコメント

GN⁺ 2025-08-05

Hacker Newsコメント

これがそれほど大きな話題にならない理由がよく分からない。——これはgpt-image-1をあらゆる面で上回るだけでなく、Flux Kontextよりも編集能力が高い、初のオープンソースモデルだ。これはすごいことだ。
- 1時間ほどこのモデルでいじってみた。全体として本当に優秀だったが、私の初期テストではかなり複雑なプロンプト遵守で、gpt-image-1（またはImagen 3/4）に明確に及ばない。成功率はおよそ50%で、**gpt-image-1は約75%**だった。迷路、シュレーディンガー方程式などは処理できなかった。genai showdownサイトで実験した。
- そのページだけでは断言しづらいが、編集モデルはまだ正式に公開されていないようだ。GitHub Issueコメントリンクを参照。
- 私の考えでは、gpt-image-1より確実にできることが多い。スタイル変換、オブジェクト追加/削除、テキスト編集、人のポーズ操作だけでなく、オブジェクト検出、セマンティックセグメンテーション、深度/エッジ推定、超解像、そして新視点合成（NVS）、つまり基本画像をもとに新しい視点の画像を作れる。まさに機能満載だ。初期結果を見ると、gpt-image-1はシャープさと鮮明さでやや優れているように見える。正直、OpenAIが後処理で単純なアンシャープマスクのようなものを入れているのではないかと疑ってしまう。ピントがぼやけた領域でも不自然なくらい均一な鮮明さが出ることがあり、時々過剰に感じることもあった。それでも全体としてこのモデルもほぼ同等レベルに見える。実際、今年はOpenAI独自の画像生成技術が優位を保つと思っていたが、これは驚きだ。ちなみにFlux Kreaは公開後わずか4日しか経っていない。もしこのモデルがgpt-image-1と本当に同等の品質なら、驚異的な変化だ。
- 私の知る限り、40GB VRAMが必要という点が一般の盛り上がりを少し冷ましているようだ。なお、LLMは複数GPUへの分散デプロイ技術がかなり成熟しているのに、画像モデルはGGUFフォーマットを使うにも関わらず、この分野の進展がまだ遅い理由がわからない。画像モデルが大きくなるほど分散実行がもっと実装されるのではないかと思う。
- まだ数時間しか経っていない状況で、デモもエラーが続くため、人々が十分に触れるにはもう少し時間が必要だと思う。量子化GGUFとさまざまなComfyワークフローの登場も重要な要素になるだろう。なぜなら、ほとんどのユーザーがローカルで動かしたいと考えるからだ。だがサイズは他モデルよりかなり大きい。おもしろいことに、最大の比較対象はFluxではなくAlibaba同士だ。たとえばWan 2.2を画像生成に使うのはすでに大人気なので、ほとんどの人がQwen-ImageがWan 2.2と比べてどれだけ大きく進化したかに興味を持つ。新しい画像モデルの本当の評価タイミングは、通常リリース後1週間前後が最適に見える。そのころにはユーザーが直接たくさんテストし、第三者目線の長所短所が整理される。このモデルも期待が大きい。
良いリリースだ！GenAI Showdownサイトに追加した。全体としておよそ40%のスコアを記録したかなり良いモデルで、特に消費者向けGPUで回せるSOTAモデルだと思う（量子化版ならさらにそう）。ただ、txt2imgプロンプトへの厳密な追従ではOpenAIのgpt-image-1よりかなり劣るのは事実だ。だがこのスレッドでも触れられているように、このモデルの利点は編集などの多様な作業ができる点だ。genai showdownでも確認できる。
- 参考までに、Imagen 3と4は明確に異なるモデルなので、混在して比較するのは適切ではない。
これをよく触る人なら当然かもしれないが、このモデルを実行するハードウェア要件が気になる。Linuxで16GB GPUと64GB RAMがあるマシンで試した。このPCではSDは問題なく動いたが、Qwen-imageはGPUであれCPUであれメモリ不足エラーが出た。この程度ではかなり足りないのか、2倍あれば足りるのか、十数倍増やす必要があるのか、あるいは本当に凄いハードウェアが必要なのか気になる。
- これをよくやる人にとっては当然に見えるかもしれないが、実際はそれほど単純ではない。VLM/LLMのVRAM使用量計算はほぼ魔法のような領域だ。オンラインにはざっと10個ほどの計算機があるが、正確なものはない。量子化、KVキャッシュ、アクティベーション、レイヤーなどの各種変数が作用する。非常に面倒な分野だ。とにかく、このモデルは40GB以上のVRAMが必要だ。一般的なシステムRAMは（Apple SiliconでユニファイドRAMなら別だが）不足する。さらにApple Siliconではメモリ帯域幅が低いので、推論速度がGPU/TPUよりかなり遅くなる。
- モデルファイルサイズもほぼ同じだと思う。transformersフォルダを見ると、5GBファイルが約9個あり、GPUに45GB VRAMが必要だと考えればよい。通常、量子化された軽量版（品質低下を許容）がすぐに公開されるとみられる。
- Qwen-Imageはフルモデルで最低24GB VRAMが必要。ただし4bit量子化版はAutoGPTQのようなライブラリなら約8GB VRAMでも実行可能。
- 4bit量子化版が公開されるには、数日待つことになりそう。パラメータ数は20B。
- 本番推論環境では1xH100で問題なく動作する。
他の画像生成モデルと違い、4o image genのように画像全体を無駄に変えてしまう点が驚きだ。4oでは服だけを修正しようとしても顔まで変わることがあるが、このモデルはAI特有の不自然な痕跡を、必要な部分のみに入れているように見える。
- だからFlux Kontextが大きな話題になったのだ。直接マスキングする必要なくimg2imgインペインティングを可能にした点が革新的だった。編集関連ブログを参照。
- 4oでも、編集したい領域だけ選択すれば残りはそのまま残せる。
最近、中国のオープンソースモデルがめちゃくちゃ良く出てきている。この種のニュースに触れるたびに本当に希望を感じる。
この種のモデルでテキストレンダリングを実際にどう学習させているか知っている人はいる？私が使った全モデル（OpenAI、Flux含む）が同じ問題を持っているが、テキストが自然でなく、画像内の影や反射表現が元画像と違って違和感がある。おそらく似たトリックを使っているようだ。
- 技術レポート14ページに説明がある。画像の上にテキストを重ねて合成データを作ったと書かれている。元の照明条件は考慮されず、上書きだけで学習したように見える。Garbage in, garbage out。将来的により現実的なテキスト合成手法が出てきて、それを使って学習すれば、テキストも自然に描けるモデルが生まれるのではないかと期待している。
論文の3.2節のData Filteringパートも確認してほしい。元論文PDFを参照。
- 興味深いのは、英語と中国語以外には言及や例示がされている言語がないという点だ。
これを自前でホスティングして使うとき、合理的な結果を出せる最小グラフィックカード構成が知りたい。
キャンバスが短い。
検閲がどれくらい厳しいのか気になる。
- 新モデルが出るたび、コミュニティがいつも最も気にするのがこの点で、実際どの組織も人間の本能の“厄介な現実”に真正面から向き合いたがらない。同時に、米国社会や企業には奇妙な慎重さと禁欲主義が蔓延しているようだ。

Qwen-Image: ネイティブテキストレンダリングを適用した画像生成モデル

イントロダクションと主な特徴

主な機能

性能とベンチマーク

デモサンプル

中国語テキスト表現

複雑な漢字の並列表現

英語テキスト & 複数行

複雑な英語インフォグラフィック

小規模/長文テキスト

多言語混在

ポスター生成

韓国語PPTサンプル

一般画像生成と編集

結論

関連記事

1件のコメント

Hacker Newsコメント