1 ポイント 投稿者 GN⁺ 2025-08-05 | まだコメントはありません。 | WhatsAppで共有
  • Qwen-Imageは、ネイティブテキストレンダリングと精密画像編集に強みを持つ20BパラメータMMDiT画像生成モデルです
  • アルファベットや漢字を含む多様な言語の複雑な文字表現で、高精度かつ高い視覚的完成度を実現
  • 様々な**公開ベンチマーク(GenEval、DPG、OneIG-Benchなど)**で同格最高性能を達成し、テキスト生成能力も優れています
  • 実デモでは、多言語、ポスター、PPT、イラストなど複雑なレイアウトとさまざまなスタイルを正確に実装
  • スタイル変換、オブジェクト追加・削除、詳細描写、ポーズ変更などの編集機能をサポートし、オープンソースエコシステム拡張を志向

イントロダクションと主な特徴

  • Qwen-Imageは、複雑なテキストレンダリングと精密画像編集に特化した20BパラメータベースのMMDiT画像生成ベースモデルです
  • Qwen Chatで最新モデルを体験できます

主な機能

  • 優れたテキストレンダリング: 多行レイアウト、段落レベルの意味理解、精密な表現が可能
    • 英語や漢字など、アルファベット系と表意文字系の両方を高忠実度でサポート
  • 一貫性のある画像編集: 強化されたマルチタスク訓練を通じて、意味的正確性と視覚的リアリティの両方を保持
  • 強力なベンチマーク性能: さまざまな公開ベンチマークで生成と編集タスクの両方で同格最高性能を達成
  • テキスト生成・編集分野でLongText-Bench、ChineseWord、TextCraftなどで優れた成績を記録
  • 創作、デザイン、ストーリーテリングなどのクリエイティブ用途に幅広く活用可能

性能とベンチマーク

  • Qwen-Imageは、GenEval、DPG、OneIG-Bench(一般画像生成)、GEdit、ImgEdit、GSO(編集)などのベンチマークでいずれも最新のSOTA(最先端)性能を達成
  • 特に中国語テキスト生成などにおいて、既存の最高モデルを大きく上回る
  • 広い汎用性能正確なテキストレンダリングを組み合わせ、リーディング画像生成モデルとして確立

デモサンプル

中国語テキスト表現

  • サンプルプロンプトを基に、宮崎アニメーションのスタイルと同時に、「云存储」「云计算」「云模型」や珍しい漢字(「千问」)を正確に表現
  • 人物のポーズや表情、シーン内の深度なども自然に再現

複雑な漢字の並列表現

  • 格式高い対聯、揮毫、青花字などのディテールまで繊細に表現
  • 書体、レイアウト、図版(例:岳阳楼)まで、実物に近い形で完璧に生成

英語テキスト & 複数行

  • 書店の本棚、案内板、ポスターなど複数箇所のテキストを詳細に反映
  • 「New Arrivals This Week」から書籍表紙の短い文面まで、実際と同様のフォントとレイアウトを実装

複雑な英語インフォグラフィック

  • 各サブモジュールをアイコン+タイトル+説明文の段落ごとに分け、正確に配置
  • 「Habits for Emotional Wellbeing」を中心にした複雑なインフォグラフィックも、自然なアートワークとバランスの取れた構成で完成

小規模/長文テキスト

  • 画像内の1/10未満の小規模領域まで、長文の手書きテキストを詳細に実装
  • 大量の文章も、手書き、レイアウト、改行まで精密に再現

多言語混在

  • 英語と中国語を1枚の画像内で同時に手書きで実現
  • プロンプトの言語切り替えに応じて、自然にテキスト生成可能

ポスター生成

  • 映画ポスター、サブタイトル、出演・監督・公開情報など、各テキスト/ビジュアル要素をSci-Fi、グラフィックデザインなど多様なスタイルで自由に組み合わせ

韓国語PPTサンプル

  • 最新のAI/企業向けPPTスタイル(Alibabaロゴ、見出し、サブタイトル、芸術作品画像の配置、カリグラフィーフォント、詳細説明など)を統一感を持って生成

一般画像生成と編集

  • フォトリアル、印象派、アニメ、ミニマルなど、多様なアートスタイルをサポートし、豊富なクリエイティブ活用性を提供
  • スタイル変換、オブジェクト追加/削除、詳細改善、テキスト編集、人物ポーズ調整など、さまざまな実践的画像編集コマンドをサポート

結論

  • Qwen-Imageは画像生成の地平を拡大し、視覚コンテンツ制作の技術的障壁を下げ、クリエイティブ活用を促進することを目的としています
  • コミュニティ協力、開放性、持続可能な生成AIエコシステムの構築に重点
  • 実際のユーザー利用とフィードバックを反映し、機能向上とオープンエコシステム拡大を計画

まだコメントはありません。

まだコメントはありません。