テキストベース画像編集モデルの性能比較分析まとめ
- 核心ポイント:
- 最新のテキストベース画像編集モデル7種について、12種類の編集課題の遂行能力を評価。
- Seedream 4が12課題中9件成功で最も高い性能を示し、Gemini 2.5 Flashが7件成功でそれに続いた。
- 評価は単一プロンプト(One-shot)方式と非マスク(Non-masked)編集という厳格なルールの下で実施。
- モデルは空間的位置の入れ替えや特定要素の選択的削除のような複雑な指示で低い成功率を示した。
Ⅰ. 序論
- 評価目標: テキスト命令(Text-instructed)による画像修正に焦点を当て、さまざまな最新のSOTA画像編集モデルの性能を比較分析。
- 評価対象モデル(7種): Seedream 4, Gemini 2.5 Flash, Qwen-Image-Edit, FLUX.1 Kontext [dev], OpenAI gpt-image-1, OmniGen2, (追加モデル1種は一覧から除外)。
- 評価課題: 合計12種類の、難易度とタイプが異なる編集プロンプトおよびチャレンジを提示。
- 競争ルール:
- 単一試行原則(Single-attempt): 連続した補正プロンプトを使って同一画像を繰り返し編集する行為は認められず、1回の試行で目標を達成しなければならない。
- 純粋なテキスト指示編集(Purely text-based): 画像編集はテキスト指示のみによって行われる必要があるため、img2img やインペインティングのための手動マスキング(Manual Masking)のような機能は認められない。
Ⅱ. 本論: モデル別性能と主要課題の分析
1. 全体的なモデル成功率の比較
- 最高性能: Seedream 4が12課題中9件成功で最も優れた性能を示した。
- 次点: Gemini 2.5 Flashが7件成功でこれに続いた。
- 中位圏: Qwen-Image-Editが6件、FLUX.1 Kontext [dev] が5件成功を記録。
- 下位圏: OpenAI gpt-image-1が4件、OmniGen2が1件成功にとどまった。
2. 特定の編集タイプに対するモデル性能分析
2.1. 空間認識および位置調整課題: 低い成功率
- 'SHRDLU'(ブロック位置の入れ替え): 6モデルすべて失敗(0/6)。大半のモデルは位置ではなくブロックの色だけを入れ替えるにとどまり、Gemini 2.5 FlashとSeedream 4も色だけを交換した。
- '傾いたピサの斜塔をまっすぐにする': 6件中2件成功(2/6)。基本的な空間認識が必要であり、周囲の環境を保ちながら特定のオブジェクトだけを垂直に補正するのに苦戦した。
2.2. 細部要素の変更と保持課題: 結果はまちまち
- 'JawsをPawsに変更するなどの複数編集': 6件中5件成功(5/6)。複数の変更を同時に行う必要があり、OmniGen2は編集自体には成功したが、元画像の美的スタイルの保持に失敗した。
- 'ひげのある男性に髪を追加': 6件中4件成功(4/6)。Gemini 2.5 Flashの結果は良好だったが、髪が鋭すぎて見える問題があり、OpenAI gpt-image-1は画像全体を変形させた。
- '花札の札を変更': 6件中3件成功(3/6)。特定のカード(King of Spades)だけを変え、他のカード(Ace of Spades)はそのままにする選択的編集能力のテストで、Qwen-Image-Editは不要なAce of Spadesまで修正した。
2.3. ディテール保持と複雑なオブジェクト操作課題: 最大の難関
- 'キリンの首の長さを短くする': 6件中1件成功(1/6)。大半のモデルはキリンの首を短くすることに失敗し、Qwen-Image-Editは首全体を削除してしまうなど、プロンプトを異常に解釈した。
- 'M&Mの茶色いキャンディを削除': 6件中1件成功(1/6)。特定の色のキャンディだけを選択的に削除(または色変更)するのが難しく、Gemini 2.5 Flashは新しいキャンディ配置を生成した。
- '古い標識のカンガルーをサンドワームのシルエットに置き換える': 6件中1件成功(1/6)。既存の標識の傷やさびなどの古びた質感を保持しながら新しい要素を移植する能力が不足していた。
Ⅲ. 結論
- 最高モデルの特徴: Seedream 4とGemini 2.5 Flashが全体として優れた性能を見せたが、複雑で微妙なテキスト指示を完全に理解して反映するには依然として限界がある。
- 主な失敗パターン: モデルは空間的関係の正確な理解および画像内の特定の微細要素の選択的編集と保持の課題で一貫して低い成功率を記録した。
- 今後の発展方向:
- GPT-image-1はしばしば画像全体を意図せず変更する傾向があり、編集領域の局所化精度を改善する必要がある。
- 'FLUX.1 Kontext [dev]' と 'Kontext Max' のような一部モデルでは、より大きいモデルがより小さい開発版モデルより性能が低いという異例の結果が見られ、学習データの種類(写真 vs. イラスト)が性能に与える影響の分析が必要である。
- 単一プロンプトでは難しい課題(例: カードデザイン変更)の場合、複数画像を入力として参照する方式へとテスト手法を発展させる必要がある。
まだコメントはありません。