- 同じプロンプトで3つのモデルを、主題の正確さ、スタイルの正確さ、一貫性、倫理(Ethics)の観点から比較
Photography: Humans
- 現在、写真生成の分野ではMidjourneyが先頭を走っているが、Firefly 2がわずかな差でその後を追っている
- より様式化されておらず自然なヘッドショットを求めるなら、今後はFirefly 2を検討するのがよい
- 写真用途ではDALL-E 3は使わないほうがよい
Photography: Stylistic humans
- 最近はスタイリスティックな人物画像を多く作っている
- これらのプロンプトはMidjourney向けに特別に最適化されているため、ややバイアスがある可能性がある
- ただし、いくつかの重要なポイントとして:
- Midjourneyはより複雑なプロンプトが与えられたときに最もうまく機能し、強い一貫性を示す
- Midjourneyは媒体、構図、照明の複雑な組み合わせを生成するのに優れている
- DALL-Eは有色人種向けの照明を取り入れるのに苦労しており、そのため結果の正確性が低く見える
- Fireflyは多様性が明示的に求められていない場合に最も多様な結果を生成する
- より創造的な写真表現を代替しようとする場合、FireflyとDALL-E 3はいずれも望ましいレベルの品質と一貫性を達成するのに苦労する可能性がある
Photography: Objects
- 全体として、最も写実的なオブジェクトの一貫性を実現しているのはMidjourneyだと思う
- FireflyとDALL-Eも追い上げているが、これらのモデルのスタイル上の好みが結果に影響を与えるのは間違いない
Illustration
- イラストレーションの面ではどれもかなり進歩しているが、ニュアンスのある結果を得るには依然としてMidjourneyが最良の選択肢
- ただし、複数のモデルを試し、自分独自のスタイルに合わせて調整するのがよい
Typography
- 正確な単語を生成できるようになったのはごく最近のこと
- 実施したすべてのテストの中で、単語を完全なオブジェクトとして忠実にレンダリングできたのはDALL-E 3だけだった
- この特定のケースでの単語は"デザイン"であり、一貫性はすべての実験で安定して維持された
結論
- 状況は確実に変化しているが、私が強調したい要点は次の通り:
- Adobeは写真分野で確実に差を縮めており、強力な競争相手になりつつある
- DALL-E 3は、タイポグラフィを妥当なレベルでうまく生成できる唯一のジェネレーター(Ideogramを除く)
- DALL-E 3はイラストレーション制作に優れており、単語生成機能と組み合わせることで、スケールと一般化されたスタイルの面で「クリップアート向け画像生成器」になる可能性があると思う
- ベース画像や、他の作業中の画像生成(ChatGPT経由)には適しているが、すぐに高度に洗練されたデザインツールになるとは思えない
- Midjourneyは、最も写実的で一貫性のある写真を引き続き生み出している。
- 創造的な制御機能に関しては、Midjourneyに並ぶものはない
2件のコメント
なぜ StableDiffusion は外したんですか?
Midjourney のせいですか
DALL-E 3を使ってみたとき、文字を明確に表現できるのがとても不思議でした。
ですが、まだ品質はMidjourneyが最高のようですね。