Midjourney vs. Firefly 2 vs. DALL-E 3

xguru · 2023-10-30T10:27:02+09:00

同じプロンプトで3つのモデルを、主題の正確さ、スタイルの正確さ、一貫性、倫理（Ethics）の観点から比較 Photography: Humans 現在、写真生成の分野ではMidjourneyが先頭を走っているが、Firefly 2がわずかな差でその後を追っているより様式化されておらず自然なヘッドショットを求めるなら、今後はFirefly 2を検討するのがよい写真用途ではDALL-E 3は使わないほうがよい Photography: Stylistic humans 最近はスタイリスティックな人物画像を多く作っているこれらのプロンプトはMidjourney向けに特別に最適化されているため、ややバイアスがある可能性があるただし、いくつかの重要なポイントとして: Midjourneyはより複雑なプロンプトが与えられたときに最もうまく機能し、強い一貫性を示す Midjourneyは媒体、構図、照明の複雑な組み合わせを生成するのに優れている DALL-Eは有色人種向けの照明を取り入れるのに苦労しており、そのため結果の正確性が低く見える Fireflyは多様性が明示的に求められていない場合に最も多様な結果を生成するより創造的な写真表現を代替しようとする場合、FireflyとDALL-E 3はいずれも望ましいレベルの品質と一貫性を達成するのに苦労する可能性がある Photography: Objects 全体として、最も写実的なオブジェクトの一貫性を実現しているのはMidjourneyだと思う FireflyとDALL-Eも追い上げているが、これらのモデルのスタイル上の好みが結果に影響を与えるのは間違いない Illustration イラストレーションの面ではどれもかなり進歩しているが、ニュアンスのある結果を得るには依然としてMidjourneyが最良の選択肢ただし、複数のモデルを試し、自分独自のスタイルに合わせて調整するのがよい Typography 正確な単語を生成できるようになったのはごく最近のこと実施したすべてのテストの中で、単語を完全なオブジェクトとして忠実にレンダリングできたのはDALL-E 3だけだったこの特定のケースでの単語は"デザイン"であり、一貫性はすべての実験で安定して維持された結論状況は確実に変化しているが、私が強調したい要点は次の通り: Adobeは写真分野で確実に差を縮めており、強力な競争相手になりつつある DALL-E 3は、タイポグラフィを妥当なレベルでうまく生成できる唯一のジェネレーター（Ideogramを除く） DALL-E 3はイラストレーション制作に優れており、単語生成機能と組み合わせることで、スケールと一般化されたスタイルの面で「クリップアート向け画像生成器」になる可能性があると思うベース画像や、他の作業中の画像生成（ChatGPT経由）には適しているが、すぐに高度に洗練されたデザインツールになるとは思えない Midjourneyは、最も写実的で一貫性のある写真を引き続き生み出している。創造的な制御機能に関しては、Midjourneyに並ぶものはない

(designingwithai.substack.com)

19 ポイント投稿者 xguru 2023-10-30 | 2件のコメント | WhatsAppで共有

同じプロンプトで3つのモデルを、主題の正確さ、スタイルの正確さ、一貫性、倫理（Ethics）の観点から比較

Photography: Humans

現在、写真生成の分野ではMidjourneyが先頭を走っているが、Firefly 2がわずかな差でその後を追っている
より様式化されておらず自然なヘッドショットを求めるなら、今後はFirefly 2を検討するのがよい
写真用途ではDALL-E 3は使わないほうがよい

Photography: Stylistic humans

最近はスタイリスティックな人物画像を多く作っている
これらのプロンプトはMidjourney向けに特別に最適化されているため、ややバイアスがある可能性がある
ただし、いくつかの重要なポイントとして:
- Midjourneyはより複雑なプロンプトが与えられたときに最もうまく機能し、強い一貫性を示す
- Midjourneyは媒体、構図、照明の複雑な組み合わせを生成するのに優れている
- DALL-Eは有色人種向けの照明を取り入れるのに苦労しており、そのため結果の正確性が低く見える
- Fireflyは多様性が明示的に求められていない場合に最も多様な結果を生成する
- より創造的な写真表現を代替しようとする場合、FireflyとDALL-E 3はいずれも望ましいレベルの品質と一貫性を達成するのに苦労する可能性がある

Photography: Objects

全体として、最も写実的なオブジェクトの一貫性を実現しているのはMidjourneyだと思う
FireflyとDALL-Eも追い上げているが、これらのモデルのスタイル上の好みが結果に影響を与えるのは間違いない

Illustration

イラストレーションの面ではどれもかなり進歩しているが、ニュアンスのある結果を得るには依然としてMidjourneyが最良の選択肢
ただし、複数のモデルを試し、自分独自のスタイルに合わせて調整するのがよい

Typography

正確な単語を生成できるようになったのはごく最近のこと
実施したすべてのテストの中で、単語を完全なオブジェクトとして忠実にレンダリングできたのはDALL-E 3だけだった
この特定のケースでの単語は"デザイン"であり、一貫性はすべての実験で安定して維持された

結論

状況は確実に変化しているが、私が強調したい要点は次の通り:
Adobeは写真分野で確実に差を縮めており、強力な競争相手になりつつある
DALL-E 3は、タイポグラフィを妥当なレベルでうまく生成できる唯一のジェネレーター（Ideogramを除く）
- DALL-E 3はイラストレーション制作に優れており、単語生成機能と組み合わせることで、スケールと一般化されたスタイルの面で「クリップアート向け画像生成器」になる可能性があると思う
- ベース画像や、他の作業中の画像生成（ChatGPT経由）には適しているが、すぐに高度に洗練されたデザインツールになるとは思えない
Midjourneyは、最も写実的で一貫性のある写真を引き続き生み出している。
- 創造的な制御機能に関しては、Midjourneyに並ぶものはない

2件のコメント

hhkkkk 2023-10-30

なぜ StableDiffusion は外したんですか？
Midjourney のせいですか

kuroneko 2023-10-30

DALL-E 3を使ってみたとき、文字を明確に表現できるのがとても不思議でした。
ですが、まだ品質はMidjourneyが最高のようですね。