- Stable Diffusion 3を支える技術を深く掘り下げた研究論文を公開
- SD3は、人間の嗜好評価に基づき、タイポグラフィとプロンプト忠実度の面で、DALL·E 3、Midjourney v6、Ideogram v1のような最新のテキスト画像生成システムを上回る
- 新しいMultimodal Diffusion Transformer(MMDiT)アーキテクチャは、画像と言語表現のために別個の重みセットを使用し、従来のSD3のバージョンと比べてテキスト理解とスペリング能力を向上させる
性能
- Stable Diffusion 3の出力画像を、SDXL、SDXL Turbo、Stable Cascade、Playground v2.5、Pixart-αなどのさまざまなオープンモデル、およびDALL·E 3、Midjourney v6、Ideogram v1のようなクローズドソースのシステムと比較し、人間のフィードバックに基づいて性能を評価
- テスト結果では、Stable Diffusion 3は上記のすべての領域で現在の最先端テキスト画像生成システムと同等、またはそれを上回る
- 初期の非最適化推論テストでは、最大のSD3モデルは8Bパラメータを持ち、RTX 4090の24GB VRAMに収まり、50回のサンプリングステップを使用した場合、1024x1024解像度の画像生成に34秒を要する
- 初期リリース時には、800mから8Bパラメータモデルまで、さまざまなStable Diffusion 3のバリエーションが用意され、ハードウェア要件の障壁をさらに下げる
アーキテクチャの詳細
- テキスト画像生成では、モデルはテキストと画像という2つのモダリティの両方を考慮する必要がある
- この新しいアーキテクチャはMMDiTと呼ばれ、さまざまなモダリティを処理できる能力を示している
- 従来のStable Diffusionと同様に、適切なテキスト表現と画像表現を導き出すために事前学習済みモデルを使用する
- テキスト埋め込みと画像埋め込みは概念的に大きく異なるため、2つのモダリティに対して別々の重みセットを使用する
- このアプローチにより、画像トークンとテキストトークンの間で情報を流せるようになり、出力の全体的な理解度とタイポグラフィを向上させる
- このアーキテクチャは、動画のようなマルチモーダルな対象へ容易に拡張できる
ReweightingによるRectified Flowsの改善
- Stable Diffusion 3は、学習中にデータとノイズを線形軌道で結ぶRectified Flow(RF)定式化を使用する
- これにより、より直線的な推論経路が生まれ、より少ないステップでのサンプリングが可能になる
- さらに、学習プロセスに新しい軌道サンプリングスケジュールを導入し、軌道の中間部分により大きな重みを与える
- この手法を他の拡散軌道と比較してテストした結果、従来のRF定式化は少ないステップ数のサンプリング体制では性能が向上したものの、より多いステップでは相対的な性能が低下した
- 一方、再重み付けしたRF変種は一貫して性能を向上させた
Rectified Flow Transformerモデルのスケーリング
- 再重み付けしたRectified Flow定式化とMMDiTバックボーンを用いて、テキスト画像合成のためのスケーリング研究を実施
- モデルサイズと学習ステップの両方に対して、検証損失が滑らかに減少することを観測
- これがモデル出力の意味ある改善につながるかを検証するため、自動画像アライメント指標(GenEval)と人間の嗜好スコア(ELO)を評価
- 結果は、これらの指標と検証損失の間に強い相関関係があることを示した
- スケーリングの傾向には飽和の兆候が見られず、今後のモデル性能を引き続き向上できるという楽観的な見通しを示している
柔軟なテキストエンコーダ
- 推論時にメモリ集約型の4.7BパラメータT5テキストエンコーダを取り除くことで、SD3のメモリ要件を大幅に削減でき、性能低下はごくわずか
- このテキストエンコーダを除去しても視覚的な美しさには影響せず(除去後の勝率: 50%)、テキスト忠実度はわずかに低下する(勝率46%)
- ただし、テキストを生成する際にSD3の本来の力を十分に発揮するには、T5を含めることが推奨される
1件のコメント
Hacker Newsの意見
Stability AIのオープンソースへの献身は非常に興味深く、できるだけ長く存続してほしい。
Stable Diffusion 3のテキストレンダリングは印象的だが、テキストにはいつも独特の過剰処理されたような感じがある。
SD3がダウンロード可能かどうかという質問。
画像生成器がついにスペルを正しく扱い始めたのは非常に興味深い。
SD3の発表は非常に興味深い。
SD3のテキストレンダリング改善は良いが、手や指の生成は依然として難しい。
このアーキテクチャは、動画へ容易に拡張できるほど十分に柔軟だ。
かつて「オープン」に注力していた、あるいは以前はオープンだった多くの企業が、次第にクローズドになっている。
Stability AIと対照的に、OpenAIは最もクローズドなAI研究所だ。