Stable Diffusion 3の研究論文を公開

xguru · 2024-03-06T10:46:01+09:00

Stable Diffusion 3を支える技術を深く掘り下げた研究論文を公開 SD3は、人間の嗜好評価に基づき、タイポグラフィとプロンプト忠実度の面で、DALL·E 3、Midjourney v6、Ideogram v1のような最新のテキスト画像生成システムを上回る新しいMultimodal Diffusion Transformer（MMDiT）アーキテクチャは、画像と言語表現のために別個の重みセットを使用し、従来のSD3のバージョンと比べてテキスト理解とスペリング能力を向上させる性能 Stable Diffusion 3の出力画像を、SDXL、SDXL Turbo、Stable Cascade、Playground v2.5、Pixart-αなどのさまざまなオープンモデル、およびDALL·E 3、Midjourney v6、Ideogram v1のようなクローズドソースのシステムと比較し、人間のフィードバックに基づいて性能を評価テスト結果では、Stable Diffusion 3は上記のすべての領域で現在の最先端テキスト画像生成システムと同等、またはそれを上回る初期の非最適化推論テストでは、最大のSD3モデルは8Bパラメータを持ち、RTX 4090の24GB VRAMに収まり、50回のサンプリングステップを使用した場合、1024x1024解像度の画像生成に34秒を要する初期リリース時には、800mから8Bパラメータモデルまで、さまざまなStable Diffusion 3のバリエーションが用意され、ハードウェア要件の障壁をさらに下げるアーキテクチャの詳細テキスト画像生成では、モデルはテキストと画像という2つのモダリティの両方を考慮する必要があるこの新しいアーキテクチャはMMDiTと呼ばれ、さまざまなモダリティを処理できる能力を示している従来のStable Diffusionと同様に、適切なテキスト表現と画像表現を導き出すために事前学習済みモデルを使用するテキスト埋め込みと画像埋め込みは概念的に大きく異なるため、2つのモダリティに対して別々の重みセットを使用するこのアプローチにより、画像トークンとテキストトークンの間で情報を流せるようになり、出力の全体的な理解度とタイポグラフィを向上させるこのアーキテクチャは、動画のようなマルチモーダルな対象へ容易に拡張できる ReweightingによるRectified Flowsの改善 Stable Diffusion 3は、学習中にデータとノイズを線形軌道で結ぶRectified Flow（RF）定式化を使用するこれにより、より直線的な推論経路が生まれ、より少ないステップでのサンプリングが可能になるさらに、学習プロセスに新しい軌道サンプリングスケジュールを導入し、軌道の中間部分により大きな重みを与えるこの手法を他の拡散軌道と比較してテストした結果、従来のRF定式化は少ないステップ数のサンプリング体制では性能が向上したものの、より多いステップでは相対的な性能が低下した一方、再重み付けしたRF変種は一貫して性能を向上させた Rectified Flow Transformerモデルのスケーリング再重み付けしたRectified Flow定式化とMMDiTバックボーンを用いて、テキスト画像合成のためのスケーリング研究を実施モデルサイズと学習ステップの両方に対して、検証損失が滑らかに減少することを観測これがモデル出力の意味ある改善につながるかを検証するため、自動画像アライメント指標（GenEval）と人間の嗜好スコア（ELO）を評価結果は、これらの指標と検証損失の間に強い相関関係があることを示したスケーリングの傾向には飽和の兆候が見られず、今後のモデル性能を引き続き向上できるという楽観的な見通しを示している柔軟なテキストエンコーダ推論時にメモリ集約型の4.7BパラメータT5テキストエンコーダを取り除くことで、SD3のメモリ要件を大幅に削減でき、性能低下はごくわずかこのテキストエンコーダを除去しても視覚的な美しさには影響せず（除去後の勝率: 50%）、テキスト忠実度はわずかに低下する（勝率46%）ただし、テキストを生成する際にSD3の本来の力を十分に発揮するには、T5を含めることが推奨される

(stability.ai)

13 ポイント投稿者 xguru 2024-03-06 | 1件のコメント | WhatsAppで共有

Stable Diffusion 3を支える技術を深く掘り下げた研究論文を公開
SD3は、人間の嗜好評価に基づき、タイポグラフィとプロンプト忠実度の面で、DALL·E 3、Midjourney v6、Ideogram v1のような最新のテキスト画像生成システムを上回る
新しいMultimodal Diffusion Transformer（MMDiT）アーキテクチャは、画像と言語表現のために別個の重みセットを使用し、従来のSD3のバージョンと比べてテキスト理解とスペリング能力を向上させる

性能

Stable Diffusion 3の出力画像を、SDXL、SDXL Turbo、Stable Cascade、Playground v2.5、Pixart-αなどのさまざまなオープンモデル、およびDALL·E 3、Midjourney v6、Ideogram v1のようなクローズドソースのシステムと比較し、人間のフィードバックに基づいて性能を評価
テスト結果では、Stable Diffusion 3は上記のすべての領域で現在の最先端テキスト画像生成システムと同等、またはそれを上回る
初期の非最適化推論テストでは、最大のSD3モデルは8Bパラメータを持ち、RTX 4090の24GB VRAMに収まり、50回のサンプリングステップを使用した場合、1024x1024解像度の画像生成に34秒を要する
初期リリース時には、800mから8Bパラメータモデルまで、さまざまなStable Diffusion 3のバリエーションが用意され、ハードウェア要件の障壁をさらに下げる

アーキテクチャの詳細

テキスト画像生成では、モデルはテキストと画像という2つのモダリティの両方を考慮する必要がある
この新しいアーキテクチャはMMDiTと呼ばれ、さまざまなモダリティを処理できる能力を示している
従来のStable Diffusionと同様に、適切なテキスト表現と画像表現を導き出すために事前学習済みモデルを使用する
テキスト埋め込みと画像埋め込みは概念的に大きく異なるため、2つのモダリティに対して別々の重みセットを使用する
このアプローチにより、画像トークンとテキストトークンの間で情報を流せるようになり、出力の全体的な理解度とタイポグラフィを向上させる
このアーキテクチャは、動画のようなマルチモーダルな対象へ容易に拡張できる

ReweightingによるRectified Flowsの改善

Stable Diffusion 3は、学習中にデータとノイズを線形軌道で結ぶRectified Flow（RF）定式化を使用する
これにより、より直線的な推論経路が生まれ、より少ないステップでのサンプリングが可能になる
さらに、学習プロセスに新しい軌道サンプリングスケジュールを導入し、軌道の中間部分により大きな重みを与える
この手法を他の拡散軌道と比較してテストした結果、従来のRF定式化は少ないステップ数のサンプリング体制では性能が向上したものの、より多いステップでは相対的な性能が低下した
一方、再重み付けしたRF変種は一貫して性能を向上させた

Rectified Flow Transformerモデルのスケーリング

再重み付けしたRectified Flow定式化とMMDiTバックボーンを用いて、テキスト画像合成のためのスケーリング研究を実施
モデルサイズと学習ステップの両方に対して、検証損失が滑らかに減少することを観測
これがモデル出力の意味ある改善につながるかを検証するため、自動画像アライメント指標（GenEval）と人間の嗜好スコア（ELO）を評価
結果は、これらの指標と検証損失の間に強い相関関係があることを示した
スケーリングの傾向には飽和の兆候が見られず、今後のモデル性能を引き続き向上できるという楽観的な見通しを示している

柔軟なテキストエンコーダ

推論時にメモリ集約型の4.7BパラメータT5テキストエンコーダを取り除くことで、SD3のメモリ要件を大幅に削減でき、性能低下はごくわずか
このテキストエンコーダを除去しても視覚的な美しさには影響せず（除去後の勝率: 50%）、テキスト忠実度はわずかに低下する（勝率46%）
ただし、テキストを生成する際にSD3の本来の力を十分に発揮するには、T5を含めることが推奨される

1件のコメント

xguru 2024-03-06

Hacker Newsの意見

Stability AIのオープンソースへの献身は非常に興味深く、できるだけ長く存続してほしい。
- Stable Diffusion 3が、トークン化とテキスト埋め込みに依然としてOpenAIのCLIPを使っているのか気になる。
- モデルアーキテクチャのその部分を改善して、テキストと画像プロンプトによりよく一致するようにするのだろうと単純に想像している。
Stable Diffusion 3のテキストレンダリングは印象的だが、テキストにはいつも独特の過剰処理されたような感じがある。
- テキストの色が常に単一の値まで持ち上げられていて、高品質な画像に素人っぽく単純に文字を追加したように見える。
SD3がダウンロード可能かどうかという質問。
- 初期版のSDをローカルで動かしていたが、とても良かった。
- 多くのLLMが、自己ホスティングに期待が持てた時期を経て、SaaSへ移行したのか気になる。
画像生成器がついにスペルを正しく扱い始めたのは非常に興味深い。
- DALL-E 3のスペル能力は注目されたが、Bingで試したところ一貫性に欠けていた。
- スペルを正しく実装する際に直面する課題と、その理由について、もう少し技術色の薄い説明を読んでみたい。
- SD3が古い画像のテキスト問題を整理したり修正したりできるのか気になる。
SD3の発表は非常に興味深い。
- 論文はブログよりもはるかに詳しい内容を含んでいる。
- 論文の要点は、より表現力の高いテキストエンコーダを組み込めるアーキテクチャを備えており、それが複雑なシーンに役立つことを示している点だ。
- 学習の観点ではこのスタックの限界にはまだ達していないので、SD3.1ではさらに改善され、SD4では動画処理のためにより多くのフロントエンドエンコーディングが追加されるのではないかと期待している。
SD3のテキストレンダリング改善は良いが、手や指の生成は依然として難しい。
- 例示画像には、ピクセル化された魔法使いを除いて人間の手が含まれておらず、サルの手もやや不自然だ。
このアーキテクチャは、動画へ容易に拡張できるほど十分に柔軟だ。
- LLaMAのトランスフォーマーブロックのように、もう1つの「基礎」ブロックになることを期待している。
- テキストエンコーディング／タイムステップ条件を、さまざまな方法でブロックに統合できるほど十分に汎用的だ。
- 位置エンコーディング（2D RoPE?）に関していろいろ試すこと以外、やることはほとんど残っていない。
- トランスフォーマーをスケールさせ、量子化／最適化に集中して、このスタックをどこでもきちんと動かせるようにする。
かつて「オープン」に注力していた、あるいは以前はオープンだった多くの企業が、次第にクローズドになっている。
- Stability AIがこうした研究論文を公開していることに感謝する。
Stability AIと対照的に、OpenAIは最もクローズドなAI研究所だ。
- Deep Mindでさえ、より多くの論文を発表している。
- OpenAIの内部で「金のためにここにいるんだ！」と公然と言う人がいるのか気になる。
- SamAが最近Elonの訴訟について書いた手紙は、プーチンがウクライナを「非ナチ化」するために侵攻していると言うのと同じくらい真実味がある。