- この記事では、著者がオープンソースモデルであるStability AIのStable Diffusion XL 1.0(SDXL)の性能向上に取り組んだ内容を扱っています。このモデルは1024x1024解像度の画像を生成します。
- SDXLは2つのモデルで構成されています。ベースモデルと、速度に影響を与えずに細部を大幅に向上させるオプションのリファイナーモデルです。
- 著者はHugging Faceのdiffusers Pythonライブラリを使ってSDXLを扱い、ベースモデルとリファイナーモデルの両方を読み込んで利用する方法の例を示しました。
- 著者は中程度のL4 GPUを備えたクラウド仮想マシンを使って画像を生成し、1024x1024画像1枚あたり約22秒で生成できると述べています。
- 著者は、diffusersの2つの新機能であるプロンプト重み付けとDreambooth LoRAの学習および推論を試しました。
- プロンプト重み付けは、得られる位置テキスト埋め込みにおける用語の数学的な重みをさらに許可することで、最終的な生成物を改善します。
- Dreambooth LoRAのサポートにより、少量のソース画像とトリガーキーワードに対してStable Diffusionをファインチューニングでき、そのキーワードが与えられた別の状況でもその画像の「概念」を使えるようになります。
- 著者は、Stable Diffusionの元のデータセットに存在しない概念であるUgly SonicについてLoRAを学習させることで、SDXLの可能性をテストしました。結果ははるかに良く、一貫性もありました。
- 著者はまた、「wrong」をプロンプトに設定した、激しく歪んだひどい画像に対してLoRAを学習させました。これは、LoRAが「wrong」を「ネガティブプロンプト」として使い、そのような画像を避けることで、より歪みの少ない画像を生成できるようになることを期待したためです。
- 著者は、LoRAがSDXLをより賢くし、プロンプトの意図により忠実にすることで、生成画像の品質と明瞭さを向上させることを発見しました。
- 著者は、悪い画像でSDXLを学習させることは、ChatGPTを強力にしている技術に似た、人間のフィードバックによる強化学習(RLHF)の一形態だと結論づけました。
- 著者は、「ネガティブLoRA」の可能性を引き続き探求する予定であり、性能向上のためにそれらを他のLoRAとマージすることも含まれます。
1件のコメント
Hacker Newsの意見