2 ポイント 投稿者 GN⁺ 2023-08-23 | 1件のコメント | WhatsAppで共有
  • この記事では、著者がオープンソースモデルであるStability AIのStable Diffusion XL 1.0(SDXL)の性能向上に取り組んだ内容を扱っています。このモデルは1024x1024解像度の画像を生成します。
  • SDXLは2つのモデルで構成されています。ベースモデルと、速度に影響を与えずに細部を大幅に向上させるオプションのリファイナーモデルです。
  • 著者はHugging Faceのdiffusers Pythonライブラリを使ってSDXLを扱い、ベースモデルとリファイナーモデルの両方を読み込んで利用する方法の例を示しました。
  • 著者は中程度のL4 GPUを備えたクラウド仮想マシンを使って画像を生成し、1024x1024画像1枚あたり約22秒で生成できると述べています。
  • 著者は、diffusersの2つの新機能であるプロンプト重み付けとDreambooth LoRAの学習および推論を試しました。
  • プロンプト重み付けは、得られる位置テキスト埋め込みにおける用語の数学的な重みをさらに許可することで、最終的な生成物を改善します。
  • Dreambooth LoRAのサポートにより、少量のソース画像とトリガーキーワードに対してStable Diffusionをファインチューニングでき、そのキーワードが与えられた別の状況でもその画像の「概念」を使えるようになります。
  • 著者は、Stable Diffusionの元のデータセットに存在しない概念であるUgly SonicについてLoRAを学習させることで、SDXLの可能性をテストしました。結果ははるかに良く、一貫性もありました。
  • 著者はまた、「wrong」をプロンプトに設定した、激しく歪んだひどい画像に対してLoRAを学習させました。これは、LoRAが「wrong」を「ネガティブプロンプト」として使い、そのような画像を避けることで、より歪みの少ない画像を生成できるようになることを期待したためです。
  • 著者は、LoRAがSDXLをより賢くし、プロンプトの意図により忠実にすることで、生成画像の品質と明瞭さを向上させることを発見しました。
  • 著者は、悪い画像でSDXLを学習させることは、ChatGPTを強力にしている技術に似た、人間のフィードバックによる強化学習(RLHF)の一形態だと結論づけました。
  • 著者は、「ネガティブLoRA」の可能性を引き続き探求する予定であり、性能向上のためにそれらを他のLoRAとマージすることも含まれます。

1件のコメント

 
GN⁺ 2023-08-23
Hacker Newsの意見
  • パーソナライズされたRLHF(Reinforcement Learning from Human Feedback)の概念が注目を集めており、AIの出力を個人の好みに合わせて導ける可能性がある。
  • AIシステムが生成するすべての画像に「いいね/よくない」フィードバックオプションを実装する案が提案されており、「誤った」画像を無視するための選択式テキストラベルもあわせて提案された。
  • フィードバックのための可能な限り最速の反復ループについて疑問が提起され、モデルが個人的に好ましい画像を出力する確率を高めるため、毎秒約10k件の嗜好データを収集するというアイデアが示された。
  • 芸術制作のためのStable Diffusion(SD)の利用が評価されており、SD 1.5/2.0とSDXLの違いは重要だと強調された。
  • データサイエンティストたちは自分たちのPCで行ったすべてのキーストロークを記録しており、これは今やAIシステムに有用なデータと見なされている。
  • SDXL Base Modelを使ってさまざまなスタイルのプロンプトを混ぜて画像を生成し、それを用いてLoRA(Learning from Observations and Rewards)を訓練した後、そのLoRAと訓練セットの生成に使われたプロンプトでもう一度生成するというアイデアが共有された。
  • 上記の過程の結果は、強化された効果、つまりより多くのエラー、より奇妙で、高解像度なものだと説明されている。
  • 生成画像AIの公開は、より高いVRAMと計算要件、そして特化型のSD1.5モデルと比べて低品質な出力のため、あまり注目されなかったと考えられている。
  • Stable Diffusion XL向けに構築されたLoRAは、一般的なネガティブプロンプトとしかうまく機能しないと報告された。
  • 一度に複数のLoRAを有効化できる能力については議論がある。
  • RLHFを使ってGPT3をより使いやすくしたことは評価されており、将来のモデルには負の訓練データとして悪い結果も含まれることへの期待がある。
  • LoRAをマージする可能性にも言及があり、個人的な主題を含む1つのLoRA、結果を改善する別のLoRA、そして特定のスタイルのための3つ目のLoRAを使うことに関心が示されている。