4 ポイント 投稿者 GN⁺ 2024-05-27 | 1件のコメント | WhatsAppで共有

生成モデリング

  • 生成モデリングの基本的な問題は、未知の分布 x∼p(x) からのサンプル集合が与えられたとき、その分布から新しいサンプルを生成すること。

1.1 ノイズ除去拡散モデル

  • データポイントを正規分布へ決定論的にマッピングする代わりに、ランダムノイズを混ぜてポイントを確率的にマッピングする方法を用いる。
  • この方法は最初は奇妙に見えるかもしれないが、複数の段階にわたってクリーンなデータポイントに少量のノイズを加え、純粋なノイズのように見える状態にする。
  • 各段階でノイズが混ざったデータポイントを見ると、前の段階でデータポイントがどこにあったかをおおよそ知ることができる。
  • この過程を逆向きに学習すれば、p(x) 分布からサンプルを生成できる。
  • これは物理的な拡散過程に似ている。

DDPモデル

  • DDPモデルは、Denoising Diffusion Probabilistic Models(ノイズ除去拡散確率モデル)の略。
  • 新しい発展は、この論文の言語と数学を基盤としている。

2.1 ノイズの追加と除去

  • 入力画像 x0 を単位正規分布の点へマッピングするために、t=1,2,…,T の時間ステップにわたってノイズを段階的に追加する順方向拡散過程を用いる。
  • 各時間ステップでは、前の画像に少量のランダムノイズを混ぜて新しい画像を生成する。
  • この過程は反復的な性質を持ち、各段階は直前の時間ステップのみに依存し、追加されるノイズは以前のノイズサンプルと独立である。
  • 逆過程を学習し、ノイズが混ざった画像 xt から前段階のよりノイズの少ないバージョン xt-1 の分布を予測する。

2.2 ノイズ除去学習

  • q(xt−1∣xt) は、ごく少量のノイズに対してはおおよそガウス分布である。
  • これは統計物理学における古典的な結果である。
  • これにより逆分布を学習できる。
  • KLダイバージェンスを用いて、すべての訓練例 x0 に対して q(xt−1∣xt,x0) と pθ(xt−1∣xt) の差を最小化する。
  • 最終的な損失関数はノイズ予測問題へと単純化される。

2.3 サンプリング

  • ノイズ推定モデル ϵθ(xt,t) を学習した後、それを用いて画像 x0 をサンプリングできる。
  • 純粋なノイズ画像 xT∼N(0,I) をサンプリングし、T から 1 までの時間ステップについてノイズを予測し、予測されたノイズを用いてノイズ除去された画像をサンプリングする。

2.4 要約と例

  • 画像データセットの基礎分布を学習し、順方向のノイズ付加過程を定義して、画像 x0 を純粋なノイズ xT へと段階的に変換する。
  • 逆過程を学習し、xt から xt-1 の分布を予測する。
  • KLダイバージェンスを用いて、学習した分布がデータセットの既知の分布にできるだけ近くなるよう保証する。
  • 最終的にはノイズ予測問題へと単純化する。

発展

3.1 高速生成

  • 初期の拡散モデルの主な欠点は生成速度だった。
  • その後、多くの技術が開発されて生成速度が向上し、一部は事前学習済みモデルにそのまま使え、別の一部は新しいモデルの学習を必要とする。

スコアマッチングと高速サンプラー

  • 拡散モデルは微分方程式と驚くべきつながりを持ち、これを通じて多くの高速サンプラーが開発された。
  • ノイズの方向を予測することは、順方向過程の対数尤度の勾配と同じである。
  • これはスコアベースモデルの基礎を成し、ノイズが混ざったデータセットのスコアを学習し、スコア場に沿って新しいサンプルを生成する。

GN⁺の意見

  1. 拡散モデルの理解: 拡散モデルは画像生成だけでなく、アニメーション、動画生成、3Dモデリング、タンパク質構造予測、ロボット経路計画など多様な分野に応用できる。
  2. 学習過程の複雑さ: 拡散モデルの学習過程は複雑だが、それによって非常に精巧な画像を生成できる。
  3. 高速生成技術: 高速生成技術は拡散モデルの実用性を大きく高める。
  4. スコアベースモデル: スコアベースモデルは拡散モデルと類似した仕組みで動作し、サンプリング速度の向上に貢献する。
  5. 技術導入時の考慮事項: 拡散モデルを導入する際には、学習時間、計算資源、モデルの複雑性などを考慮する必要がある。

1件のコメント

 
GN⁺ 2024-05-27

Hacker Newsの意見

  • 拡散モデルはスコアマッチング理論より先に登場していたことを知った。OpenAIが2億5千万枚の画像を学習させたとき、理論的な説明が不足していたにもかかわらず、挑戦的な試みだった。
  • 学習ループが間違っているように見える。x0epsxt の表現に使われておらず、ランダムノイズを予測しているように見える。
  • 拡散トランスフォーマー向けの、Apache または MIT ライセンスの最高の Python ライブラリを探している。
  • 共有してくれてありがとう。拡散モデルがどのように動作するのかについて洞察を得られた。ランダム性は強力だ。今度は適切でない言語でコーディングしてみる時間だ。
  • コメントを読む人向けに要約する内容はあまりない。この投稿はStable Diffusionの要約だ。
  • 2022年に絵を学んでいたが、Stable DiffusionのようなAIアートモデルの登場に驚いた。コンピューターは自分より優れた芸術家になった。AIが創造的な作業にさらに踏み込むほど、これらをすべて消し去りたくなる。