1 ポイント 投稿者 GN⁺ 2023-12-01 | 1件のコメント | WhatsAppで共有

マルチビュー視覚錯覚の生成:拡散モデルを用いた研究

  • ミシガン大学の Daniel Geng、Inbum Park、Andrew Owens は、拡散モデルを用いてマルチビューの視覚錯覚を生成する新しい方法を提案した。
  • この方法は、画像が変形されたときに別の見た目やアイデンティティとして見える画像を生成するもので、回転、反転、色反転、傾き、ジグソーパズルの再配置、ランダムな順列など、さまざまな変換をサポートする。
  • この研究は、理論面だけでなく実際の例を通じても手法の有効性を実証している。

方法論

  • 用いられた方法は概念的に単純で、市販の拡散モデルを使って画像のさまざまなビューまたは変換におけるノイズを推定する。
  • 推定されたノイズは逆ビューを適用して整列・平均化され、その平均化されたノイズ推定値を用いて拡散ステップを進める。

ビューに対する条件

  • すべてのビュー関数が上記の方法と互換性を持つわけではなく、ビュー関数は必ず可逆でなければならない。
  • ビュー関数が信号とノイズの間の重みを維持するには線形性を持つ必要があり、これは線形変換を表す正方行列 A によって達成できる。
  • 拡散モデルは、ノイズが標準正規分布から独立同一に抽出されると仮定するため、変換されたノイズもこの統計に従わなければならない。
  • 線形変換の場合、これは A が直交行列であるという条件と同値である。

直交変換

  • ほとんどの直交変換は視覚的な意味を持たないが、順列行列は直交行列の部分集合であり、画像内のピクセルの並べ替えとして解釈できる。
  • この研究で示された錯覚の大半は、回転、反転、傾き、「内部回転」、ジグソーパズルの再配置、パッチ順列など、ピクセルの特定の並べ替えとして解釈できる。
  • 色反転は順列ではないが、ピクセル値の否定としての直交変換である。

GN⁺の見解

  • この研究は、画像変換を通じて多様な視覚錯覚を生成する新しい方法を提示することで、人工知能技術とアートの境界を広げることに貢献している。
  • とりわけ、画像のピクセルを並べ替えて多様な視覚効果を生み出す方法は創造的であり、これによって新しい形のアート作品の生成が可能になると期待される。
  • この記事が興味深い理由は、既存の拡散モデルを活用して視覚錯覚を作る独創的なアプローチを探究している点にあり、これは初級ソフトウェアエンジニアにも新たなインスピレーションを与えうる研究である。

1件のコメント

 
GN⁺ 2023-12-01
Hacker Newsのコメント
  • あるユーザーは、昨年初めに似たアイデアを持っており、チェス盤方式を使って実験したという。9人の有名画家のスタイルで描いた猫の絵から作った1枚の猫画像を例に挙げている。この技術は、数か月前に物議を醸した「スパイラル」ControlNet画像とは無関係で、DeepFloyd-IFベースで作られたものだと述べている。
  • 別のユーザーは、男性/女性の色反転画像が印象的だと評価し、自分は画像を頭の中で回転させて別の見方をすることはできるが、色反転は難しいと感じている。
  • さらに別のユーザーは、男性/女性の反転画像をとても気に入っており、同じ技術を拡張して1枚の画像からどれだけ多くの順列を生成できるのか気になっている。2つの直交変換を連続して適用した場合でも直交変換になるのかについて、数学的理解が不足しているとも述べている。
  • あるユーザーは、提示されたすべての例は「まあまあ」だと評価しつつ、ペンギン/キリン画像がおそらく最も良いようだと述べている。老人/ドレス画像は、どちらにもあまり似ていないと感じている。
  • ニューラルネットワークを使うのはこの作業には過剰かもしれず、錯視に対する理論的理解の代替として最適ではないかもしれないが、結果自体に異論の余地はないと考えるユーザーもいる。
  • こうした画像を楽しんでいるユーザーもおり、素晴らしい投稿だと評価している。
  • 赤い光/青い光の下で別のものに見える画像を作るのは面白そうだというアイデアを示すユーザーもいる。
  • アヒル/ウサギ画像がスライディングパズルに使われ、2つの有効な解法を提供するなら本当に面白いだろうという意見を述べるユーザーもいる。
  • 実際に購入できる、このようなジグソーパズルが存在するのか気になっているユーザーもいる。