1 ポイント 投稿者 GN⁺ 2024-02-25 | 1件のコメント | WhatsAppで共有

INTRINSIC LoRA (I-LoRA) の隠れた能力の発見

  • INTRINSIC LoRA (I-LoRA) は、VQGAN、StyleGAN-XL、StyleGAN-v2、Stable Diffusion などの生成モデルの隠れた能力を明らかにする。
  • この手法は、追加のレイヤーなしでモデルの既存デコーダを用いて、表面の基本属性である法線、深度、アルベド、シェーディングを抽出する。

生成モデルの潜在的理解

  • 生成モデルは、非常に詳細で現実的な画像を合成する能力を持つ。
  • これらのモデルは、表面法線、深度、影などの画像の内在的特性を暗黙的に学習していると推定されている。
  • 本論文は、生成モデルが実際に高品質なシーン内在マップを内部的に生成しているという有力な証拠を示す。

INTRINSIC LoRA (I-LoRA) の紹介

  • INTRINSIC LoRA (I-LoRA) は、あらゆる生成モデルをシーン内在予測器へ変換する、汎用的でプラグアンドプレイな方式を紹介する。
  • 追加デコーダやネットワーク全体のファインチューニングなしで、元の生成ネットワークから直接シーン内在マップを抽出できる。
  • この手法は、生成モデル全体のパラメータの 0.6% 未満に相当する新しいパラメータを用い、主要特徴マップの低ランク適応(LoRA)を活用する。
  • 少量のラベル付き画像で最適化され、Diffusion モデル、GAN、Autoregressive モデルを含むさまざまな生成アーキテクチャに適用可能である。

さまざまな生成モデルにおけるシーン内在抽出能力の要約

  • 生成器ヘッドを変更することなく、多様な生成モデルから高品質な内在特性を抽出できることを要約する。
  • ✓: 高品質で内在特性を抽出できる。
  • ~: 中程度の品質で内在特性を抽出できる。
  • ✗: 内在特性を抽出できない。

I-LoRA を用いた内在マップ生成の比較

  • 拡張された Stable Diffusion 2.1 を用いて、本手法で生成した内在マップと、それに類似したグラウンドトゥルースとの比較を図で示す。

GN⁺の見解

  • INTRINSIC LoRA (I-LoRA) は、既存の生成モデルの潜在能力を新たな次元へ拡張する革新的なアプローチである。
  • 本研究は、生成モデルが単なる画像生成を超えて実際のシーンの内在的特性を理解していることを示し、人工知能の視覚理解能力に関する新たな洞察を提供する。
  • この技術は、コンピュータビジョン、グラフィックス、AR/VR など多様な分野で応用される可能性を持ち、この分野の研究者や開発者にとって非常に興味深い進展である。

1件のコメント

 
GN⁺ 2024-02-25
Hacker Newsのコメント
  • Soraに対する熱狂的な反応の一つは、その内部に物理世界のシミュレーションがあるように感じられたことだった。これは、単に別の動画をつなぎ合わせる以上の処理が裏側で行われていることを示している。

    • モデルは3Dシーンをレンダリングして写真を撮る方法を学習している。これは、私たちが3Dエンジンを作ろうとしたわけではなく、画像を線形代数に投げ込んで最適化した結果として世界シミュレータが現れたという点で驚きだ。
  • 名前は、『Bojack Horseman』に登場する架空のゲームショー『Hollywoo Stars and Celebrities: What Do They Know? Do They Know Things?? Let's Find Out!』への言及。

  • Unity High Definition Rendering PipelineのテストプロジェクトでG-bufferを抽出しようとした経験を思い出した。

    • この論文が実際に何かを証明しているのかは確信が持てない。巨大なUNET LoRAモデルが訓練されているため、既存モデルから何かを「抽出」しているのか、それとも単に遅延レンダリングパイプラインから出てきそうなチャネルを生成できる新しいモデルを作っているだけなのかが不明だ。
  • 画像生成AIに詳しくない者として、論文をざっと読んだが理解が難しかった。

    • I-LoRAは、追加レイヤーなしでモデルの既存デコーダを使い、法線、深度、アルベド、シェーディングのようなシーンの本質的な属性を抽出するとされているが、これが正確に何を意味するのか説明を求めている。
  • これはかなり注目に値する。モデルは人間が理解できる表現を実際に学習しており、私たちが解読できない何十億次元もの超平面上で魔法のようなことだけをしているわけではない。

  • この研究はVR(または空間コンピューティング)にとって朗報だ。モデルが物理世界をよく理解しているなら、シーンの2つの投影を生成するのはそれほど難しくないように思える。今後何が出てくるのかとても楽しみだ。

  • この技術は実際の画像を取り込み、アルベドと照明を予測できる。誰かに、これを使って再照明可能なGaussian Splattingシーンを作ってほしいという声があった。動的照明は、写真から作られた3Dスキャンの有用性を大きく広げるはずだが、まだ「良い」と言える結果は見たことがない。

  • これは画像向けのGPTなのか? 生成モデルを取り出し、LoRAを通じて表面法線のような下位タスク向けにファインチューニングを施し、こうしたモデルがこれらの表現を本質的に学習していると結論づけている。教師ありアプローチよりも良い結果を示している。

  • 懐疑的というわけではないが、法線マップなどが画像生成企業によってデータセットに豊富に含まれていないと、どうして分かるのだろうか?

    • この論文は、それを検証できるオープンソースモデルにリンクしているが、これがより高度なモデルにおける秘密の材料の一つである可能性もある。
  • 例えば、法線マップはどのように得られるのか? AIが画像を生成する前にそれを生成し、その内部状態からそれらを読み出しているのだろうか?