生成モデルは何を知っているのか？本当に知っているのか？

(intrinsic-lora.github.io)

1 ポイント投稿者 GN⁺ 2024-02-25 | 1件のコメント | WhatsAppで共有

実際のシーンをもっともらしく生成するGAN・自己回帰・Diffusionモデルの内部には、深度・法線・アルベド・シェーディングのようなシーン内在属性が暗黙的に含まれている可能性がある
提案手法は、モデル構造への依存が比較的少ないLoRAによって既存の画像生成デコーダをそのまま活用し、intrinsic representationを復元する
VQGAN・Stable Diffusionではattention layer、StyleGANではaffine layerに軽量なLoRAを取り付け、別個のtask-specific decoding headなしでintrinsic imageを得る
Stable Diffusionではrank 2基準で、モデル全体の重みの0.04%だけを学習可能パラメータとして追加し、ラベル付き画像250枚だけでもintrinsic imageの生成が可能
制御実験では、生成モデルの品質が高いほど復元されたシーン内在属性の精度も高くなる傾向が見られたが、モデルとドメインによって抽出可能性は異なる

研究課題とLoRAアプローチ

生成モデルが実際のシーンをうまく模写できるなら、内部表現にも**シーン内在属性（scene intrinsic）**が含まれている可能性がある、という問いから出発している
この研究が確認しようとしている点は4つある
- GAN、Autoregressive、Diffusionモデルはどのようなintrinsic knowledgeをエンコードしているのか
- アーキテクチャやモデル種類に関係なくintrinsic representationを復元できる汎用フレームワークを作れるのか
- 必要な学習パラメータとラベルデータはどこまで少なくできるのか
- 生成モデルの品質と復元されたintrinsic精度の間に直接的なつながりはあるのか
手法の中心はLow-Rank Adaptation（LoRA）
- VQGANとStable Diffusionにはattention layerにLoRAを適用
- StyleGANにはaffine layerにLoRAを適用
- 別個のtask-specific decoding headやlayerを追加せず、画像生成に使う同一のdecoder headを使用
関連資料

復元結果とモデル別の違い

小さなLoRAだけで、複数の生成モデルからdepth, normals, albedo, shadingを復元できる
Stable Diffusionではrank 2 LoRA基準で、学習可能パラメータをモデル全体の重みの**0.04%**まで減らせる
ラベル付き画像が250枚しかなくても、LoRAモジュールを通じてintrinsic imageを生成できる
制御実験では、モデル品質と復元されたintrinsic精度の間に正の相関関係が確認された
モデルとドメインによってintrinsic抽出結果は異なる
- VQGAN / Autoregressive / FFHQ: normal・depthは中程度の品質、albedo・shadingは高品質
- StyleGAN-v2 / GAN / FFHQ: normal・albedo・shadingは高品質、depthは中程度の品質
- StyleGAN-v2 / GAN / LSUN Bed: normal・depth・albedo・shadingはすべて高品質
- StyleGAN-XL / GAN / FFHQ: normal・albedo・shadingは高品質、depthは中程度の品質
- StyleGAN-XL / GAN / ImageNet: normal・depth・albedo・shadingはすべて抽出不可
- Stable Diffusion-UNet / Diffusion / Open: normal・depth・albedo・shadingはすべて高品質
- Stable Diffusion / Diffusion / Open: normal・depth・albedo・shadingはすべて高品質
Stable Diffusion 2.1を拡張した方式のintrinsic mapはpseudo ground truthと比較され、比較項目はsurface normals, depth, albedo, shading

1件のコメント

GN⁺ 2024-02-25

Hacker Newsのコメント

Soraへの期待が大きかった理由の一つは、いくつかの動画を見ると、内部で物理世界シミュレーションが動いていて、映像はその3Dシーンをカメラで撮影したもののように感じられたから
単に別の映像断片をつなぎ合わせている以上のことが裏で起きているという直感があり、この論文はその証拠のように見える
静止画像生成器でも、モデルが事実上3Dシーンをレンダリングして写真を撮る方法を学んでいることが明らかになっている。3Dエンジンを作ろうとしたわけではなく、画像の山を線形代数に入れて最適化しただけなのに、世界シミュレータが飛び出してきたようで驚き
- 人間は3D世界に生きていて、学習データも同じシーンを複数の角度から見る連続的な両眼視覚ストリームになっている。一方でSoraはテレビを見ながら世界を学んだようなものなので、3Dシーンの暗黙的表現とレンダリングを学ぶには、もっとビデオゲームをやる必要があるのかもしれない
- いまだに人々が、実際には映像断片をつぎはぎしているだけだと思っていることに驚く
- 「3Dエンジンを作ろうとしたわけではなく、画像を線形代数に放り込んで最適化したら世界シミュレータが出てきた」という言い方は、擬人化された進化が心について言いそうな言葉に聞こえる
- メーカーが選んだ映像の中にも、猫に5本目の脚が生えたあとすぐ消える場面があったが、そういう現象がこの楽観的な物語とどう整合するのか疑問
- ニューラルネットワークは線形代数ではない。今どきは大半がReLU活性化を使っていると考えると、ニューラルネットワークの核心は半分線形な構造であり、その半端な線形性が力を与えている
名前はBojack Horsemanに出てくる架空のゲームショー Hollywoo Stars and Celebrities: What Do They Know? Do They Know Things?? Let's Find Out! から取られている
https://bojackhorseman.fandom.com/wiki/Hollywoo_Stars_and_Ce...!
- その番組が本当に大好きで、ノートPCにもステッカーを貼ってある。Bojack Horsemanを見たことがないなら、面白くて誠実で、実存的な感触が強い作品なので、好みに合えばぜひ見る価値がある
  完成度の高いアニメ作品のパッケージとしては、Futuramaよりずっと上だと思う。共感できる深みがたくさんあって強く刺してくるけれど、十分に軽やかさを保っているので、見終わったあとも気分は悪くならない
  今はfilmtech方面で働くようになったので、Hollywooステッカーがさらにしっくりくるようになった
- タイトルを見ただけでこの投稿に賛成票を入れた
- この特定のゲームショーのタイトルをかなり頻繁に引用するのだけれど、通じる人があまりいなくて、ただの変な人みたいに見えてしまうのが残念
- 作中でずっとHSaCWDTKDTKTLFOと呼んでいるのも面白い。長い略称全体を短い略称みたいに一文字ずつ読むのが、この番組でいちばん好きな反復ギャグかもしれない
- 仲間を見つけた気分。この番組を6回くらい見た
Unity High Definition Rendering PipelineのテストプロジェクトでG-bufferを取り出そうとしていたときのことを思い出した: https://www.youtube.com/watch?v=Fwtc694qNUM
ただ、この論文が本当に何かを証明しているのかはよく分からない。ここでは巨大なUNet LoRAモデルを学習しているが、既存モデルから何かを「抽出」しているのか、それとも遅延レンダリングパイプラインから出てきそうなチャンネルを生成する新しいモデルを作っているのかが曖昧
法線、アルベド、深度を組み合わせる遅延レンダリングは、3Dシーンを作る数ある手法の一つにすぎず、ビデオゲームでも2000年代初頭のXbox向けShrekゲーム以前には使われていなかった (https://sites.google.com/site/richgel99/the-early-history-of...)
本当にすごいのは、画像生成モデルから「カメラ」の回転・移動行列を抽出できるLoRAモデルだと思う。そうなれば、はるかに強い証拠になるし、同時にかなり有用でもあるはず
- 補足資料を見ると、ランダム初期化されたUNetでLoRAを学習させる実験がある。その場合、事前学習済みStable Diffusion UNetを使うときと違って表面法線をほとんど抽出できず、モデル内の既存特徴が性能に重要であることがかなり明確に示されている
- 詳しいわけではないが、「新たに学習したパラメータが生成モデル全体のパラメータの0.6%未満」という部分が、その疑問への答えになっているのではないかと思う
  0.6%は小さな数字に聞こえるが、正しいものを測っているのかは気になる。モデルが私たちが抽出しているものとまったく同じ表現をエンコードしている必要はないとしても、モデルサイズの観点から安価かつ安定的に法線、アルベド、深度へマッピングできる何かをエンコードしているなら、それだけでも非常に意味があるように見える
  どんな基底ベクトルを使っているかは重要ではなく、自分の表現へどうマッピングするかさえ分かればよい
論文をざっと見たが、多くの部分が難しかった。画像生成AIに慣れていない立場として、核心の文のように見える「I-LoRA modulates key feature maps to extract intrinsic scene properties such as normals, depth, albedo, and shading, using the models' existing decoders without additional layers, revealing their deep understanding of scene intrinsics」が正確にどういう意味なのか気になる
「主要な特徴マップを変調してシーンの内在的な特性を抽出する」とは何を意味するのか、追加のデコード層なしでどうやってこうしたシーン属性画像を生成したのかを理解したい
- パラメータ10億個のニューラルネットワークがあるとして、そこに500万個ほどのパラメータをあちこち追加し、その新しいパラメータだけをLoRA方式で学習し続け、基本ネットワークには手を触れないという形
  すると、シーン属性を予測する変調されたネットワークになる
  興味深いのは、追加パラメータが非常に少なくて済む点で、つまり元のネットワークがすでにその地点にかなり近かったことを意味しているように見える
ToyotaやAdobeがなぜこういう名前の研究に資金を出しているのかは分からないが、本当に気に入っている。科学にもまた少し遊び心が戻ってきてほしい。
より実際的には、「少数のラベル付き画像で最適化されたモデル非依存のアプローチが、Diffusionモデル、GAN、Autoregressiveモデルなど多様な生成アーキテクチャに適応する」という説明を見ると、これが純粋に視覚・空間的な道具なのか気になる。
例がたまたま視覚的なものというだけではなく、テキストモデルへ拡張する方法はないのだろうか？こうした解釈可能性のアプローチは初めて見たが、非常に印象的だ。
- 言語モデルの事実情報を編集する研究もある。 https://rome.baulab.info/
- ToyotaやAdobeがコンピュータビジョン研究に資金を出す理由が本当に分からないのか？
- 私たちが必要だと気づいていなかったBojack Horsemanリファレンスだ。
かなり驚かされる。これらのモデルは、解読不能な何十億次元もの超平面で魔法を使っているだけではなく、実際に人間が解釈可能な表現を学習しているわけだ。
- 年季の入った3Dグラフィックスエンジニアの立場からすると、その中にアルベドがあるという事実は予想できなくもないが、それでも本当に印象的だ。
  物理ベースレンダリングの中核的な構成要素は、位置、表面法線、入射光、そして少なくともアルベドや反射率・粗さのような表面材質属性のどれかだ。位置は画像のXYと深度から導き出せる。
  AIが深度をモデル化するのはかなり予想しやすく、表面法線は深度の局所的な畳み込みのように見なせる。しかし、入射光と分離されたアルベドをモデル化しているのは見事だ。反射率もどこかに隠れているのか気になる。
- 生成モデルがかなり複雑な内部世界モデルを持っている証拠は多いのに、いまだにただの「確率的オウム」で、「何も本当に理解していない」と言い張る人がいるのは驚きだ。
これはVR、あるいは空間コンピューティングにとって朗報だ。論文が示すほどモデルが物理世界を理解しているなら、1つの場面から2つの投影を生成するのはそれほど難しい要求には思えない。今後が本当に楽しみだ。
これが実画像からアルベドと照明を予測できるなら、誰か再照明可能なGaussian splattingシーンを作ってほしい。動的照明は、写真から作った3Dスキャンの活用範囲を大きく広げてくれるはずだが、まだその分野で「良い」と呼べる結果を見たことがない。
- 本当に実画像を使えるのだろうか？もし可能なら、実画像から深度マップを抽出するのが最も有用な応用のように思える。
懐疑的になりたいわけではないが、画像生成企業がデータセットに法線マップのようなものを入れて強化していないと、どうやって分かるのか気になる。
この論文が検証可能なオープンソースモデルを扱っているのは理解しているが、より進んだモデルの秘伝のソースがそういうものかもしれないのでは？
- そうするには、法線マップ画像と元画像を対にして学習させる必要がある。私の知る限り、そういうやり方は一般的な学習手法ではなく、この能力はいくつものオープンモデルにまたがって現れているようだ。
生成モデルの知覚能力が人間より優れているのか、人間がだまされる錯視でテストしてみると面白そうだ。たとえばPonzo錯視のような状況で、深度を正しく判断できるのか気になる。

生成モデルは何を知っているのか？ 本当に知っているのか？

研究課題とLoRAアプローチ

復元結果とモデル別の違い

関連記事

1件のコメント

Hacker Newsのコメント

生成モデルは何を知っているのか？本当に知っているのか？