1 ポイント 投稿者 GN⁺ 2023-12-14 | 1件のコメント | WhatsAppで共有

リアルタイムの大規模シーン探索のためのストリーミング可能でメモリ効率の高いラディアンスフィールド(SMERF)

  • リアルタイム視点合成技術の発展により、ほぼ写真のようなシーンをリアルタイムでレンダリングすることが可能になった。
  • ラスタライズ可能な明示的なシーン表現と、レイマーチングに基づくニューラルフィールドの間には緊張関係が存在する。
  • SMERFは、大規模シーンにおいてリアルタイム方式で最高の精度を達成するビュー合成アプローチを紹介する。

大規模シーンを処理するための表現力向上方法

  • 大規模な複数室内シーンを複数の独立したサブモデルとしてモデリングし、レンダリング時にはカメラ原点に基づいてサブモデルを選択する。
  • 複雑な視点依存効果をモデリングするため、各サブモデル内でグリッドに整列した遅延MLPパラメータを追加でインスタンス化する。
  • 各サブモデルはシーン全体を表現するが、高解像度でモデリングされるのはサブモデルに割り当てられたグリッドセルのみである。

表現力最大化のための蒸留(distillation)の活用方法

  • 画像品質は蒸留によって大幅に向上できることを示している。
  • 最新のオフラインラディアンスフィールド(Zip-NeRF)をまず学習させ、このモデルのRGB色予測を自モデルの教師信号として使用する。
  • 教師モデルの体積密度値を最小化し、教師と生徒の間のボリュームレンダリング重みの差を最小化する。

GN⁺の見解

  • SMERFは、大規模シーンにおいて高品質なビュー合成をリアルタイムで可能にする革新的な技術である。
  • この技術はWebブラウザ内での6DOFナビゲーションを可能にし、さまざまな一般消費者向けデバイスでリアルタイム性能を提供する。
  • SMERFのアプローチは、リアルタイムビュー合成分野で既存技術を上回る性能を示しており、これは仮想現実、ゲーム開発、オンライン不動産ツアーなど多様な分野に応用できる興味深い進展である。

1件のコメント

 
GN⁺ 2023-12-14
Hacker Newsのコメント
  • ベルリンのトイレの壁にある鏡から、隣室のキッチンが見えてしまう。深度推定アルゴリズムが視差を使っており、鏡が窓のように混乱を招くためにこの現象が起きていると推測される。鏡の裏側がキッチンにぼやけた領域を作るが、そのぼやけを通して両方の部屋が見える。この効果は少し不気味に感じられる。壁をすり抜ける幽霊のような感覚がある。2年前の s21fe でも驚くほどうまく動作する。
  • ベルリンのデモでは、空間を探索するにつれてより多くの画像がストリーミングされるのが非常に印象的だった。TV の反射効果も非常に印象的だ。ただし、すべての画像が読み込まれるまでシーンがレンダリングされず、最初の約40枚の画像がすべて読み込まれるまでに時間がかかる。画像が届き次第、部分的にレンダリングを開始することが可能なのか、それとも最初の大きなレンダリングの前にすべての画像を待つ必要があるのか気になる。
  • fulllivingroom デモについていくつか質問がある。(FPS モード推奨)
    1. 入力画像は何枚あるのか?
    2. このモデルの計算にはどれくらい時間がかかるのか?
    3. このモデルをブラウザで全レベルなどを含めて準備するのにどれくらい時間がかかるのか?
    4. VR でこれを試したことはあるのか?
  • このレンダリング手法と、Cyberpunk 2077 で生成された BD シーンの間にどのような関連があるのか気になる。ボリュームと「ボクセル」の振る舞いがとてもよく似ているように見える。
  • Two Minutes Paper を通じてこの技術を追いかけており、使えるようになるのを楽しみにしている。祖父が2年前に亡くなったが、デモで使われていたように写真を撮っておいた。感謝している。
  • キャプチャ、処理、そして探索可能な 3D ウォークスルーをホスティングできるオープンソースのツールチェーンがあるのか気になる(たとえばオープンソース版 Matterport のようなもの)。
  • 3D Gaussian Splatting と比べて、この技術が性能、品質、またはデータサイズの面でどう比較されるのかについての情報は非常に印象的だ。
  • これらの技術から見えてくるのは、非常に正確な単一の探索可能な 3D 画像だ。しかし、機能や物体検出、遮蔽、抽出についてはまだ何も見ていない。できれば、より効率的でストリーミング可能なコーデックが、解析により適用しやすい構造を必要とすることを期待したい。
  • この技術をコンシューマー向け VR でいつ見られるのか気になる。もう実現していてもおかしくないと思っていたが、計算上の制約のためにまだないようだ。Quest 2/3 で動かすのに十分な計算制約を解消できるのか、あるいは両眼利用を妨げる別の要因があるのか気になる。
  • 著者への質問:シーンのモデルを再構成するために、最適化やチューニング手法を使わない余地があるのか気になる。シーンのビューをレンダリングする効率的な方法は改善されているが、シーン自体は依然として静的だ。シーンの再構成にも時間がかかる。高価な再構成コストなしに RF や GS の優れた見た目やディテールを実現する方法があるのか、あるいはレンダリングが高速になった今、新しい表現のもとで従来の CG 手法を使ってシーンを貪欲に再構成できる方法があるのか気になる。誤解があればあらかじめお詫びするが、皆さんが進めている仕事に本当に感謝している。