1 ポイント 投稿者 GN⁺ 2024-05-18 | 1件のコメント | WhatsAppで共有
  • 人間は3D一貫性のない画像からでも3D世界を認識できる
  • Toon3Dはpiecewise-rigid deformable最適化を通じて、カメラポーズと高密度ジオメトリを復元できる
  • 手描きのシーンは3D一貫性がないが、Toon3Dを使って復元し、これまで見たことのない新しいビューを補間できる

Abstract

  • Toon3Dを提案
    • 幾何学的に一貫していないシーンの基礎的な3D構造を復元する
    • 漫画やアニメーションの手描き画像に焦点を当てる
    • 多くの漫画は3Dレンダリングエンジンを使わず、アーティストが直接描いたもの
    • 手描き画像は世界を定性的に忠実に表現するが、複数の視点を3D一貫性を保って描くのは難しい
    • 人は一貫性のない入力からでも3Dシーンを容易に認識できる
    • 2Dの絵の不一致を修正し、新たに変形した絵同士が互いに一貫するようにする
    • ユーザーフレンドリーな注釈ツール、カメラポーズ推定、画像変形によって密な構造を復元する
    • 画像を透視カメラモデルに合わせて変形し、新しいビュー生成の再構成手法にプラグインできる

漫画の再構成

  • まずカメラポーズと整列済みポイントクラウドを復元する
  • 密なポイントクラウドからガウシアンを初期化し、復元したカメラでGaussian Splattingを最適化する
  • 深度正規化があり、Nerfstudioを基盤として構築されている
  • シーンのフライスルーレンダリングを示す

方法

  • 各画像の深度をMarigoldで予測し、SAMで候補の一時的マスクを得る
  • Toon3Dラベラーで画像にラベル付けして対応関係を得て、一時的な領域を示す
  • カメラポーズを最適化し、画像を歪ませて補正済みの透視カメラを得る
  • 整列した密なポイントクラウドでガウシアンを初期化し、精緻化を実行する

Toon3Dラベラー

  • 手法の2つの主要ステップを示す
    • 疎な整列ビデオ: おおまかなカメラパラメータ推定
    • 密な整列ビデオ: さまざまなレイヤー(カメラ、疎対応、歪みメッシュなど)を用いて3Dで整列する方法を示す

Rick and Mortyの家の内部探索

  • 壁と天井にラベルを付け、部屋をつないでRick and Mortyの家の内部を再構成する
  • 1本目のビデオ: ポイントクラウド、カメラ、ユーザー定義のラベリングインターフェースを示す
  • 2本目のビデオ: スライダーをスクラブして家の内部を見て回れる

ポイントクラウドとカメラ

  • Toon3Dデータセットの12個の漫画シーンに対するポイントクラウドと復元されたカメラを示す
  • アイコンをクリックしてシーンを探索できる

疎視点再構成

  • 少ない画像と大きな視点変化でシーンを再構成できる
  • COLMAPが失敗する場合でも、Toon3Dラベラーで人手による対応関係を取得して介入できる
  • Airbnb掲載の2つの部屋("リビングルーム"と"ベッドルーム2")のフライスルーレンダリングを示す

不一致の可視化

  • 漫画は手描きであるため、画像を3D一貫性を持つように歪ませる必要がある
  • 1つ目の項目: 整列最適化中に歪みが発生するビデオ
  • 次の2つの項目: 元の絵と歪ませた絵、および両者の重なりを示す画像
  • ぼやけた領域は大きな歪みが生じた場所を示す

絵の再構成

  • Toon3Dを使えば手描きの絵も再構成できる
  • 各画像の深度を予測し、その後ポイントクラウドを整列して歪ませる
  • 最後にガウシアンの精緻化を用いてビデオを生成する

GN⁺の意見

  • Toon3Dは、漫画やアニメーションの手描き画像を3Dに再構成する革新的な手法
  • この技術は新しい視覚体験を提供し、特にアニメーション制作やゲーム開発に大きく役立つ可能性がある
  • ただし、手作業でラベル付けする工程はやや煩雑であり、自動化手法がさらに発展するとよい
  • 類似機能を提供する他のプロジェクトとしてCOLMAPやNerfstudioがある
  • この技術を導入する際は正確なラベル付けと深度予測が重要であり、それによってより一貫した3D再構成が得られる

1件のコメント

 
GN⁺ 2024-05-18
Hacker Newsの意見

Hacker Newsコメントまとめ要約

  • FuturamaのPlanet Expressビルの例

    • FuturamaのPlanet Expressビルが3Dの不一致の例として使われているのは興味深い。実際には3Dモデルから生成されたように見える。
    • グラフィックアーティストではないが、イラストレーターの作品が複雑な意味を伝える創造的な表現技法を使っている点を高く評価している。
    • 最近のLLMs(大規模言語モデル)の誇大宣伝に似た、「混乱した」3D空間再構成を連想させる。
  • 3D空間生成の面白さ

    • 一貫性のないソース画像から3D空間を作るのは非常に面白いアイデアだ。
    • 数年前、抽象的で非空間的な画像を仮想現実空間に変換する試みをしたことがある。たとえば、カンディンスキーやポロックの抽象画を探索可能な仮想現実空間に変換することだ。
    • ワークフローは抽象画の画像から始め、SinGanを使って「シーン」の別の「ビューポイント」を生成し、3D写真インペインティングで深度マッピングを行ったあと、フレームをフォトグラメトリアプリに投入するというものだ。
  • 将来の3Dモデル生成の可能性

    • 想像したシーンの絵をもとに(品質は低いが)3Dモデルを生成できることに驚きがある。
    • 将来は、アーティストが数枚の画像だけで正確な3Dモデルを得られるようになるかもしれない。
    • AIに類するツールがアーティストに与える影響への懸念がある。しかし、機械学習ベースのシステムがアーティストとより直接的に協力する未来も想像できる。
    • 芸術家が芸術を創作することの価値を考えると、AIが芸術家を置き換えることは文明全体にとって悪い結果をもたらしかねない。
  • 2Dアートワークの3D変換の問題

    • 2Dアートワークには一貫した3D空間がない。この問題は有用な形では解決されていないように見える。
    • 元のカメラ位置から外れると、シーンはほとんど一貫性がない。
  • フォトグラメトリとVR

    • Quest 2を使ってフォトグラメトリを調べた経験がある。複数の角度から撮った写真を使って3Dモデルを作るパイプラインを探っていた。
    • VRへ移植する際に重要なのは、クリーンなメッシュを作ることだ。現在のツールは3Dメッシュを生成しない。
    • Matterportのようなモデルを作って不動産会社に販売しようという動機があった。しかし、クリーンなメッシュを自動生成する工程が最も労働集約的だ。
  • アルゴリズム改善の必要性

    • 特定の画像の視点から見た外観を再現する性能が良くない。たとえば、Magic School Busの例がある。
    • アルゴリズムは画像をより信頼するように調整される必要がある。
  • サイトの動画自動再生の問題

    • すべての動画が自動再生かつループするサイトは不快だ。セカンドスクリーンで動画を見ているときにそのサイトを訪れると、引っかかりが発生する。
  • 宮崎の反応

    • Spirited Awayの例を宮崎に見せたら、生命そのものへの侮辱だと言いそうだ。
  • 期待外れの結果

    • すべての例が非常に悪く見える。中間フレームのノイズとぼやけのせいで、元画像と一緒には使えない。
    • 各要素の始点と終点がほとんどつながっていない。壁やドアなどが目的地に向かって飛んでいくが、最終位置の数フィート手前で消えてしまう。
    • アイデアは素晴らしいが、実際に機能する版を見てみたい。