Toon3D: 新しい視点で見る漫画

(toon3d.studio)

1 ポイント投稿者 GN⁺ 2024-05-18 | 1件のコメント | WhatsAppで共有

Toon3D は、同じ場面を描いた漫画・アニメーション画像からカメラポーズと高密度な3D構造を復元し、実際には描かれていない視点のビューを合成する手法
手描きの場面は明示的な 3D一貫性 が不足しているため既存のSfMが失敗しやすく、Toon3Dは画像を変形しながらカメラとシーン幾何を同時に整合させる
パイプラインは Marigold による深度推定、SAMのtransient mask候補、Toon3D Labelerでの人手ラベリングを組み合わせ、対応点とtransient領域をアラインメントに反映する
復元された高密度ポイントクラウドは Gaussian Splatting の初期化に使われ、Nerfstudioベースの最適化と深度正則化によって漫画シーンのfly-throughレンダリングを生成する
COLMAP、Bundle Adjustment、DUSt3Rより安定したカメラポーズとシーン幾何を得ることに焦点を当てており、Airbnbの部屋や絵画の再構成事例にも適用されている

手描きシーンでSfMが難しい理由

人間は3D的に完全には一貫していない画像でも 基底となる3Dシーン を認識できるが、機械は同じ条件で苦戦する
漫画やアニメーション画像は、ストーリーテリングや創作表現のために明示的な 幾何的一貫性 なしで描かれることが多い
既存のStructure-from-Motion（SfM）手法は3D一貫性を仮定するため、このような手描き画像では大きく失敗する
COLMAPは完全な対応点があっても非幾何的な手描き画像を再構成できず、Bundle AdjustmentやDUSt3Rも非常に悪い性能を示す

不一致を吸収するアラインメント方式

Toon3Dは、幾何的に不一致な画像を変形しながらカメラポーズとシーン幾何を同時に復元する
核となるアイデアは、画像間の幾何的不一致を変形で吸収し、シーンをより一貫した3D構造に合わせること
単眼深度推定で得られた 構造情報 がこのアラインメント過程を導く
手動でラベリングしたキーポイントをもとにpiecewise-rigid deformation最適化を行い、カメラポーズと高密度幾何を復元する

処理パイプライン

各画像の深度は Marigold で推定する
transient mask候補は SAM から得る
ユーザーは Toon3D Labeler で画像間の 対応点 をラベリングし、transient領域を指定する
最適化段階ではカメラポーズを合わせ、画像をワープして補正済みの透視カメラを得る
最後に、整列した高密度ポイントクラウドから Gaussians を初期化し、refinementを実行する

カメラと変形の同時最適化

Toon3Dの2つの主要目的は camera alignment と deformation alignment である
camera alignment objective はカメラパラメータを復元する
deformation alignment objective は、より近い整列のためにメッシュをワープする
実際の最適化では、この2つの目的を同時に満たす
手法の可視化には、カメラ、sparse correspondences、warping meshes、point clouds、gaussians など複数のレイヤーが含まれる

新規視点合成とfly-throughレンダリング

Toon3Dはまずカメラポーズと整列済みポイントクラウドを復元する
その後、高密度ポイントクラウドからGaussiansを初期化し、復元したカメラで Gaussian Splatting を最適化する
実装は Nerfstudio ベースで、深度正則化を含む
結果は漫画シーンのfly-throughレンダリングとして見ることができる
例のシーンには、Bob's Burgers、Family Guy、SpongeBob SquarePants、Rick and Morty、Simpsons、Spirited Away、Futurama、Avatar、BoJack Horseman、Magic School Bus、Scooby-Doo が含まれる

Toon3D Datasetとラベリングツール

Toon3D Dataset は、漫画とアニメーションの マルチビュー画像 で構成される
データセットには信頼できるsparse correspondencesの注釈が含まれる
注釈作業には、使いやすいToon3D annotation toolが使われる
復元されたポイントクラウドはnovel-view synthesis手法につながり、実際には描かれていない視点から漫画を見ることを可能にする
ページでは12の漫画シーンのポイントクラウドと復元されたカメラを可視化している

Rick and Mortyの家の内部再構成

Rick and Mortyの家の内部は、壁と天井の間をラベリングして部屋同士をつなぐ形で再構成される
1本目の動画は、ポイントクラウド、カメラ、カスタムのラベリングインターフェースを示す
2本目の動画では、スライダーで家の内部のwalkthroughを見ることができる
最も近いカメラの画像は画面右下に表示される

Sparse-viewとその他の入力事例

Toon3Dは、少数の画像しかなく視点変化が大きいシーンも再構成できる
COLMAPが失敗しうる状況では、Toon3D Labelerで人手ラベリングした対応点を追加できる
Airbnb listing の2つの部屋である “Living room” と “Bedroom 2” についてfly-throughレンダリングが提示される
COLMAPはすべてのカメラを復元できなかったが、ラベルによってCOLMAPを成功させることはできる
Toon3Dはシーン完成度の面で最も良い結果を出す

ワープ可視化と絵画の再構成

漫画は手描きであるため、3D一貫性を得るには画像を ワープ する必要がある
アラインメント最適化中にワープが進む様子を動画で示す
元の絵とワープ後の絵、2枚の画像のoverlapを比較する可視化も含まれる
ぼやけた領域は、大きなワープが発生した場所を示す
Toon3Dは手描きの絵画にも適用され、各画像の深度を推定した後にポイントクラウドを整列・ワープし、Gaussian refinementで映像を生成する

公開資料

arXiv: Toon3D論文
Code: 実装コード
Toon3D Labeler: 対応点とtransient領域のラベリングツール
Demo: Hugging Faceデモ
Overview Video: 問題設定と手法概要の動画

1件のコメント

GN⁺ 2024-05-18

Hacker Newsのコメント

FuturamaのPlanet Expressビルを3Dの不整合の例に挙げているのが興味深い
外観は実際には3Dモデルからコンピュータ生成されたものに近いと思う。本編を見ると、建物の周囲を滑らかかつ複雑に回り込むエスタブリッシングショットがよく出てくる
- 同意。Planet Expressビルと宇宙船の大部分、あるいは全部は初期シーズンから3Dレンダリングで、Benderが宇宙にいる一部のシーンでも、複雑で連続的な遠近変化が必要なときには3Dレンダリングが使われていた
  写真のようには見えない3Dアート（NPR）は、アニメーションでは思ったよりずっと昔から使われている。最近、1988年のDisneyアニメ映画「Oliver and Company」を見返したのだが、車や建物が「セルシェーディング」された3Dモデルで驚いた。最初はリマスター版かと思ったが、調べてみるとDisney映画でCGIを大量に使った最初の作品であり[0]、自分が見たものもオリジナルに含まれていた内容だった
  見つけたページにはこう書かれている: "This was the first Disney movie to make heavy use of computer animation. CGI effects were used for making the skyscrapers, the cars, trains, Fagin's scooter-cart and the climactic Subway chase. It was also the first Disney film to have a department created specifically for computer animation."
  References
  0: https://disney.fandom.com/wiki/Oliver_%26_Company
- 番組やゲームの3Dは、視聴者に見栄えよく見せるためにごまかしを使うことが多いのではないかと思う
  3Dアニメーターが自然に見えるように何をしているかを扱った記事を読んだ記憶がある。カメラが通り過ぎるとき、実際のシステム上の身長では小さすぎて見えるのでキャラクターを9フィートにしたり、アーチ形のドアを巨大に作ったのに特定の遠近ショットでは普通に見えるようにしたり、身長差が極端に見えて不自然にならないよう小さいキャラクターを画面外の青い箱の上に立たせたりする、といった具合だ。現実なら1,000フィートの廊下だが、カメラの通り方のせいで作中世界では100フィートに見え、その廊下のドア一つひとつは高さ18フィート、ということもある
  Futuramaのような作品もこうした技法を使っていたなら、このようにリバースエンジニアリングしてアニメーターが作業した3D空間を再構成すると、巨大なドア、9フィートの人間、非ユークリッド的な廊下が見えるかもしれない。カメラが通り過ぎるときに滑らかに見えるからといって、その実際の3Dモデルが別の視点から見ても筋が通るという意味ではない
- 最近は、3Dアニメーションのように見えないアニメーションでも、制作パイプラインのどこかに3Dモデルが入っていることが多い
  デジタルの3Dモデルがなくても、アニメーターが参考にできるよう、スタジオに主要な場所の物理模型を置くこともある
- その通り。Futuramaは1999年の第1話から合成された3D要素を使っており、乗り物はほぼ常に3Dだった
- 外観は1つの3Dモデルから生成されたのではなく、同じ対象を表す複数の3Dモデルから生成されたものに近い
  時間とともに変わったり、シーンごとに違ったりした可能性があり、Star TrekのEnterpriseのモデルのように考えられる
すごいとは思うが、実際の用途が何なのかはあまり思い浮かばない
2Dの絵は通常、一貫した3D空間を持っておらず、論文もそれを認めているが、有用な意味でその問題を克服できているようには見えない。元々描かれたカメラ位置から外れた瞬間、シーンの一貫性はかなり弱くなる
- FuturamaやFamily Guyは、例えば乗り物に3Dレンダリングを使い、漫画風にレンダリングしたうえで平面的な2Dアニメーションと合成することがある
  似た種類の作業が用途になり得る
  もう一つの活用法としては、2D漫画ベースのライセンスゲームを3D化するゲーム開発スタジオが考えられる。企画・開発中の可視化ツールとして使って素早く反復し、元の2Dが3Dにどう変換されるかを参照する用途だ
- SpongeBobは3D空間のルールを堂々と破っている。そもそも水中で火も出る作品だ
  脚本家もアーティストもLooney Tunesから大きな影響を受けており、そこではそうしたルールを破ること自体が面白いから破っている
- より洗練されたバージョンなら、漫画を立体映像にするのに使えそうだ
  ただし、このマッピング処理よりも、深度推定だけを使い、空いた部分は画像生成で埋めるほうがよい可能性が高い
- これは技術を見せ、発展させるための仕掛けに近いと思う
  こうした環境は3Dモデリングに大きな手間がかからないため、この文脈で実際の用途があるかは疑わしい
- 今後さらに進化すれば、複数のシリーズのビデオゲームを生み出せるようになるかもしれない
  粗くはあるが、漫画ベースのゲームの一部の実装よりも、原作の絵をうまく移し替えているように見える
一貫性のない元画像から3D空間を作るという発想が本当に面白い
数年前、似たようなことを雑でひどいやり方で試したことがある。明確な正解のない不整合な空間だけでなく、そもそも3D空間を表そうとしていない純粋に抽象的な非空間画像にも試した。KandinskyやPollockのような抽象画を、探索可能な仮想現実空間に変える試みだった。当然、「Pollockの絵の中を歩き回る」とは何かについての正解はなく、目的はただ、無理やりやってみると何が起きるかを見ることだった
ワークフローはこうだった: 1. 単一の抽象画の元画像から開始 2. SinGanで「シーン」の別の「視点」を生成 3. 元画像とSinGan画像に3d-photo-inpaintingまたはKen Burns系プロジェクトを適用し、単眼深度マッピングでズーム/回転/パン動画を出力 4. 3d-photo-inpaintingのフレームをフォトグラメトリアプリに投入。NeRFはまだなく、エラーや不整合を最大限許容するように全設定を上げた 5. フォトグラメトリ処理が落ちないよう祈る。10回中9回は24時間後にクラッシュして、かなり残酷だった
Twitterに例を上げたはずだが、検索語が見つからない。それでも2019年レベルの深度マッピングだけでも、抽象画からかなり面白い映像が出てきた: https://x.com/jonathanfly/status/1174033265524690949 いちばん近いのは、フレーム間の一貫性がないNVIDIA GauGAN動画のフォトグラメトリ結果: https://x.com/jonathanfly/status/1258127899401609217
このプロジェクトが同じアイデアをもっと上手くできるのか気になる。今週末に試してみるかもしれない
- 3D環境画像や部屋の絵を受け取って、床・壁・障害物を強調する大まかなメッシュを検出できる手法やライブラリには何があるだろう?
以前Quest 2を買ったあとフォトグラメトリの世界を掘り下げ、異なる角度から撮った物体写真で3Dモデルを作る一連のパイプラインを調べた
MeshRoomと、メッシュを整理してUnityへ移すためのいくつかのソフトウェアを使った
浅い理解では、Unityで物体の周りを歩き回るような形でVRに何かを持ち込むときの要は、きれいなメッシュを作ることだ。この記事のツールのようなものが作る3Dモデルは、まだ深く見てはいないが、3D空間の点群に近い。3Dメッシュを生成するわけではない
調査中に見たツールには https://developer.nvidia.com/blog/getting-started-with-nvidi... のようなものがあるが、これもメッシュは作らない。単なる映像に近く、VRで単純に歩き回れるものではないと思う
隠れた動機は、Matterportのようなものを複製するかモデル化して不動産会社に売ることだった。理解が大きく抜けていた部分、そして興味を失わせた原因は、複数のカメラ写真からきれいなメッシュを生成する工程をどう自動化するのか確信が持てなかったことだ。自分にはこの部分が最も労働集約的に見えた。あとでこの工程をこなせる機械学習モデルがあると聞いたが、そちらはよく知らない
- Unreal + Nanite + PCVRを使うほうがいいかもしれない
  Naniteは非常に複雑なメッシュを扱い、リアルタイムにアルゴリズム的に単純化できる。基本的には高度なLODシステムだ。限界は知らないが、試す価値はある。フォトグラメトリにはReality Captureを強くおすすめする。価格が非常に安く、スキャンごとの支払いだ
- NeRFはある程度去年の技術で、最近の過熱した関心はガウシアンスプラッティングのほうに向いている
  私の理解では、こうした技術は数枚の画像を入力としてモデルを学習させ、そのモデルはある意味で、画像をシーンモデルとしてレンダリングする最善の方法を学ぶ、というものだ。ガウシアンスプラッティングは画像を空間上の一種の「塊」として表現し、各画像は同じ塊の集合を特定の視点から使ってレンダリングされなければならない。そのため、各画像が正しくレンダリングされるようにスプラットの位置を決めれば、シーンを再現できる
  現在この学習はコストが非常に大きく、モデルごとにやり直す必要があるが、出力結果はリアルタイムで探索できる
  Matterportなどが使うフォトグラメトリのアプローチはより古い方式で、はるかに高品質な入力データを必要とするが、最新のアプローチはより少なく低品質なデータでも動作し得ると思う
- https://www.reddit.com/r/sdforall/comments/13lenfm/free_seam...
  https://github.com/3DTopia/OpenLRM
  NeRFに着想を得たと言っているが、ベース論文はビジョントランスフォーマーを使うことにしたように見える。オープンソース版はMetaのDINOを主要構成要素の一つとして使っているようだ
- Rhinoのshrink wrapのようなもの?
誰かが想像して描いたシーンを受け取って、出来は悪くても3Dモデルを作れるというのはかなり驚きだ
将来は、アーティストがシーンのスケッチを数枚描くだけで正確な3Dモデルを得られる、と想像できる
あるいは2Dアーティストがいくつかのポーズをスケッチするだけで、構造のしっかりした3Dモデルとテクスチャが自動で出てくるかもしれない
業界ではAIや類似ツールがアーティストに与える影響を大いに心配しているが、言語プロンプトベースのレンダリングよりも、機械学習システムがアーティストとより直接協業する未来も想像できそうだ
AI学習の道徳的な議論については、自分の感情ははっきりしない。私がより心配しているのは、どう学習したかよりも、人々にどんな影響を与えるかだ。完全に「倫理的に」学習されたモデルが完璧なアートを作り、アーティストがニッチな職業になるとしても、人間がアートを作ることには価値があり、その仕事がある程度持続可能な社会にも価値があると思うので、文明全体にとっては悪い結果になり得る
一方で、画像モデルで人々が生み出す結果にも驚かされるので、確信はない。理想的には、市場がなくても人々が望むことをできるよう支援できればよいのだが、世界はまだその準備ができていない
グラフィックアーティストではないが、イラストレーターの仕事には、複雑な意味を伝えるための創造的な表現技法が多く含まれていると感じる。
ただ、動画で見られるめちゃくちゃな3D空間再構成は、最近の大規模言語モデルブームを思い起こさせる。
つまり、表現物は元資料の「真実」や「事実」とは明確なつながりがあるが、後続作業の元資料として有用と言えるほど正確ではない。
- 以前にも同じ話をしたことがあるが、LLMが既存エピソードと同じ質感の新エピソードを書けるのか期待している。
  昔の漫画の「新」エピソードを見るのは本当に面白そうだ。もちろん、その後に続く著作権の大混乱は別問題だ。
特定の画像の視点から見た姿をあまりに再現できていなくて驚いた。
たとえば下のほうの Magic School Bus を見ると、アルゴリズムを画像をもっと信頼する方向に調整できそうに思える。
- 芸術の大きな部分は、現実に合っていることと感覚的に合っていることを区別する点にある。
  私が主に携わっている3Dアニメーションや映画でも、背景やぼやけた前景の物体は、実世界の構成にマッピングすると筋が通らなくても、見た目には正しく見えるように歪められ、奇妙に配置されることが多い。2Dアートはそれ以上に、現実世界の表現に縛られていない。
  こうした応用を見ると、比較的抽象的な表現をもとに概念を組み立てる私たちの脳がどれほどすごいか、そしてアーティストがその定義の曖昧な領域で作業する能力がどれほど驚くべきものかが分かる。場面は観客に一貫した遠近感を持っているように感じられるかもしれないが、背景のソファとサイドテーブルは120mmレンズで撮ったように描かれ、前景は意図的に窮屈な30mmレンズのように描かれているかもしれない。私たちはキャラクターたちが存在する現実的な3D空間を推論する必要はなく、彼らがそうした空間にいるのだと理解できればよいので、問題なく見えるのだ。私たちは空間にいるとはどういうことか、人々がその空間とどう相互作用するかを知っている。
  優れた芸術は、核となるアイデアを伝えるのに必要なだけを提示し、それをメッセージの焦点にしたうえで、脳が無意識に関連づけを行い、文脈を補って完全な「経験」を作れるようにする。ソファやサイドテーブルの種類、しばしばねじれたり誇張されたりするスケールや物体同士の関係に至るまで、すべてが意図された芸術的効果のためのコミュニケーションの層になり得るし、実世界では一貫した表現を持たない場合も多い。また、どんなショットでも、構図を助けたり相互作用を強調したりするために物体が移動されることは間違いなくある。気づかれれば連続性の問題で、気づかれなければうまくいったということだ。圧倒的大多数の場合、誰も気づかず、ただあらゆる角度から構図に説得力のある世界を見たように感じるだけだ。
  線を見て、現実世界でその表現に対応するシナリオを見つけなければならないアルゴリズムは、そもそもどんな一貫した形でも存在し得ないものを作ろうとしているのかもしれない。
動画が山ほどあるサイトで、なぜ全部自動再生と無限ループをオンにしているのか分からない。
2つ目の画面で動画を見ていたのに、サイトを開くたびにカクつく。
- Chrome の問題なのか？ Windows の Firefox では動画は自動再生されない。
- だから iPhone の Firefox で読み込んだときに、スマホが固まったのかもしれない。
  電源を入れ直さないと復帰しなかった。
Spirited Away の例を Miyazaki に見せたら、おそらく生命そのものへの侮辱と呼ぶだろう。
- 気になる人のために言うと、これは以前の動画への参照だ: https://www.youtube.com/watch?v=ngZ0K3lWKRc
  だから誇張ではない。
この記事を書く前に3Dアニメーターと話していなかったようで驚きます。以下の文は単に間違っています。

The hand-drawn images are usually faithful representations of the world, but only in a qualitative sense, since it is difficult for humans to draw multiple perspectives of an object or scene 3D consistently. Nevertheless, people can easily perceive 3D scenes from inconsistent inputs!
人間のアーティストが完全な幾何学的一貫性を保つのが難しいのは確かです。しかし、2Dアニメーションの3Dシーンが幾何学的に不一致になる理由はそれではありません。理由は、アーティストが特定の芸術的意図のために3Dシーンを様式化して強調するからです。SpongeBobのような超現実的な作品では特にそうですし、King of the Hillでさえ「リビングの遠近法」「キッチンの遠近法」のような様式化があります。アーティストは現実的に見せようとしているのではなく、見栄えよく作ろうとしているのです。そして人間に完璧な3D画像を再構成させようとしているのでもなく、私たちの3D的な想像力を喚起しようとしているのです。これはまったく別のことです。
Pixarや他の高品質な3Dアニメーションスタジオは、映画的効果のためにシーンの実際の幾何形状を意図的に歪めます。大人の視点から見た幼い子どもは、奇妙に長い首と短くずんぐりした胴体でレンダリングされることがありますが、これはアニメーターが小さな子どもの感情的効果を強調するために、視覚的な短縮をわざと誇張するからです。現実的な遠近法はただ退屈です。こうした技法はPixar映画の随所にあり、そのため、低予算スタジオのようにユークリッド的な3D空間で仮想カメラだけを動かした結果よりも、はるかに見栄えがよくなります。
技術的な詳細については言いたくありませんが、著者たちは芸術的な核心を見落としているように見えます。
- この分野で働く者として、手のひらと顔がこれほど近づいたことはありません。
  プロジェクト自体に問題はありません。研究は研究ですし、これを「解決済みの問題」のように包装しているわけでもないからです。しかし、ある種の技術系の人々の間では、AI画像ツールがまったく根拠のない私たちは芸術を解決した式の虚勢を呼び起こしています。その結果、基本的な芸術原理について根拠のない仮定を、傲慢に、時には上から目線で投げつけることになります。
  ソフトウェア分野で長く働いてきましたし、ソフトウェア開発の傲慢さが今さら珍しいものではなく、時には有益なこともあるのは分かっていますが、ソフトウェアの世界の中で、単一のテーマについてこれほど強烈な集団的過信を見たことはほとんどない気がします。
- 実際のテレビカメラでも同じことが起きていると考えると、特におかしいです。
  簡単な例として、シットコムで正方形の部屋のように見える多くのセットは、実際には台形で、壁同士が鈍角で交わっています。それに気づく人はほとんどいません。
- 特定の芸術的理由による様式化を脇に置いても、この文脈の作品は、カメラまたは「カメラ」の単純な必要性のために、常に歪まざるを得ません。
  HD以前の作品ではなおさらでした。表情や身振りを読み取れるほど遠近を近くすると、人やキャラクターが画面にかなりぎゅうぎゅうに収まる必要があったからです。その時代の最も「現実的」で落ち着いた番組を掘り下げても、特定のショットを成立させるために家具、さらには壁までひそかに動かした瞬間を、結局は見つけることになります。

Toon3D: 新しい視点で見る漫画

手描きシーンでSfMが難しい理由

不一致を吸収するアラインメント方式

処理パイプライン

カメラと変形の同時最適化

新規視点合成とfly-throughレンダリング

Toon3D Datasetとラベリングツール

Rick and Mortyの家の内部再構成

Sparse-viewとその他の入力事例

ワープ可視化と絵画の再構成

公開資料

関連記事

1件のコメント

Hacker Newsのコメント