World Labs: 単一画像から3D世界を生成する技術
(worldlabs.ai)-
3D世界生成AIシステム
- World Labsは、単一の画像から3D世界を生成するAIシステムを開発。
- この技術は、映画、ゲーム、シミュレーターなど、さまざまなデジタルコンテンツ制作の方法を革新する可能性がある。
-
世界の探索
- ユーザーは生成された3D世界を探索でき、矢印キーやWASDキーを使って移動し、マウスで視点を調整できる。
-
カメラ効果
- 仮想カメラを通じてシーンをリアルタイムにレンダリングし、浅い被写界深度効果やドリーズームのような写真効果を実現できる。
-
3D効果
- 3Dシーン予測は、一貫したリアリティ、リアルタイム制御、正しい幾何学構造を提供する。
- 深度マップを通じて、各ピクセルのカメラからの距離を可視化できる。
-
絵の中に入る
- 著名な芸術作品を新しい方法で体験できるように世界を生成する。
- 元の絵にない部分はモデルが生成する。
-
創造的ワークフロー
- 3D世界生成は、ほかのAIツールと自然に組み合わさり、新たな体験を生み出す。
- テキスト-画像モデルを使ってテキストから画像を生成し、それを基に3D世界を作る。
-
今後の展望
- World Labsは、3D世界の規模と忠実度を向上させ、ユーザーとのインタラクション方法を実験している。
- 今後のリリースに関する情報はウェイトリストで確認でき、関心のある人には参加が勧められる。
1件のコメント
Hacker Newsの意見
デモを試してみると、アニメーション画像が誤解を招く。数歩歩くと見えない壁にぶつかり、かなりがっかりする。初期段階であることは理解するが、誇大宣伝された感じがある
VRヘッドセットで3D映画を見ると、頭を動かしたときに3Dの錯覚が壊れる。3Dゲームでは頭を動かすことで空間を探索できる。映画のすべてのフレームにこれを適用すれば、わずかな動きと視点変化を保てる。ただし、監督や撮影監督の意図が損なわれる可能性がある
狭い領域であることへの不満はあるが、画像を3D世界に変換したのは驚くべき技術だ。AIがますます一般化しているとはいえ、依然として驚くべき成果だ
Depth Anywhereを使って360º画像を仮想深度マップに変換し、それをポイントクラウドに適用してレンダリングする方法がある。World Labの例と違って、ポイントクラウドの境界を越えてアプローチの欠点を確認できる。依然として改善が必要だ
この技術はすごいが、cat-4d.github.ioほど印象的ではない
AIデモをたくさん見てきたせいか、この技術を実際に有用なものにする方法を考え出さなければならないという点で、やや無感覚になっている。"Step into Paintings"セクションは面白かったが、元の素材から外れるとモデルの限界が露呈する。新しい方法で芸術作品を体験できるが、良い体験ではない
XYZがUnrealとNVIDIA Isaacの録画を一般化できるのではないかという期待がある。XYZがdiffusion-transformersなのか、Chameleonなのか、それとも新しいアーキテクチャなのか気になる。モデル開発には時間がかかり、コストも高くなりうる。このチームは非常に有能だが、十分な資金がないかもしれない
こうしたプロジェクトの良さが、過剰な主張によってかき消されてしまうことが多い
ベース画像はレンダリングされたものに見え、照明や影などが含まれている。他のツールを使ったときは、サンプル画像でしかうまく動かず、別の画像を使うと黒く平坦な形状になった。したがって、見出しは「私たちが訓練したモデルで単一画像から3D世界を生成」であるべきだ
最初に試したとき、"Out of bounds"というメッセージが出て驚いた。"Looking Ahead"セクションを見ると、サイズと精度を改善している