- Appleが公開したSHARPは、単一の写真から3Dガウシアン表現を推定し、フォトリアリスティックな新しい視点を合成する技術
- 標準GPUで1秒未満の単一ニューラルネットワークのフィードフォワードパスで処理し、リアルタイムレンダリングが可能
- 生成された3D表現は絶対スケールを持つメトリック表現で、実際のカメラ移動をサポート
- 複数のデータセットでゼロショット汎化性能を示し、既存モデル比でLPIPS 25–34%、DISTS 21–43%減少
- 従来比で合成速度を1000倍向上させ、単一画像ベースの3Dビュー合成の新たな基準を提示
SHARP概要
- SHARP(Sharp Monocular View Synthesis) は、単一画像からフォトリアリスティックな3Dビュー合成を行うアプローチ
- 入力された1枚の写真から、シーンの3Dガウシアン表現パラメータを回帰によって推定
- この過程は標準GPUで1秒未満で完了する
- 生成された3Dガウシアン表現はリアルタイムレンダリングをサポートし、近接視点で高解像度画像を生成
- 毎秒100フレーム以上のレンダリング速度を達成
- 細かな構造と鮮明なディテールを維持
技術的特徴
- SHARPの3D表現は絶対スケールを含むメトリック表現で、実際のカメラ移動を反映
- 単一のフィードフォワードによるニューラルネットワークパスだけで処理されるため、複雑な最適化過程なしに高速な結果を提供
- ゼロショット汎化により、学習していないデータセットでも安定した性能を維持
性能と比較結果
- 複数のデータセットで最先端性能(state of the art) を達成
- LPIPS指標 25–34%、**DISTS指標 21–43%**改善
- 既存の最高モデル比で合成時間を1000分の1に短縮
- こうした性能向上により、単一画像ベースの3Dビュー合成の効率性と品質を同時に改善
視覚的結果
- SHARPはUnsplashの写真を例に、単一入力画像から生成した3D表現を可視化
- 近接視点でのレンダリング結果は鮮明なディテールと微細構造を維持
- リアルタイムレンダリングで自然な視点移動を実現
研究出典
- 研究論文はarXiv:2512.10685に掲載
- タイトル: Sharp Monocular View Synthesis in Less Than a Second
- 研究者: Lars Mescheder ほか12名
- 所属: Apple
1件のコメント
Hacker Newsのコメント
「Unsplash > Gen3C > The fly video」は本当に悪夢のような映像だ
自分で見たいならこのリンクを参照できる
結局、人々は現実の人間関係を失って仮想エンターテインメントスーツにしがみつくようになる気がする
運が良ければ拡張現実の中で「本物の」人に会おうとする試みくらいは残るかもしれないが、私たちはすでに技術に依存しすぎている
技術が発展しても、それが人間に良い結果をもたらすのか疑わしい
Apple Siliconで動くようにした
ml-sharp GitHubリポジトリに小さなデモGIFもある
Gaussian splatを新規実装せずに近似しようとしているが、正直かなり大変だ
AIが写真の中の写真という構造を認識し、炎の部分だけを2Dのまま維持した点が印象的だった
「これは正確には何をするものですか?」
このソフトウェアはそれを1秒以内に処理して3Dモデルを作ってくれる
Gaussian splattingが特にすばらしい
人物の分離もうまく、複数の被写体があるシーンも処理できる
ポートレートモードの効果と似た原理だ
「Photorealistic」とは、実際の質感やライティングを維持するという意味だ
Apple PhotosアプリのSpatial Scene機能に似ている — デモ動画
その後、各平面を動かしてパララックスを実現する — 2D横スクロールゲームの背景の奥行き効果に似ている
サンプルに人の顔がほとんどない点が目につく
これまでの経験では、こういうモデルは立体で見ると人物が2Dの紙人形のように見える
このモデルが本当に立体感のある表現をできるのかは分からないが、人の顔が外されているのは意味深だ
Depth Pro GitHub / LearnOpenCVの解説
Apple製なのにCUDA GPU専用だ 関連ドキュメント
数年は待つことになりそうだ
これまで使ったAIリポジトリの中では最も簡単に動かせた部類だった
モデル自体はGPU、CPU、MPSのいずれでも動く
出力として .ply ファイルを得て、SparkJSビューアに入れればよい
CUDAが必要なのは横スクロール動画のレンダリングだけだ
「1枚の写真から1秒以内に写実的な3D表現を生成する」という点が核心だ
Apple PhotosアプリのSpatial Scene機能も似たように動く
デモ動画
Photoshopのコンテンツに応じた塗りつぶしのほうが、むしろ優れていた時期もあった
Gaussian splatのサンプルファイルはあるのか?
ただし、サンプルは1つだけなので一般化は難しい
結果は印象的ではあるが、鋭すぎて人工的な感じがする
ただしTMPIのほうが常に明るく出るので、どちらが正確なのかは分からない