SHARP - 単一画像からフォトリアリスティックなビューを合成するアプローチ

(apple.github.io)

5 ポイント投稿者 GN⁺ 2025-12-17 | 1件のコメント | WhatsAppで共有

Appleが公開したSHARPは、単一の写真から3Dガウシアン表現を推定し、フォトリアリスティックな新しい視点を合成する技術
標準GPUで1秒未満の単一ニューラルネットワークのフィードフォワードパスで処理し、リアルタイムレンダリングが可能
生成された3D表現は絶対スケールを持つメトリック表現で、実際のカメラ移動をサポート
複数のデータセットでゼロショット汎化性能を示し、既存モデル比でLPIPS 25–34%、DISTS 21–43%減少
従来比で合成速度を1000倍向上させ、単一画像ベースの3Dビュー合成の新たな基準を提示

SHARP概要

SHARP(Sharp Monocular View Synthesis) は、単一画像からフォトリアリスティックな3Dビュー合成を行うアプローチ
- 入力された1枚の写真から、シーンの3Dガウシアン表現パラメータを回帰によって推定
- この過程は標準GPUで1秒未満で完了する
生成された3Dガウシアン表現はリアルタイムレンダリングをサポートし、近接視点で高解像度画像を生成
- 毎秒100フレーム以上のレンダリング速度を達成
- 細かな構造と鮮明なディテールを維持

技術的特徴

SHARPの3D表現は絶対スケールを含むメトリック表現で、実際のカメラ移動を反映
単一のフィードフォワードによるニューラルネットワークパスだけで処理されるため、複雑な最適化過程なしに高速な結果を提供
ゼロショット汎化により、学習していないデータセットでも安定した性能を維持

性能と比較結果

複数のデータセットで最先端性能(state of the art) を達成
- LPIPS指標 25–34%、**DISTS指標 21–43%**改善
- 既存の最高モデル比で合成時間を1000分の1に短縮
こうした性能向上により、単一画像ベースの3Dビュー合成の効率性と品質を同時に改善

視覚的結果

SHARPはUnsplashの写真を例に、単一入力画像から生成した3D表現を可視化
- 近接視点でのレンダリング結果は鮮明なディテールと微細構造を維持
- リアルタイムレンダリングで自然な視点移動を実現

研究出典

研究論文はarXiv:2512.10685に掲載
- タイトル: Sharp Monocular View Synthesis in Less Than a Second
- 研究者: Lars Mescheder ほか12名
- 所属: Apple

1件のコメント

GN⁺ 2025-12-17

Hacker Newsのコメント

「Unsplash > Gen3C > The fly video」は本当に悪夢のような映像だ
自分で見たいならこのリンクを参照できる
- 企業はこうしたひどい出来を見てさらに速く発展させようとするのだろうが、私はまだ現実的な映像が残っていてほしいと思う
  結局、人々は現実の人間関係を失って仮想エンターテインメントスーツにしがみつくようになる気がする
  運が良ければ拡張現実の中で「本物の」人に会おうとする試みくらいは残るかもしれないが、私たちはすでに技術に依存しすぎている
  技術が発展しても、それが人間に良い結果をもたらすのか疑わしい
- 昔のAIの「何もかも犬の頭に変わっていた時代」のような感じで、むしろ美しく思える
- 「san check, 1d10」— ホラーゲームのミームのように、正気度チェックが必要なレベルの映像だという冗談
- 「Seth Brundle has entered the chat.」— 映画 The Fly の主人公に言及して、変異したような映像の雰囲気をたとえている
Apple Siliconで動くようにした
ml-sharp GitHubリポジトリに小さなデモGIFもある
Gaussian splatを新規実装せずに近似しようとしているが、正直かなり大変だ
- GIFのバンディングアーティファクトのおかげで炎が実際にちらついているように見えて興味深かった
  AIが写真の中の写真という構造を認識し、炎の部分だけを2Dのまま維持した点が印象的だった
- 例の結果は正直あまり印象的ではない。下部20%を見ると品質が落ちる
「これは正確には何をするものですか？」
- 歴史ドキュメンタリーのように、古い写真の人物や物体を背景から分離して立体的な動きを与える技術だ
  このソフトウェアはそれを1秒以内に処理して3Dモデルを作ってくれる
  Gaussian splattingが特にすばらしい
- 1枚の2D画像を使って、カメラアングルを変えたかのようなパララックス効果をシミュレートする
  人物の分離もうまく、複数の被写体があるシーンも処理できる
  ポートレートモードの効果と似た原理だ
- 単一の写真を粗い3Dシーンに変換し、カメラを少し動かすと新しい視点が見られる
  「Photorealistic」とは、実際の質感やライティングを維持するという意味だ
  Apple PhotosアプリのSpatial Scene機能に似ている — デモ動画
- 1枚の写真から隠れた3D表現を推論し、少し異なる視点から写実的な画像を生成する
- 基本的には深度推定(depth estimation) でシーンを複数の平面に分割し、隠れた部分はinpaintingで埋める
  その後、各平面を動かしてパララックスを実現する — 2D横スクロールゲームの背景の奥行き効果に似ている
サンプルに人の顔がほとんどない点が目につく
これまでの経験では、こういうモデルは立体で見ると人物が2Dの紙人形のように見える
このモデルが本当に立体感のある表現をできるのかは分からないが、人の顔が外されているのは意味深だ
- AppleはDepth Proモデルを深度推定に使っており、顔の表現はかなり良いらしい
  Depth Pro GitHub / LearnOpenCVの解説
Apple製なのにCUDA GPU専用だ関連ドキュメント
- 興味深いことに、Apple自身のモデルがMPSで動かない
  数年は待つことになりそうだ
- Gaussian splatの出力はCPUでも生成できる
  これまで使ったAIリポジトリの中では最も簡単に動かせた部類だった
- 修正版はこちらにある
- この制限は動画レンダリングにのみ当てはまる
  モデル自体はGPU、CPU、MPSのいずれでも動く
- モデルはCUDAなしでも動作する
  出力として .ply ファイルを得て、SparkJSビューアに入れればよい
  CUDAが必要なのは横スクロール動画のレンダリングだけだ
「1枚の写真から1秒以内に写実的な3D表現を生成する」という点が核心だ
Apple PhotosアプリのSpatial Scene機能も似たように動く
デモ動画
- ただし結果はしばしばぼやけて不自然な空間を生み出す
  Photoshopのコンテンツに応じた塗りつぶしのほうが、むしろ優れていた時期もあった
Gaussian splatのサンプルファイルはあるのか？
- 自分でテストした結果をこのリポジトリに上げてある
  ただし、サンプルは1つだけなので一般化は難しい
結果は印象的ではあるが、鋭すぎて人工的な感じがする
- 自分はTMPIとSHARPの結果のどちらも気に入っている
  ただしTMPIのほうが常に明るく出るので、どちらが正確なのかは分からない

SHARP - 単一画像からフォトリアリスティックなビューを合成するアプローチ

SHARP概要

技術的特徴

性能と比較結果

視覚的結果

研究出典

関連記事

1件のコメント

Hacker Newsのコメント