- SHARPは単一画像を入力として3Dガウシアン表現に変換し、写実的な3Dビューを生成するモデル
- 標準的なGPUで1秒未満の時間に、単一のニューラルネットワーク推論で3Dシーンパラメータを予測
- 生成された3D表現はリアルタイムレンダリングが可能で、絶対スケールを含むメトリックなカメラ移動をサポート
- 複数のデータセットでLPIPS 25–34%、DISTS 21–43%の改善とともに、既存モデル比で3桁高速な合成速度を達成
- オープンソースとして公開されており、開発者はCLIベースの予測・レンダリングを直接実行し、さまざまな3Dレンダラーと連携可能
SHARP 概要
- SHARP(Sharp Monocular View Synthesis) は、単一の写真からフォトリアリスティックな3Dビューを生成するアプローチ
- 入力画像に基づいて3D Gaussian表現のパラメータを回帰方式で推定
- 標準的なGPUで単一のフィードフォワードパスだけで1秒未満の処理速度を達成
- 生成された3D Gaussian表現はリアルタイムレンダリングが可能で、周辺視点からの高解像度画像を提供
- この表現は絶対スケールを含むメトリック構造で、実際のカメラ移動をサポート
性能と一般化
- 実験の結果、SHARPはさまざまなデータセットでゼロショット一般化性能を示した
- 既存の最高性能モデルと比べてLPIPS 25–34%、**DISTS 21–43%**低減
- 合成時間は3桁短縮、すなわち従来比で約1000倍高速な処理速度
インストールと実行
- Python 3.13環境で実行可能で、
pip install -r requirements.txtで依存関係をインストール
- コマンドラインインターフェース(CLI)で次のように予測を実行
sharp predict -i 入力パス -o 出力パス
- 初回実行時にはモデルチェックポイントが自動でダウンロードされ、ローカルキャッシュに保存される
- 手動でダウンロードする場合は
-cオプションで指定可能
- 出力結果は3D Gaussian Splat(3DGS) 形式の
.plyファイルとして保存され、公開3DGSレンダラーと互換性がある
レンダリング機能
- CUDA GPU環境では、カメラ軌道に沿った動画レンダリングが可能
--renderオプションを使って予測とレンダリングを同時に実行可能
- または中間結果(
.ply)を使って別途レンダリングを実行可能
- OpenCV座標系(x 右、y 下、z 前方)に従っており、外部レンダラーを使う際はスケールおよび回転補正が必要
評価と参考資料
- 定量的・定性的な評価結果は論文に収録されている
- プロジェクトページで比較動画の例を確認可能
ライセンスと引用
- コードとモデルはそれぞれLICENSE、LICENSE_MODELファイルの条件に従って利用可能
- 研究を引用する際は arXiv 論文 “Sharp Monocular View Synthesis in Less Than a Second (2025)” を参照
- コードベースは複数のオープンソース貢献物を基に構築されている
1件のコメント
Hacker Newsの反応
HNではAppleのSHARPプロジェクトが再び話題になった
関連する議論は以前のスレッドでも行われていた
SHARPの公式資料はプロジェクトページと論文(arXiv)で確認できる
モデルライセンスには「研究目的専用」と明記されており、実際にはオープンソースではない
あるユーザーは、すでにこのプロジェクトをMPSでレンダリング可能にフォークしたとして、自分のGitHubリポジトリを共有した
誰かが「VRポルノの大きな日だ」と冗談めかしたコメントを残した
モデルは1つの軸でしか推論せず、解像度も768px + 2レイヤーに制限されており、リアルタイム処理も不可能だ
今年はむしろ画像編集や動画モデルのほうで、より大きな革新があったとも付け加えた
「大企業がモデルを公開するたびにオープンソースの定義論争が繰り返される」として、AIモデルにおける『ソース』の概念がソフトウェアとは異なる点が指摘された
Appleは学術的な信頼性を得つつ、商業的な選択肢も維持しようとしているように見えるという分析だ
この技術によって古い写真をVRで体験できる点こそAppleの本当の強みだと評価した
「人は同じ対象を何枚も撮ることが多いので、実質的に立体画像データを提供しているようなものだ」との指摘もあった
あるユーザーはCondaが嫌いなので試すのをためらっていると言った
uvさえあればよいとして、具体的なインストールコマンドを共有したあるユーザーは休暇中にStereoCrafterやGeometryCrafterのような関連プロジェクトを試していると述べた。
これを動画に適用すると**時間的一貫性(temporal consistency)**の問題で格段に難しくなり、計算量も増えるが、
朝鮮戦争時代の古いホームビデオを空間化(spatialize)してみたところ、驚くほどうまく機能したという
StereoCrafterリンク, GeometryCrafterリンク