3 ポイント 投稿者 GN⁺ 2024-08-02 | 1件のコメント | WhatsAppで共有
  • 単一の画像から、わずか0.5秒で高品質な3Dアセットを生成
  • TripoSRをベースに構築。大規模なアーキテクチャ改善と機能強化が特徴
  • ゲームおよびバーチャルリアリティ開発者だけでなく、小売、建築、デザイン、その他グラフィックス集約型職種の専門家にも応用可能
  • モデルはHugging Faceで提供され、Stability AI Community Licenseの下で公開
  • Stability AI APIおよびStable Assistantチャットボットから簡単にモデルへアクセスでき、3Dビューアで3D制作物を共有し、拡張現実で試すことも可能
  • 無料トライアルで試用可能

仕組み

  • ユーザーはオブジェクトの単一画像をアップロードすることから開始
  • Stable Fast 3Dは、UV展開済みメッシュ、マテリアルパラメータ、ライティングの影響を抑えたアルベドカラーなどを含む完全な3Dアセットを迅速に生成
  • オプションでクアッドまたは三角形の再構成を実行でき、処理時間への追加は100〜200msのみ

ユースケース

  • プリプロダクション中に実験が重要となる場面で、高速な推論時間を活用
  • ゲーム向けの静的アセット(背景オブジェクト、雑貨、家具)
  • EC向け3Dモデル
  • AR/VR向けの迅速なモデル生成

速度と品質の両立

  • 競合と比べて複数の主要領域で性能優位
  • 7GB VRAMのGPUで、3Dアセット1件あたり0.5秒という高速生成
  • 高品質なUV展開メッシュとマテリアルパラメータ
  • テクスチャにおけるライティングの混入を低減
  • 追加のマテリアルパラメータとノーマルマップの生成が可能

研究開発

  • TripoSRベースだが、完全に再学習されたモデルと重要なアーキテクチャ変更を採用
  • 改善点には、明示的なメッシュ生成と高速なテクスチャ付きメッシュ生成のための新技術が含まれる
  • ベイク済みライティングの低減とマテリアルパラメータにより高速な推論速度を達成する方法について、技術レポートで強調

提供状況

  • Stable Fast 3DのモデルコードはGitHubとHugging Faceで提供
  • Stability AI Community Licenseの下で、非商用利用と年間売上最大$1Mまでの商用利用を許可
  • APIおよびStable Assistantを通じてモデルにアクセス可能

GN⁺の意見

  • この3Dモデル生成技術は、ゲーム、仮想/拡張現実、デザイン、建築など多様な分野で活用できる点が興味深い。特に単一画像から高品質な3Dアセットを高速生成できることは、生産性向上に役立つだろう。
  • ただし、このようなAIベースのモデルが普及することで、グラフィックデザイナーやモデラーなど専門人材の仕事に影響を与える可能性がある。手作業で制作していた3Dアセットが自動化されうるためだ。AIが人を完全に代替するのは難しいとしても、一定程度の役割縮小は避けられないように見える。
  • また、生成された3Dモデルの著作権問題も考慮する必要がある。学習に使われた画像に対して適切な補償やクレジットが与えられるべきだろう。AI生成物に関する法的規制やガイドライン整備が必要に思われる。
  • 類似技術としては、Nvidia Instant NerfやEpic GamesのRealityScanなどがある。これらは写真やスキャンを通じて3Dモデルを生成する機能を提供している。ゲームエンジンとの高い互換性が強みだ。ただし、Stable Fast 3Dのように単一画像から高品質な結果を出す速度は、まだ十分ではないようだ。
  • 要するに、Stable Fast 3Dは速度と品質を武器に、ゲームやXRなど3Dグラフィックス分野の生産性向上に寄与すると見られる。一方で、倫理的・法的な課題について社会的合意を模索していくプロセスが必要だろう。

1件のコメント

 
GN⁺ 2024-08-02
Hacker Newsの意見
  • LLMへの大きな期待にもかかわらず、画像生成やグラフィックアセットこそが、現時点でAIの長期的な勝者になる可能性が高い

    • 「ハルシネーション」はバグではなく機能である
    • 複雑な統計テストをしなくても、非現実的で偏った出力を簡単に確認できる
    • 人間の直感が評価に役立ち、テキスト生成モデルとは違って過大評価されていない
    • 損失のある手法やノイズのある手法でも、さまざまな創造的作業に役立つ可能性がある
    • 完璧さは必要なく、歪んだ特徴も簡単に見つけて改善できる
    • 一貫性は必須ではないが、一貫性が得られれば動画のようなアプリケーションに大きな価値をもたらしうる
    • LoRAのような技術により、非熟練ユーザーでも特定のキャラクター、スタイル、または概念モデルを簡単に訓練できる
    • 画像・ビジュアル生成モデルはこの1年で大きく改善しており、テキストモデルより改善速度が鈍っているわけでもない
    • 未来は写真家や映画監督などを全面的に置き換えることではなく、AIベースの強力なツール群になるだろう
    • いくつかのテキストプロンプトで画像に概念を追加・削除できるツールは非常に有用である
    • 90年代のPhotoshopのように、新たな強力なユーザー層が登場している
  • 3番目にテストした画像では、3D AIはどれも3Dモデルの2Dレンダリングのように見えた

    • セルシェーディング画像でテストしたが、モデルの出力は非常に平面的でトポロジーも悪かった
    • 正確な影がないと法線ベクトルを再計算できず、構造を理解できていないように見える
    • 適切な結果が得られると期待される入力セットを明示するとよいと思う
  • まだ完璧ではないが、かなりクールである

    • 主役のアセットではなく、メインのシーンに複雑さを加える低工数の装飾として使えそうだ
    • 2Dビルボードのインポスターではない場面で使える
    • Midjourney、Bing、Dalle3で画像を生成し、それをドラッグ&ドロップすれば驚くほど良い3Dプレゼンテーションが得られる
    • カメラが背面を見ない3Dシーンの装飾として使える
  • この技術が改善されるのが待ちきれない

    • テスト結果は有用ではなかった
    • 画像出力から質の悪いモデルを修正するには、さらに多くの作業が必要だ
    • より高品質な最終成果物を時間をかけて得るために、一連のステップを踏むほうがよい気がする
    • 単にユースケースを見落としているだけかもしれない
  • 7GB VRAMで、GPU上で3Dアセットを生成するのに0.5秒かかる

    • データセンター専用のモデルだと思っていたが、7GB VRAMということは、多くの3Dアーティストがすでに所有しているハードウェアで動作することを示唆している
  • この分野で本当に成果が出ることを期待している

    • HuggingFaceのデモですでに画像をドラッグして試せる
    • 猫の画像ではうまく機能しなかったが、iPhoneの画像ではかなりうまく機能した
    • パンケーキの画像では印象的だったが、ロケットの画像ではひどかった
    • ビリヤードの球の画像では再び印象的だった
  • この技術で面白いものをたくさん3Dプリントするつもりだ

  • 比較対象の画像を脱色して、より良く見せるという古典的なインフォマーシャルの手法を使ったように見える

  • プロジェクトページでモデルと対話できる

  • ミニチュアペインティングへの情熱をかき立てられる