1 ポイント 投稿者 GN⁺ 3 시간 전 | 1件のコメント | WhatsAppで共有
  • NVIDIA Cosmos 3は、Physical AI向けの単一のオープン基盤モデルであり、物理推論・ワールド生成・行動生成を1つのモデル内に統合
  • Mixture-of-Transformersアーキテクチャは、Reasoner towerとGenerator towerを分離し、入力理解と物理認識に基づく生成出力を接続することで、複数モデルや推論パイプラインを調整する必要性を低減
  • Cosmos 3 Nanoは16Bパラメータでワークステーションクラスの推論を想定し、Cosmos 3 Superは64Bパラメータでデータセンター展開と高品質な合成データ生成を想定
  • NVIDIAは、モデルチェックポイント、学習スクリプト、デプロイツール、6つの合成データセット、NIMマイクロサービスを公開し、ロボティクス・自動運転・倉庫自動化へのドメイン適応を支援
  • HUEおよび複数の公開ベンチマークで、Cosmos 3はPhysical AIの推論・生成品質・ドメイン性能を評価され、SuperとNanoはそれぞれVANTAGE-Benchの32B・8Bティアで首位を記録

Cosmos 3の主要な変化

  • NVIDIA Cosmos 3は、ロボット、自動運転車、スマート空間などのPhysical AIシステムが世界を理解し、次の状況を予測し、特定の環境・形態・タスクに適した行動を生成できるよう設計されたフロンティア基盤モデル
  • これまでのCosmosリリースでは、ワールド生成、物理理解、制御されたシーン生成を別々のモデルとワークフローに分けていたが、Cosmos 3ではこれらを1つのモデルに統合
  • 今回のリリースでは、Hugging Faceのモデルチェックポイント、GitHubのコード、公開データセット、継続学習スクリプト、NVIDIA GPU向けデプロイ用のCosmos NIMマイクロサービスを提供

2タワー構造

  • Cosmos 3は、2つのタワーを中心としたMixture-of-Transformersアーキテクチャを採用
  • Reasoner towerは、画像・動画・テキストなどのマルチモーダル観測を解釈するビジョン言語モデル(VLM)であり、自己回帰構造によって入力を解釈し、動き、物体間相互作用、物理的コンテキストを理解
  • Generator towerは、Reasoner towerの理解を条件として、物理認識に基づく動画と行動出力を拡散ベースのプロセスで生成
  • Reasonerは単独で呼び出せるが、Generatorはガイド付き生成のため常に両方のタワーを有効化
  • この構造により、推論と生成タスクを単一モデルで処理し、複数モデルや推論パイプライン間のオーケストレーションを削減

モデルサイズの選択

  • Cosmos 3 Nanoは16Bパラメータのコンパクトモデルで、効率的な推論向けに最適化
  • Nanoは、NVIDIA RTX PRO 6000 GPUのようなワークステーションクラスの計算環境で、リアルタイムのロボティクス推論やPhysical AIアプリケーションを実行するよう設計
  • Cosmos 3 Superは64Bパラメータモデルで、最大限の品質と機能を目指す
  • Superは最高水準のベンチマークスコアを提供し、NVIDIA HopperおよびNVIDIA Blackwell GPUベースのデータセンター展開を想定
  • Superは大規模な合成データ生成と高度な物理推論ワークロードに適する

公開データセット

HUE評価フレームワーク

  • NVIDIA Cosmos Human Evaluation(HUE)は、代表的なドメインタスクにおけるCosmos 3 Generatorの品質を評価
  • 最新の動画生成モデルが既存の自動リーダーボードで飽和し、リリース間のスコア差が意味のある比較に十分でないケースが増えている
  • HUEは主観的採点ではなく客観的な事実検証へと評価を切り替え、上位モデル同士の精密な比較を可能にする
  • HUEは生成動画を、4つの次元にまたがる単一事実のyes/no質問へ分解
    • 意味整合性
    • 物理法則
    • 幾何推論
    • 視覚的一貫性
  • 質問は、ロボティクス、自動運転車、物理など7つのPhysical AIドメインを網羅
  • 質問はVLMパイプラインで生成され、人間の専門家が精査し、Hugging Faceでオープンソース公開

ベンチマーク結果

  • Cosmos 3は、Physical AIの推論、生成品質、ドメイン別性能を扱う複数のベンチマーク群で評価
  • 推論ベンチマークでは、Cosmos 3 SuperとCosmos 3 NanoがそれぞれVANTAGE-Benchの32Bティアと8Bティアで首位を記録
  • VANTAGE-Benchは、倉庫、交通、スマート空間の実世界の固定カメラ映像を対象にビジョン言語モデルを評価する初の公開ベンチマーク
  • Traffic Anomaly Reasoning(TAR)は、交通映像における異常イベントを検知・推論する新しいリーダーボードで、AI City Challenge 2026 Track 3の公式リーダーボード
  • 生成ベンチマークでは、Cosmos 3は公開リーダーボード基準でオープンソースSOTAであり、PAI-Bench、R-Bench Physics-IQ、RoboLabで首位を獲得
  • Artificial Analysisでは、Cosmos 3がText to Image leaderboardおよびImage to Video (no audio) leaderboardで先頭のオープンソースモデルと評価
  • R-Benchは、ロボット動画生成における動画ベースのワールドモデルを評価し、構造的一貫性、物理的妥当性、実行完了度などのサブ指標を用いる
  • PAI-Benchは、ロボティクス、自動運転車、物理常識などのドメインで、動画理解と動画生成を評価
  • Physics-IQは、生成動画モデルが視覚的リアリズムだけを達成しているのか、それとも実際の物理原理を理解しているのかを検証
  • RoboLabは、タスク一般化ロボットポリシーを評価するシミュレーションベンチマーク

学習レシピとドメイン適応

  • Cosmos 3リリースでは、モデルチェックポイントにとどまらず、コード、設定、ワークフローも公開し、新しいドメイン、形態、データセットへのモデル適応を可能にする
  • 教師ありファインチューニング(SFT)は、開発者がCosmos 3モデルを自前データに合わせて調整できるよう支援
  • 公開レシピは、カスタム動画データセット向けのビジョン生成継続学習と、ロボティクス・Physical AIワークフロー向けの行動中心レシピを扱う
  • 開発者は、ロボティクス、自動運転、倉庫自動化といった対象ドメインに合わせてCosmos 3をカスタマイズ可能
  • 継続学習コードと設定はGitHubで提供
  • 行動継続学習は、Cosmos 3をforward dynamics、inverse dynamics、policy generationのような行動認識型Physical AIアプリケーション向けに調整
  • ロボティクスでは、ロボット行動を条件に未来の観測を生成し、観測されたデモの背後にある行動を推論し、現在の観測とタスクプロンプトから行動シーケンスを予測するワークフローを支援

NIMマイクロサービスによるデプロイ

  • Cosmos 3モデルは、最適化された本番デプロイ向けにNVIDIA NIM microservicesとしても提供
  • NIMマイクロサービスは、モデルと最適化済み推論ランタイムをパッケージ化し、サービング基盤を自前でチューニングしなくても高性能を実現
  • 推論ワークフローでは、NIMマイクロサービスはCosmos 3 GitHubリポジトリより使いやすく、GitHubリポジトリは継続学習ワークフローにより適する
  • Cosmos 3 Reasoner NIMは、現在Cosmos 3モデルの推論機能を提供
  • NIMはBF16、FP8、NVFP4量子化チェックポイントの選択をサポート
  • NVFP4量子化は、モデルの数値精度をBF16から4ビット浮動小数点へ下げることで、最大2倍の推論速度向上を達成
  • Cosmos 3 Reasoner NIMのサービングスタックはvLLMベースで、vLLMはcontinuous batching、paged attention、tensor parallelismなどの手法によりLLMを効率的に提供するオープンソース推論エンジン
  • Cosmos 3 NanoはvLLM-omniとNVIDIA Dynamoで実行可能
  • Efficient Video Sampling(EVS)は、推論時にVLMへ入力される動画トークン数を削減し、Cosmos Reason NIMを高速化
  • EVSは各フレームで最も固有なチャンクを保持し、残りを剪定する方式で、小型GPUほどこの手法の恩恵が大きい傾向にある

実行方法

  • コンテナの取得とNGCからのCosmos 3モデルのダウンロードには、NVIDIA NGC APIキーが必要
  • Cosmos 3 Nano Reasoner NIMの実行例は以下の通り
  • Cosmos 3 Super Reasoner NIMを使うにはNIM_MODEL_SIZE=superを指定
docker run --gpus=all \
  -e NGC_API_KEY=$NGC_API_KEY \
  -e NIM_MODEL_SIZE=nano \
  -p 8000:8000 \
  nvcr.io/nim/nvidia/cosmos3-reasoner:latest

スタート用リソース

1件のコメント

 
GN⁺ 3 시간 전
Hacker Newsの意見
  • 画像・動画生成向けの最先端オープンソースモデルである
    他のモデルを上回っているが、640億パラメータなので大半の個人向けコンピュータでは動かすには大きすぎる
    それでも人工的に生成した学習データセットを使った点を考えると印象的である
    Nano Banana 1には勝つが、まだNano Banana 2やSeedance2、Grok Imagineなどと競える水準ではない

    • 大企業のありきたりな製品発表記事は、もうクリックもせずそのままコメント欄に行くようになってしまったのが皮肉にも物悲しい
      企業の製品発表は、最初の9語で伝えられる基本的な事実すら明確に言えていないことが多い
      ただし一つ抜けているニュアンスがあって、これはロボットや自動運転車のAI学習に役立つよう狙ったワールドモデルである
      だからNano BananaやSeedanceの直接の競合というより、画像・動画生成もできるが、核心はAI学習シナリオ向けの物理データとハーネスを提供することにある
    • 画像・動画生成モデルは、ローカルモデルがフロンティアモデルにどれだけ近づいているかを測るための、より分かりやすい現実確認の基準として理解しやすい
  • 「Cosmos 3 Nanoは160億パラメータを持つ小型版で、効率的な推論に最適化されている。NVIDIA RTX PRO 6000 GPUのようなワークステーション級の計算環境で、リアルタイムのロボティクス推論とフィジカルAIアプリケーションを実行するよう設計されている。」
    これを動かすにはそのくらい高価な構成まで必要な、1万ドル超のワークステーション級GPUで試せる日が楽しみだ

    • GPUはあるがロボットがない。これで遊ぶには最低限の機能を持つロボットがどの程度必要なのだろうか?
    • 良い知らせは、Nvidiaがこれを動かせる新しいRTX SparkノートPCを喜んで売ってくれるだろうという点だ
  • 今回のリリースは、2つのタワーを中心としたMixture-of-Transformers(MoT)構造で機能を統合している
    推論タワーはビジョン言語モデル(VLM)で、生成が起きる前に世界を推論する「頭脳」の役割を果たす
    生成タワーは未来の観測と行動シーケンスを生成し、推論タワーの理解を条件として、物理を考慮した動画と行動出力を拡散ベースの過程で作り出す
    このアプローチは、モデル構造間のトレードオフを最適化してバランスを取り、両方の長所を組み合わせようとするエンジニアの本能を刺激する
    しかし私が理解している
    Bitter Lesson
    (http://www.incompleteideas.net/IncIdeas/BitterLesson.html)によれば、長期的にはまさに間違った方向である
    Bitter Lessonの実際の文章をリンクしたのは、この概念がしばしば誤解されていると思う、あるいは少なくとも言説の中での使われ方に同意しないからである
    要点は、AI研究者たちがエージェントに知識を埋め込もうとしてきたが、それは短期的には役に立ち研究者に満足感を与える一方、長期的には停滞して進歩を妨げ、最終的には探索と学習による計算拡張という逆のアプローチが突破口を開く、という歴史的観察である
    この構造は、短期的に役立つ知識をエージェントに埋め込むやり方のように感じられ、長期的には停滞する可能性が高いと思う
    もちろんその上で興味深い学習や産物が出てくることはあり得るが、こうしたアプローチから絞り出せる余地が大きいとは思わない

    • 私にはむしろ逆に感じられる
      MoT構造は、Bitter Lessonが示唆する理想形のように見える。音声、画像、テキスト、行動、動画のようなあらゆる形式のデータを一つの共有潜在空間に入れ、モデルに自分で整理させる方式である
      ただし、シーケンスモデリング・予測には自己回帰的処理を、生成には拡散処理を使うというように、異なる要件と出力形式を扱うための最小限の構造だけを置いたものに近い
    • これはおおむね展開に近く、最近ではかなり標準的なやり方である
      内部の圧縮表現から人が使える形でデータを取り出すのが目的である
      技術的にはピクセルや文字レベルのエンコーディングでも推論できるが、一般にははるかに高コストである
      全体の手法は、コンピュータをより速く動かすための方法として見ればよい
      Qwen talkerや大半のマルチモーダルプロジェクタなどでも見られる
    • ただしこのモデルは、テキストLLMよりドメイン範囲が広い
      動画入力も受け付けるため、以前のオムニモデルよりさらに広い
      構造は特異だが、日々公開されるオープンモデルより極端なチューニングが入っているようには見えない
  • 倉庫の安全動画の例は本当に笑える。人々がまったく反応していない

    • 車の動画もおかしい。交差するバンが明らかに赤信号を無視して通り過ぎている
      交差点に落ちている街灯柱の大きな影もまったく筋が通らない
  • 2タワー型のMixture-of-Transformers設計、つまり自己回帰の推論器が拡散生成器に入力を与える方式は、興味深い構造的賭けである

  • これが何をするものなのか分かりにくい
    「未来の観測と行動シーケンスを生成する」というのは、単に動画生成を複雑に言っているだけなのか?

    • いや。違いは行動の部分にある
      このワールドモデルは、たとえばロボットの行動を条件にするため、単純な動画生成だけではできない二つのことが可能になる
      特定の行動の後に続く未来のフレームを予測でき、同じ開始フレームでも行動を変えれば異なる未来が出てくる
      また逆向きに実行して、観測されたフレームの後にある行動を推論したり、目標に到達するために必要な行動を出力したりできる
      このとき出力は動画フレームではなくモーター命令である
    • 私の理解では、これはコンピュータビジョンと動画生成の両方を意味し、それらをかなり堅牢なワールドモデルとして結び付けている
      ホスティングされた例の一つは既存の動画分析だけを行い、別の一つは静止画像から動画を予測する、つまり動画生成を行う方式である
    • これが何で、なぜそう表現されているのか想像してみると、AIロボティクス分野にはUnityやUnreal式の変形しない剛体物理より優れた物理を持つ超現実的なゲームエンジンが必要なのだろう
      同時に、工学用の有限要素法シミュレーションと違って1倍速よりずっと高速でなければならず、このモデルはその需要を狙っているように見える
    • サポート形式の表を見ればよい。画像、動画、テキスト、行動を入力として受け取り、画像、動画、テキスト、行動を出力できる
    • ロボット、車、ドローンのようなフィジカルAIを学習させるための合成データ生成に使える
      ロボットを人の家に送り込まなくても、一人称視点で世界をシミュレーションして学習データを作れる
  • 選ばれた例の大半があまり良く見えない
    ひどいゲームエンジンとAIの寄せ集めが奇妙に混ざった感じである
    こうしたものが実際の応用向けの良い学習データになるとは想像しにくい

  • あらゆる技術進歩を成し遂げておきながら、サイトが高負荷に苦しんでいるのが笑える