- NVIDIA Cosmos 3は、Physical AI向けの単一のオープン基盤モデルであり、物理推論・ワールド生成・行動生成を1つのモデル内に統合
- Mixture-of-Transformersアーキテクチャは、Reasoner towerとGenerator towerを分離し、入力理解と物理認識に基づく生成出力を接続することで、複数モデルや推論パイプラインを調整する必要性を低減
- Cosmos 3 Nanoは16Bパラメータでワークステーションクラスの推論を想定し、Cosmos 3 Superは64Bパラメータでデータセンター展開と高品質な合成データ生成を想定
- NVIDIAは、モデルチェックポイント、学習スクリプト、デプロイツール、6つの合成データセット、NIMマイクロサービスを公開し、ロボティクス・自動運転・倉庫自動化へのドメイン適応を支援
- HUEおよび複数の公開ベンチマークで、Cosmos 3はPhysical AIの推論・生成品質・ドメイン性能を評価され、SuperとNanoはそれぞれVANTAGE-Benchの32B・8Bティアで首位を記録
Cosmos 3の主要な変化
- NVIDIA Cosmos 3は、ロボット、自動運転車、スマート空間などのPhysical AIシステムが世界を理解し、次の状況を予測し、特定の環境・形態・タスクに適した行動を生成できるよう設計されたフロンティア基盤モデル
- これまでのCosmosリリースでは、ワールド生成、物理理解、制御されたシーン生成を別々のモデルとワークフローに分けていたが、Cosmos 3ではこれらを1つのモデルに統合
- 今回のリリースでは、Hugging Faceのモデルチェックポイント、GitHubのコード、公開データセット、継続学習スクリプト、NVIDIA GPU向けデプロイ用のCosmos NIMマイクロサービスを提供
2タワー構造
- Cosmos 3は、2つのタワーを中心としたMixture-of-Transformersアーキテクチャを採用
- Reasoner towerは、画像・動画・テキストなどのマルチモーダル観測を解釈するビジョン言語モデル(VLM)であり、自己回帰構造によって入力を解釈し、動き、物体間相互作用、物理的コンテキストを理解
- Generator towerは、Reasoner towerの理解を条件として、物理認識に基づく動画と行動出力を拡散ベースのプロセスで生成
- Reasonerは単独で呼び出せるが、Generatorはガイド付き生成のため常に両方のタワーを有効化
- この構造により、推論と生成タスクを単一モデルで処理し、複数モデルや推論パイプライン間のオーケストレーションを削減
モデルサイズの選択
- Cosmos 3 Nanoは16Bパラメータのコンパクトモデルで、効率的な推論向けに最適化
- Nanoは、NVIDIA RTX PRO 6000 GPUのようなワークステーションクラスの計算環境で、リアルタイムのロボティクス推論やPhysical AIアプリケーションを実行するよう設計
- Cosmos 3 Superは64Bパラメータモデルで、最大限の品質と機能を目指す
- Superは最高水準のベンチマークスコアを提供し、NVIDIA HopperおよびNVIDIA Blackwell GPUベースのデータセンター展開を想定
- Superは大規模な合成データ生成と高度な物理推論ワークロードに適する
公開データセット
- NVIDIAはCosmos 3のリリースにあわせて、Hugging Face上で6つの合成データ生成(SDG)データセットを公開
- これらのデータセットはCosmos 3や他モデルの継続学習に利用でき、ロボティクス、物理シミュレーション、空間推論、人間動作、運転、倉庫環境を扱う
- 公開データセット:
HUE評価フレームワーク
- NVIDIA Cosmos Human Evaluation(HUE)は、代表的なドメインタスクにおけるCosmos 3 Generatorの品質を評価
- 最新の動画生成モデルが既存の自動リーダーボードで飽和し、リリース間のスコア差が意味のある比較に十分でないケースが増えている
- HUEは主観的採点ではなく客観的な事実検証へと評価を切り替え、上位モデル同士の精密な比較を可能にする
- HUEは生成動画を、4つの次元にまたがる単一事実のyes/no質問へ分解
- 質問は、ロボティクス、自動運転車、物理など7つのPhysical AIドメインを網羅
- 質問はVLMパイプラインで生成され、人間の専門家が精査し、Hugging Faceでオープンソース公開
ベンチマーク結果
学習レシピとドメイン適応
- Cosmos 3リリースでは、モデルチェックポイントにとどまらず、コード、設定、ワークフローも公開し、新しいドメイン、形態、データセットへのモデル適応を可能にする
- 教師ありファインチューニング(SFT)は、開発者がCosmos 3モデルを自前データに合わせて調整できるよう支援
- 公開レシピは、カスタム動画データセット向けのビジョン生成継続学習と、ロボティクス・Physical AIワークフロー向けの行動中心レシピを扱う
- 開発者は、ロボティクス、自動運転、倉庫自動化といった対象ドメインに合わせてCosmos 3をカスタマイズ可能
- 継続学習コードと設定はGitHubで提供
- 行動継続学習は、Cosmos 3をforward dynamics、inverse dynamics、policy generationのような行動認識型Physical AIアプリケーション向けに調整
- ロボティクスでは、ロボット行動を条件に未来の観測を生成し、観測されたデモの背後にある行動を推論し、現在の観測とタスクプロンプトから行動シーケンスを予測するワークフローを支援
NIMマイクロサービスによるデプロイ
- Cosmos 3モデルは、最適化された本番デプロイ向けにNVIDIA NIM microservicesとしても提供
- NIMマイクロサービスは、モデルと最適化済み推論ランタイムをパッケージ化し、サービング基盤を自前でチューニングしなくても高性能を実現
- 推論ワークフローでは、NIMマイクロサービスはCosmos 3 GitHubリポジトリより使いやすく、GitHubリポジトリは継続学習ワークフローにより適する
- Cosmos 3 Reasoner NIMは、現在Cosmos 3モデルの推論機能を提供
- NIMはBF16、FP8、NVFP4量子化チェックポイントの選択をサポート
- NVFP4量子化は、モデルの数値精度をBF16から4ビット浮動小数点へ下げることで、最大2倍の推論速度向上を達成
- Cosmos 3 Reasoner NIMのサービングスタックはvLLMベースで、vLLMはcontinuous batching、paged attention、tensor parallelismなどの手法によりLLMを効率的に提供するオープンソース推論エンジン
- Cosmos 3 NanoはvLLM-omniとNVIDIA Dynamoで実行可能
- Efficient Video Sampling(EVS)は、推論時にVLMへ入力される動画トークン数を削減し、Cosmos Reason NIMを高速化
- EVSは各フレームで最も固有なチャンクを保持し、残りを剪定する方式で、小型GPUほどこの手法の恩恵が大きい傾向にある
実行方法
- コンテナの取得とNGCからのCosmos 3モデルのダウンロードには、NVIDIA NGC APIキーが必要
- Cosmos 3 Nano Reasoner NIMの実行例は以下の通り
- Cosmos 3 Super Reasoner NIMを使うには
NIM_MODEL_SIZE=superを指定
docker run --gpus=all \
-e NGC_API_KEY=$NGC_API_KEY \
-e NIM_MODEL_SIZE=nano \
-p 8000:8000 \
nvcr.io/nim/nvidia/cosmos3-reasoner:latest
スタート用リソース
1件のコメント
Hacker Newsの意見
画像・動画生成向けの最先端オープンソースモデルである
他のモデルを上回っているが、640億パラメータなので大半の個人向けコンピュータでは動かすには大きすぎる
それでも人工的に生成した学習データセットを使った点を考えると印象的である
Nano Banana 1には勝つが、まだNano Banana 2やSeedance2、Grok Imagineなどと競える水準ではない
企業の製品発表は、最初の9語で伝えられる基本的な事実すら明確に言えていないことが多い
ただし一つ抜けているニュアンスがあって、これはロボットや自動運転車のAI学習に役立つよう狙ったワールドモデルである
だからNano BananaやSeedanceの直接の競合というより、画像・動画生成もできるが、核心はAI学習シナリオ向けの物理データとハーネスを提供することにある
「Cosmos 3 Nanoは160億パラメータを持つ小型版で、効率的な推論に最適化されている。NVIDIA RTX PRO 6000 GPUのようなワークステーション級の計算環境で、リアルタイムのロボティクス推論とフィジカルAIアプリケーションを実行するよう設計されている。」
これを動かすにはそのくらい高価な構成まで必要な、1万ドル超のワークステーション級GPUで試せる日が楽しみだ
今回のリリースは、2つのタワーを中心としたMixture-of-Transformers(MoT)構造で機能を統合している
推論タワーはビジョン言語モデル(VLM)で、生成が起きる前に世界を推論する「頭脳」の役割を果たす
生成タワーは未来の観測と行動シーケンスを生成し、推論タワーの理解を条件として、物理を考慮した動画と行動出力を拡散ベースの過程で作り出す
このアプローチは、モデル構造間のトレードオフを最適化してバランスを取り、両方の長所を組み合わせようとするエンジニアの本能を刺激する
しかし私が理解しているBitter Lesson(http://www.incompleteideas.net/IncIdeas/BitterLesson.html)によれば、長期的にはまさに間違った方向である
Bitter Lessonの実際の文章をリンクしたのは、この概念がしばしば誤解されていると思う、あるいは少なくとも言説の中での使われ方に同意しないからである
要点は、AI研究者たちがエージェントに知識を埋め込もうとしてきたが、それは短期的には役に立ち研究者に満足感を与える一方、長期的には停滞して進歩を妨げ、最終的には探索と学習による計算拡張という逆のアプローチが突破口を開く、という歴史的観察である
この構造は、短期的に役立つ知識をエージェントに埋め込むやり方のように感じられ、長期的には停滞する可能性が高いと思う
もちろんその上で興味深い学習や産物が出てくることはあり得るが、こうしたアプローチから絞り出せる余地が大きいとは思わない
MoT構造は、Bitter Lessonが示唆する理想形のように見える。音声、画像、テキスト、行動、動画のようなあらゆる形式のデータを一つの共有潜在空間に入れ、モデルに自分で整理させる方式である
ただし、シーケンスモデリング・予測には自己回帰的処理を、生成には拡散処理を使うというように、異なる要件と出力形式を扱うための最小限の構造だけを置いたものに近い
内部の圧縮表現から人が使える形でデータを取り出すのが目的である
技術的にはピクセルや文字レベルのエンコーディングでも推論できるが、一般にははるかに高コストである
全体の手法は、コンピュータをより速く動かすための方法として見ればよい
Qwen talkerや大半のマルチモーダルプロジェクタなどでも見られる
動画入力も受け付けるため、以前のオムニモデルよりさらに広い
構造は特異だが、日々公開されるオープンモデルより極端なチューニングが入っているようには見えない
倉庫の安全動画の例は本当に笑える。人々がまったく反応していない
交差点に落ちている街灯柱の大きな影もまったく筋が通らない
2タワー型のMixture-of-Transformers設計、つまり自己回帰の推論器が拡散生成器に入力を与える方式は、興味深い構造的賭けである
これが何をするものなのか分かりにくい
「未来の観測と行動シーケンスを生成する」というのは、単に動画生成を複雑に言っているだけなのか?
このワールドモデルは、たとえばロボットの行動を条件にするため、単純な動画生成だけではできない二つのことが可能になる
特定の行動の後に続く未来のフレームを予測でき、同じ開始フレームでも行動を変えれば異なる未来が出てくる
また逆向きに実行して、観測されたフレームの後にある行動を推論したり、目標に到達するために必要な行動を出力したりできる
このとき出力は動画フレームではなくモーター命令である
ホスティングされた例の一つは既存の動画分析だけを行い、別の一つは静止画像から動画を予測する、つまり動画生成を行う方式である
同時に、工学用の有限要素法シミュレーションと違って1倍速よりずっと高速でなければならず、このモデルはその需要を狙っているように見える
ロボットを人の家に送り込まなくても、一人称視点で世界をシミュレーションして学習データを作れる
選ばれた例の大半があまり良く見えない
ひどいゲームエンジンとAIの寄せ集めが奇妙に混ざった感じである
こうしたものが実際の応用向けの良い学習データになるとは想像しにくい
そして、この技術や類似技術がすべての先進的な自動運転車メーカーで大規模に使われているのは客観的な事実なので、帰納的に見ればその用途には十分良いと言える
Cosmosで働いているわけではないが、現在Nvidiaで表面的には似た非公開技術に取り組んでおり、多くの先進企業が使っている
私の意見では品質も似たようなものだ
関連する公開研究の一部はここにある
https://github.com/nv-tlabs/3dgrut/
https://github.com/NVIDIA/harmonizer
https://github.com/NVIDIA/instant-nurec
https://github.com/nvidia/ncore
Nvidiaは、私が取り組んでいるものの少なくとも一部にGsplatも統合しており、upstreamにも貢献している
https://github.com/nerfstudio-project/gsplat
あらゆる技術進歩を成し遂げておきながら、サイトが高負荷に苦しんでいるのが笑える