- ロボティクス分野は2025年に407億ドルという過去最高の投資を呼び込み、前年比74%増で、ベンチャー資金全体の9%を占め、AIソフトウェアと並ぶ主要投資分野として浮上
- フィジカルAI/物理AIは、ロボットが事前にプログラムされたルールではなくデータから学習し、物理世界で動作できるようにする中核技術
- 言語モデルとは異なり、フィジカルAIモデルには実ロボットデータが必要であり、これにより市場支配をめぐる初期先行の機会が生まれている
- 10のフィジカルAIモデルカテゴリーにわたり、70社以上がデータ・シミュレーション、モデルアプローチ、ファウンデーションモデル、オブザーバビリティ領域で競争中
- マルチロボット協調はフィジカルAIの主要な未解決課題であり、これを先に解決した企業が自律ロボットフリートの産業拡大を主導すると見られる
主要な示唆
- 独自の学習データがフィジカルAIの中核的な競争優位であり、大手テック企業は買収を通じてデータアクセス権の確保に動いている
- Nvidiaは2025年3月、合成データ提供企業Gretelを3億2,000万ドル超で買収
- Metaはデータインフラおよびモデル開発企業Scaleに148億ドルを出資
- OpenAIは学習データ確保のためMedalの買収を試みたが、Medalはそのデータでモデルを構築するGeneral Intuitionを立ち上げた
- 独自の学習データを確保した企業は、より優れたモデルを開発でき、競合はライセンスによるアクセスに依存せざるを得ない
- 多様で高品質な学習データを早期に確保することが、商用規模到達の鍵
- ワールドモデルはロボットが自律的に予測し計画できるようにし、これは大規模言語モデル(LLM)が実現していない能力
- ワールドモデルへの投資は2024年の14億ドルから2025年には69億ドルへ急増
- この分野の企業の平均Mosaicスコアは722(市場全体の上位3%)
- 成功には、制御された環境での高品質な学習データと、ハードウェアメーカーとの緊密なパートナーシップが必要
- マルチロボット協調はフィジカルAIの主要な未解決課題として残っている
- 米国企業は17件のディールで170億ドル超を調達
- 中国企業は15件のディールで4億1,600万ドルを調達
- 両地域とも単一ロボットの能力にほぼ全面的に集中しており、多様なロボットタイプが連携して動作するために必要なオーケストレーションレイヤーを構築する企業は少数
- 協調問題を先に解決した企業が、自律ロボットフリートの産業拡大を支配できる可能性がある
カテゴリー概要
-
データ & シミュレーション
- ロボット学習の基盤を提供する領域であり、ロボットには大量の学習データが必要だが、実データの収集は遅くコストも高い
- 3つのサブ市場で構成:
- 合成学習データ — ロボティクス: 高コストな実収集なしで、画像、センサーデータ、3Dシーンなどの合成データセットを生成するツール
- ロボットデモンストレーションデータ提供企業: 模倣学習のための遠隔操作データ、モーション軌跡、動画などの実データを取得する企業
- ロボティクスシミュレーションプラットフォーム: 物理的に配備する前にロボットを学習、テスト、検証する仮想環境
- データ希少性がフィジカルAIの主要なボトルネックであり、コストと可用性の問題から実学習データへのアクセスが難しい
- これら市場の平均Mosaicスコアは約600(市場モメンタムで上位半分)
- 企業の50%が配備段階に入っており、フィジカルAI向けデータインフラが研究を超えて商業的実行可能性へ成熟していることを示す
- 多くの企業が合成データとシミュレーションに依存しており、Nvidiaが市場をリード
- ただし合成データだけでは不十分で、信頼できるモデル学習には実ロボットデータが依然として重要
- Scaleは164億ドルを調達し、Mosaicスコアで上位1%にランクイン
- Scaleは、合成データ生成と実データ収集(ロボットの人間による遠隔操作、物理環境のセンサーデータを含む)を組み合わせ、データラベリング事業をモデル開発へ拡張
- 新興企業は、既存のデータ不足を克服するため新たなデータソースを追求
- General Intuitionは、ロボットシステムに適用可能なゲームプレイ動画でモデルを学習させるため、1億3,400万ドルを調達
- micro1は5億ドル評価で3,500万ドルを調達し、人間の相互作用動画から世界最大級のロボティクス学習データセットを構築中
- 独自データセットまたはシミュレーションプラットフォームがなければ、ロボット企業は先行企業からライセンスを受けるしかないか、触覚、圧力、物理的動作といった重要なデータタイプで後れを取るリスクがある
-
モデルへのアプローチ
- ロボットに視覚、推論、行動能力を与え、各モデルは別のモデルの上に構築される
- 硬直的なプログラミングではなく、新しいタスクに適応できるようにする
- 3つのサブ市場で構成:
- ビジョン・ランゲージモデル(VLM)開発企業: 視覚理解と自然言語を組み合わせたマルチモーダルモデルで、ロボットの認識レイヤーとして機能
- ビジョン・ランゲージ・アクション(VLA)モデル開発企業: VLMを基盤に、視覚認識、言語理解、モーター制御を組み合わせ、命令を物理的行動へ直接変換するAIシステム
- ワールドモデルAI開発企業: 空間関係、物理法則、因果関係を予測するため、環境変化をシミュレーションするモデル
- フィジカルAIはロボティクスをハードコードされたプログラミングから柔軟でタスク適応型のシステムへ転換させており、VLAモデルが主導的アーキテクチャとして浮上
- Figure、1X、Galbotのような先進的ヒューマノイドロボット企業が独自のVLAモデルを構築中
- NvidiaやMetaのようなビッグテック企業は、ロボットメーカー向けの商用ライセンス用モデルを開発中
- ワールドモデルは予測的推論を加えることで、真のブレークスルーとなる可能性がある
- World LabsやRunwayのような企業がワールドモデルを構築中
- VLAが即時入力に反応するのに対し、ワールドモデルは時間経過に伴う環境変化をシミュレーションする
- ロボットが結果を予測し、複数段階の行動を計画し、エラーから回復できるようにする
-
ファウンデーションモデル
- データとアーキテクチャを組み合わせ、認識、推論、行動が可能な事前学習済みロボット知能
- 一部は操作向けの汎用モデルであり、一部は特化型モデル
- 開発者はゼロから構築するのではなく、この知能をライセンスして適用できる
- 3つのサブ市場で構成:
- ロボットファウンデーションモデル開発企業: 多様なハードウェア上でロボットが見て、考えて、動けるようにする汎用モデル
- 自動運転ファウンデーションモデル開発企業: 大規模走行データセットで学習され、認識、予測、計画、制御を統合し、ロボタクシー、トラック輸送、配送向け既存自律システムを置き換える
- マルチロボット協調モデル開発企業: タスク分配、衝突回避、分散意思決定を処理し、ロボット群が協力できるようにするマルチエージェントアルゴリズム
- ファウンデーションモデル市場は非常にダイナミック
- 米国のテック大手(Microsoft、Google、Amazon)と中国の先進企業(Huawei、Baidu)が、DeepSeek、Physical Intelligenceのような注目スタートアップと競争
- 多くの企業が複数タイプのファウンデーションモデルにまたがって取り組んでいる
- あるドメインの学習データが、別ドメインのモデル性能向上に寄与する可能性がある
- Nvidiaは3つのファウンデーションモデルカテゴリーすべてで活動する唯一の企業であり、フィジカルAIスタック全体のインフラとして位置づけられている
- マルチロボット協調が次のフロンティア
- 倉庫でヒューマノイド、自律移動ロボット、自律フォークリフトが一緒に稼働するようなシナリオ
- 多様なロボットタイプの協調には、中央制御なしでタスク、リソース、衝突回避を管理するオーケストレーションレイヤーが必要
- これを追求しているのは少数のスタートアップ(Field AI、Intrinsic)とビッグテック企業のみ
- その大半は商用配備よりも研究段階にとどまっている
- 独自モデルを持つ企業は、差別化と垂直統合によってより高いマージンを確保できる
- サードパーティAIをライセンスする企業は、モデルのコモディティ化に伴う低コストの恩恵を受けられる一方で、中核技術ではなく配備速度と統合品質で競争することになる
-
オブザーバビリティ(Observability)
- ロボットが本番環境で動作する際に起きる状況を捉え、研究室での開発と実運用配備の間のギャップを埋める
- ロボティクス・オブザーバビリティプラットフォーム: 開発および本番環境でロボットを監視、デバッグ、最適化するプラットフォーム
- ロボットが失敗したり予期せぬ動作をした際、エンジニアはインシデントを再生し、原因を特定して修正をプッシュできる
- 実際のエッジケースがシミュレーションと学習に反映され、モデル改善と性能向上につながる
- FoxgloveとFormantが代表例で、性能を追跡し、失敗を分析し、配備から得たインサイトを学習データセット、シミュレーション、モデルへ再びフィードバックする
- 強力なオブザーバビリティを備えた企業は、失敗から学んでモデルを迅速に改善できる
- 想定外の状況が学習上の優位へ転換され、本番対応システムと研究室プロトタイプを分ける重要要素となる
まだコメントはありません。