- 空間知能(spatial intelligence) は、AIが現実世界と仮想世界を理解し、相互作用する方法を根本から変える中核領域
- 現在の 大規模言語モデル(LLM) は言語処理には優れているが、距離・方向・物理的一貫性といった空間推論能力は人間レベルに達していない
- これを解決する新たなアプローチとして 「ワールドモデル(world model)」 が提案されており、これは生成的・マルチモーダル・インタラクティブな特性を備えた次世代生成モデルのアーキテクチャ
- World Labsはこうしたモデルを開発中で、「Marble」 という初期バージョンは、複数入力をもとに一貫した3D環境を生成・維持する機能を実演している
- 空間知能は、創造性、ロボティクス、科学・医療・教育 など多様な分野で人間の能力を拡張する、AI発展の次の段階
空間知能の概念と重要性
- 人間の知能は 知覚と行動のループ(perception-action loop) を基盤として進化しており、空間知能はそれを可能にする中核要素
- 車の駐車、物をつかむこと、複雑な環境内での移動といった日常的な行動はすべて空間推論に依存する
- 言語以前の子どもの発達過程でも、環境との相互作用を通じて空間感覚を獲得する
- 創造性と想像力 もまた空間知能に基づく
- 洞窟壁画から映画、ゲーム、仮想現実(VR)に至るまで、人間は空間的思考を通じて世界を表現してきた
- 産業設計、デジタルツイン、ロボット訓練などでも空間シミュレーションが中核的役割を果たす
- 歴史的にも空間知能は文明発展の原動力だった
- エラトステネスによる地球周長の計算、スピニング・ジェニーの構造革新、DNA構造の発見はいずれも空間的思考の成果
- 現在のAIは視覚認識や生成能力では進歩したが、距離・方向・物理法則の理解 といった空間的一貫性は依然として不足している
- 最新のマルチモーダルモデルでも、物体の回転、迷路探索、物理予測などでは性能が低い
- この限界によって、ロボット制御、自動運転、没入型学習など現実世界での応用が制約されている
ワールドモデル: 空間知能を実現する新しいAIアーキテクチャ
- 空間知能を実現するには、LLMよりもさらに複雑な ワールドモデル(world model) が必要
- 現実世界と仮想世界の 意味的・物理的・幾何学的・動的な複雑性 を統合的に理解・生成・相互作用できなければならない
- ワールドモデルの3つの中核能力
- 生成的(Generative) : 知覚的・幾何学的・物理的に一貫した世界を生成する
- 現実空間または仮想空間をシミュレーションし、現在状態と過去状態のあいだの連続性を維持する
- マルチモーダル(Multimodal) : 画像、動画、テキスト、ジェスチャーなど多様な入力を統合処理する
- 視覚的忠実度と意味理解能力を同時に備える必要がある
- インタラクティブ(Interactive) : 入力された行動に応じて次の状態を予測・生成する
- 目標状態が与えられた場合、それに応じた世界の変化と行動まで予測できなければならない
- 言語生成よりはるかに複雑な 物理法則・幾何構造・動力学 を一貫して反映する必要があるため、技術的難易度は非常に高い
World Labsの研究と技術的課題
- World Labsは2024年初頭に設立され、空間知能を中心としたワールドモデル研究 を進めている
- 主な研究テーマ
- 汎用的な学習関数の定義: LLMの「次トークン予測」のように単純でありながら、物理・幾何法則を反映する学習目標の策定
- 大規模学習データ: インターネット画像・動画、合成データ、深度・触覚情報など複数ソースを活用
- 新しいモデルアーキテクチャ: 3D・4D認識ベースのトークナイゼーションとメモリ構造の研究
- 例: RTFM(Real-Time Frame-based Model) は空間フレームをメモリとして活用し、リアルタイム生成と一貫性維持を実現する
- 初期成果物である Marble は、複数入力から一貫した3D環境を生成・維持し、一部ユーザーにデモが行われている
空間知能の応用領域
創造性とコンテンツ制作
- Marble は、映画制作者、ゲームデザイナー、建築家などに 完全探索型の3D世界生成 機能を提供する
- 予算や地理的制約なしに、多様なシーンや視点を試せる
- ストーリーテリング、アート、教育、設計などで没入型体験を創出する
- 空間ナラティブ設計 により、建築・産業・ファッションデザインの可視化プロセスを短縮できる
- VR・XRベースの没入型体験 の拡張によって、個人クリエイターも自分だけの世界を構築できる
ロボティクス
- ロボット学習のボトルネックは 訓練データ不足 であり、ワールドモデルがそれを補完する
- シミュレーションと現実のあいだのギャップを縮め、多様な環境で学習できる
- 人間協調型ロボット の実現には空間知能が不可欠
- 研究室や家庭などで、人間の目標や行動を理解し協力するロボットの開発
- 多様な形態のロボット —ナノボット、ソフトロボット、深海・宇宙向けロボット— の訓練環境やベンチマーク構築にも活用できる
科学、医療、教育
- 科学研究: 多次元シミュレーションによって実験を加速し、気候・材料研究などで計算コストを削減
- 医療: 創薬、画像診断、患者モニタリングなどで空間知能ベースのAI活用が拡大
- 教育: 複雑な概念を可視化し、学習者ごとに最適化された没入型学習環境を提供
- 学生は細胞構造や歴史的出来事を探検でき、専門家はリアルなシミュレーションで技術練習が可能
人間中心のAI発展ビジョン
- AI開発の目的は 人間能力の拡張 であり、代替ではない
- 創造性・生産性・つながり・生活満足度を高める方向へ進化すべき
- 空間知能は 人間の想像力・ケア・探究能力 を拡張する技術として提示されている
- このビジョンを実現するには、研究者・企業・政策立案者など AIエコシステム全体の協力 が必要
結論
- AIはすでに社会全体を変えてきたが、空間知能 はその次の段階の革新として提示されている
- ワールドモデルによって、現実世界と調和して相互作用する 空間的に知的な機械 の開発が可能になる
- これは疾病研究、ストーリーテリング、ケアなど人間の中核的活動を向上させる技術的転換点と評価される
- 人間知能の進化が空間知能から始まったように、AIの完成もまた空間知能によって完結する というビジョンが示されている
1件のコメント
Hacker Newsのコメント
読んでみたが、彼らが実際に何を理解しているのかよく分からない
ノートには実質的な情報がほとんどなく、単に「ImageNetのように空間データを集める」という程度に見える
空間知能を研究している人たちは主に神経科学の分野にいる
私が書いた要約論文では、entorhinal cortex、grid cell、座標変換が鍵になりうると説明した
すべての動物はリアルタイムで座標を変換しながら世界を探索しており、人間はその中でも最も多くの座標表現を持っている
人間レベルの知能とは、いつ・どのように座標系を変換して有用な情報を引き出すかを知っていることだと思う
LLMブーム以前に書いた文章だが、今でもこの方向性が正しいと信じている
衝突検出、物理ベースアニメーション、非線形方程式の解法、荒れた地形での脚付き移動の研究へとつながったが、AIではなかった
今は膨大な計算資源を投入して、学習システムが空間世界の内部表現を自力で見つけることを期待する形になっている
ロボット歩行はかなり良くなったが、非構造環境でのマニピュレーション(manipulation) はいまだにひどい
1960年代のStanfordのMcCarthy研究室の映像と比べても大差ない
以前は人間レベルより先にネズミやリス程度の知能を達成すべきだと思っていたので、むしろ抽象的なAIが先に出てきたことに驚いた
最近では、短い動画を見て次の場面を予測する動画生成の研究が面白い
常識(common sense)の核心は、まさに「次に何が起こるか」を短時間で予測する能力だと思う
関連するノーベル賞のプレスリリースも参考になる
「transform」「revolutionize」「next frontier」「North Star」みたいなVCっぽい流行語が多すぎて信頼できない
2018年Natureの"Vector-based navigation using grid-like representations in artificial agents"、
2024年Natureの"Modeling hippocampal spatial cells in rodents navigating in 3D environments"、
そしてDeepMindのgrid-cellシミュレーションもあわせて見るとよい
神経科学ではかなり以前から空間認識の研究が行われてきた
生物学的システムをそのまま複製する試みはほとんど失敗している
CNNは脳に着想を得ているが構造的には異なり、LLMは人間の脳とほとんど似ていない
LLMの機能的な類似性は、脳構造の模倣ではなく訓練過程に由来する
これは狭い仮想世界で動くシミュレーションシステムにすぎない
この種のシステムは、現実世界の複雑なダイナミクスを学習する上でほとんど役に立たない
仮想世界モデルは物理世界モデルの単純化された特殊ケースにすぎず、この会社が空間知能の分野で実質的な進展を遂げる証拠は見当たらない
最近、agentic codingをCADに適用して驚くような体験をした
3Dプリント用モデルにねじ山を追加する必要があり、計算幾何学を使ってエージェントがモデルを「感じられる」ようにした
球の半径をモデル全体に畳み込むようにしてポート位置を見つけ、ねじ山を追加した
何度か試した末に成功し、この経験からモデルには**「触覚的な感覚」が必要だ**と気づいた
最終的に3Dモデルはコードとして実装され、検証可能である必要があった
OpenSCADで試してみたが、現在のモデルには形状接続の常識(common sense) が欠けている
コードベースのCADデータセットがもっと増えれば、はるかに実用的になるだろう
そうでなければ、結局は物理シミュレーションベースの学習が必要になる
「それをそこに置くな、あっちに置け」程度の曖昧さが生じる
Genie 3は、彼女が語っていた目標、つまり一貫した物理法則を持つ制御可能な世界モデルをある程度達成している
姉妹モデルのVeo 3は空間問題解決能力も示している
GenieとVeoはWorld Labsよりも彼女のビジョンにはるかに近い
しかし記事ではGoogleのモデルにまったく触れておらず、自社宣伝用の記事のように感じる
DeepMind Gemini Robotics ERを参照
現在のAIはウェブ上でしか学習しておらず、人間との相互作用から学べない
人間は生涯にわたる文脈と記憶を通じて学ぶが、AIでは会話が終わるとその文脈が失われる
パーソナライズされた巨大なコンテキストメモリがあれば、はるかに価値が高くなるだろう
従来の方式では追加学習時にcatastrophic forgettingが起きるが、Nested Learningでは複数の小さなモデルに分割することで、再学習時に他の部分を壊さないようにする
私たちの空間理解は、宇宙規模の量子シミュレーションのように膨大だ
一方で、現在私たちが完全にシミュレーションできるのは原子や細胞レベルにすぎない
この記事を読みながら、人間が自然を「先回りして考えた」最初の例は車輪だったのではないかと思った
自然はでこぼこしているが、人間は平らな道路を作って転がることを可能にした
科学技術の発展は、世代を超えたパターン直観の継承を可能にしたもう一つの例でもある
「超知能」が速度以外の形で可能かどうかは分からないが、三次元的な思考能力はAIが人間や自然を超えるために不可欠だろう
血管が栄養や信号を運ぶように、道路も資源を運ぶ
もしかすると自然はその組織化能力を種レベルへ拡張したにすぎず、人間が自然より上だと言う根拠は弱い
人間の認知は空間知能の上に築かれた構造物だ
抽象的思考だけで成り立っているのではなく、感覚に基づく統合的経験なのだ
進化は象徴的な脳ではなく、感覚の融合を通じて一般化を実現した
知能はアルゴリズムではなく、感覚間の一貫した調和から生まれる
感覚の完全性こそが、今後進むべき方向だ
LLMの空間推論の現状をまとめたブログ記事を追っている
結論は……まだ道のりは遠い
Spatial tokenは役に立つかもしれないが、必須ではない
多くの物理問題は今でも紙とペンで解ける
512×512画像を85トークンで、動画を1秒あたり263トークンで表現できるという点は驚きだ
これはメモリ対埋め込みの新たなバランス問題に見える
「頭の中でリンゴを回転させられるか」という問いのように、空間埋め込みは直観的なダイナミクス理解を可能にするだろう
私たちのチームFlyShirleyでもパイロット訓練シミュレーションを通じてこの領域を研究しており、Fei-Feiのモデルも試してみる予定だ
動画ベースの学習と推論には莫大な計算資源が必要なので、
こうしたアプローチがエージェントアシスタント(コーディング、マーケティング、スケジュール管理など)に本当に役立つのかは疑問だ
むしろロボティクス分野のほうが有利な計算構造になると思う