- Nianticは、大規模な機械学習を活用して、シーンを理解し、世界中の何百万もの異なるシーンと結び付ける大規模地理空間モデル(LGM)を開発中
- 人間は空間理解力によって構造物をさまざまな角度から想像できるが、機械にとっては難しい課題
- NianticのVisual Positioning System(VPS)は、50億件以上のニューラルネットワークを訓練し、100万か所以上の位置で動作可能
- 大規模地理空間モデルとは?
- LGMは、コンピュータが物理世界を認識し、理解し、探索できるよう支援する
- LLMと同様に、LGMは膨大な量の生データを用いて構築され、空間、構造、物理的相互作用に対する位置ベースの理解を可能にする
- 3Dビジョンモデルを超える地理空間モデルは、特定の地理的位置に根ざしており、精密なスケール単位で測定可能
- Nianticの取り組み状況
- 過去5年間、NianticはVPSを構築し、ユーザーが物理環境にデジタルコンテンツを正確に配置できるようにしてきた
- VPSはユーザーのスキャンによって構築され、これは歩行者視点で収集されたデータであり、車ではアクセスできない場所も含む
- 現在、世界中で1,000万か所のスキャン済み位置があり、毎週100万件の新しいスキャンを収集している
- ローカルシステムから共有理解へ
- 現在のニューラルマップは実用可能な地理空間モデルだが、LGMは独立したローカルマップを超えるビジョンを持つ
- LGMはローカルモデル間でのデータ共有を可能にし、特定の場所における建物の裏側の姿を推論できる
- これは、地理空間データと視覚データに基づく中央集約的な世界理解を実現する
- 人間のような理解
- 人間は、見たものを別の角度からでも認識できる能力を持つ
- このような理解は、大規模な機械学習によってのみ現実的に達成可能であり、Nianticはそれを目指している
- 補完的な基盤モデルへの発展
- LGMは単なる位置特定以上の用途に使うことができ、シーン表現、操作、生成の新しい方法を可能にする
- さまざまな種類の基盤モデルが互いを補完し合い、こうしたシステムは物理世界を認識し、理解し、動作できるようにする
- Nianticは、大規模地理空間モデルの開発を主導し、ユーザーに新しい体験を提供することを目標としている
1件のコメント
Hacker Newsの意見
Pokémon GOのプレイヤーとして、ゲームを通じて訓練データを提供させられ、その結果として彼らが私の労働から利益を得ているように感じる。ポケストップをスキャンする作業は報酬に対して手間が大きすぎるのでやめた。もし彼らがモデルと重みを公開するなら、より大きな公益に貢献したと感じられるだろう。
Pokémon GOのAR技術は遅くてあまり使っていなかったが、今ではLGMの訓練に使われるほど進歩していたことに驚いた。経済的に見ても、プレイヤーは無料のゲームを得て、Nianticは収益を得て、新しい技術が世の中に提供される。
MyFitnessPalでは、ユーザーがバーコードをスキャンするときに背景ノイズを収集し、訓練データとして使用している。これにより、平均的な食品庫、冷蔵庫、スーパーマーケットの通路に関する情報を得られる。
このブログ記事とHNでの反応は混乱を招く。実際にモデルを訓練したのではなく、計画を発表しただけだ。5,000万個のニューラルネットワークを訓練したと言っているが、これは以前からやっていたことの一部にすぎない。NianticをAI企業として位置づけようとするビジョン文書のように見える。
地理空間データは公共財であるべきだという哲学的な意見がある。クラウドソーシングされたデータは一般の人々から来ているのだから、知識と事実は公共の資産であるべきだと思う。
3Dシーンをリアルタイムで生成することが未来の地図だとは思わない。建物、道路、標識などは非常に静的であり、ほとんどのユースケースでは大きな変化がない。正確なモデルをクラウドから取得するほうが、より有用だろう。
Google/Nianticの会議で、クラウドソーシングによって新世代の3Dモデルを構築しようというアイデアが出たのだろう。Pokémonの権利を購入して、それを実現した。
Brian Maclendon(Niantic)がBellingfestの発表で、これに関する興味深い詳細を示している。
LGMが何なのか理解しづらい。地理空間データではなく、建物の裏側を予測するためのビジョンモデル改善に関するもののようだ。訓練データは、ポケモンを捕まえるときに生成された画像から来ている。
CIAはすでにアクセスできるはずだという意見がある。数年前からプライバシーへの懸念が提起されていた。