7 ポイント 投稿者 GN⁺ 2025-11-20 | 1件のコメント | WhatsAppで共有
  • 画像と動画において、テキスト・例示画像・視覚プロンプトで目的のオブジェクトを見つけて分割・追跡する SAM 3 を公開
  • モデルチェックポイント、評価データセット、ファインチューニングコードに加え、Segment Anything Playground を通じて誰でも簡単に試せる環境を提供
  • SA-Co という新たな大規模概念分割ベンチマークと SAM 3D の公開により、2D・3D全体をカバーする概念分割エコシステムを拡張
  • Marketplace・Instagram Edits・Meta AI など、Metaの各種サービス全体で、オブジェクト分割を基盤とした 新しいメディア生成・編集機能 が適用されている
  • テキスト・例示ベースの概念分割を統合したモデルとして、多様な研究・産業・保全・ロボティクス分野で 汎用認識基盤ツール としての活用可能性が高まっている

SAM 3 概要

  • テキスト・画像例・マスク・ボックス・ポイント など多様なプロンプトを受け取り、画像・動画内の概念を検出・分割・追跡する統合モデル
    • 短い名詞句ベースのオープンボキャブラリ分割を標準サポート
    • “people sitting down but not holding a gift box” のような複合プロンプトは MLLM と組み合わせて処理可能
  • 従来の SAM が固定ラベルセットに縛られていた制約を超え、任意概念(promptable concept)分割 へ拡張
  • 新ベンチマーク SA-Co(Segment Anything with Concepts) により、画像・動画での大規模概念認識性能を測定

主な機能

  • テキストプロンプトベースの概念検出と、すべてのインスタンス分割をサポート
    • “striped red umbrella” のような詳細な描写にも対応
  • 画像例(exemplar)を通じて、実物ベースで概念を定義可能
  • SAM 1・2 で提供していた ボックス/ポイント/マスクプロンプト を維持
  • MLLM をツールのように利用し、複雑なクエリに対する反復探索(SAM 3 Agent) を実行

データエンジン

  • SAM 3 + 人間 + AI アノテーター(Llama 3.2v ベース)を組み合わせた ハイブリッドデータ作成パイプライン を構築
    • 自動キャプショニング → テキストラベル生成 → 初期マスク生成 → AI/人間による検証
    • 否定プロンプト(存在しない概念)で 5倍高速化、肯定プロンプトでも 36% の速度向上
  • 400万以上のユニーク概念を含む大規模訓練セットを構築
  • Wikiベースの 概念オントロジー により、希少概念のカバレッジを拡大

モデルアーキテクチャ

  • テキスト/画像エンコーダは Meta Perception Encoder ベース
  • オブジェクト検出は DETR、追跡は SAM 2 の memory bank + tracker 構成を活用
  • 複数タスク(検出・追跡・分割)を1つのモデルで実行するための、競合を防ぐ学習レシピ設計が中核

性能

  • 画像・動画で既存モデル比 cgF1 が2倍向上
  • Gemini 2.5 Pro、GLEE、OWLv2、LLMDet などの専門モデルより優れた結果
  • ユーザー選好評価で SAM 3 の結果が 3:1 の比率で優勢
  • 単一画像で 30ms、動画でもオブジェクト5個基準でほぼリアルタイム処理
  • zero-shot LVIS・CountBench などでも性能向上を確認

科学および実利用事例

  • SA-FARI: 100種以上・1万件以上の野生動物カメラトラップ映像を含む公開データセット
  • FathomNet: 海洋生物インスタンス分割向けの新ベンチマークを提供
  • Marketplace “View in Room”: 照明・家具などの室内配置可視化を SAM 3・SAM 3D で実装
  • Instagram Edits・Meta AI アプリ・meta.ai などで オブジェクトベースの動画エフェクト適用 機能を予定

SAM 3D

  • 単一画像からの 3Dオブジェクト・人物再構成 のためのモデル・コード・データを公開
  • 実空間コンテキストを考慮した grounded reconstruction を提供

限界と今後の課題

  • 細かな専門分野の概念(platelet など) に対する zero-shot 汎化は限定的
    • 少量データでファインチューニングすれば迅速に適応
    • オープンソースのファインチューニングレシピを提供
  • 短い文は標準サポートするが、“top shelf second to last book” のような複雑な記述は MLLM との連携が必要
  • 動画ではオブジェクト数が増えるほど処理コストが線形に増加
    • オブジェクト間の関係情報共有が今後の改善ポイント

Segment Anything Playground

  • 技術知識がなくても SAM 3 を試せる Web ベースのプラットフォーム
    • 顔/ナンバープレート/画面のピクセル化、スポットライト、モーショントレイル、特定オブジェクトの拡大などのテンプレートを提供
    • データアノテーションやストレステストにも活用可能
  • Aria Gen 2 ウェアラブルの一人称動画でも安定した分割・追跡を提供
    • 人間視点ベースのロボティクス・知覚研究への活用が可能

1件のコメント

 
GN⁺ 2025-11-20
Hacker Newsの意見
  • Metaが今もオープンソースに貢献し、このようなモデルを公開してくれるのはありがたい
    会社に対して批判的な見方があるのは分かるが、こうした行動はみんなに利益をもたらす

    • 私も同意する。以前、2005年ごろにセキュリティ脆弱性を報告したことがあったが、その当時は会社の文化が今とは違っていた
      今はコミュニティ中心の方向へかなり変わったように思う
    • ソーシャルメディアの面はあまり好きではないが、Metaのモデル公開の姿勢は認めるべきだ
      他の大手研究所はこのような形でモデルを公開しない
  • 最初に使ってみた印象では、このモデルは非常に優秀
    “zero-shot” のテキストベース検出は前世代のモデルや、Gemini、Qwenのような最新VLMよりもはるかに先を行っている
    人間の監督があれば、教師モデルとしても十分に使えそうだ
    以前、クライミングホールド検出のためにYOLOをチューニングしたことがあるが、SAM3は学習なしでもその結果の90%レベルに達している
    ただし、低コントラストの木製ホールドや小さなフットチップは見逃す

    • もしかしてStoktアプリのようなものを作ったことはある? あのアプリは今、クライミング分野でかなり有名だ
    • 私は10億枚の画像をラベリングするプラットフォームで働いているが、SAM3はそのうち90%以上を自動化できると思う
      今は人がモデルを助けるのではなく、モデルが人を助ける構造へ変わりつつある
      関連記事は Roboflowブログ で読める
  • 3Dメッシュ生成器も本当にすごい
    SAM3Dデモを見ると、椅子に座った人のような隠れたオブジェクトの分離もうまく処理していて、速度も速い

    • 本当に印象的だ。でも3Dメッシュを直接エクスポートできるのかな?
      私は動画しか受け取れなかったが、もしかしてトークンを購入する必要があるのだろうか
  • 私のユースケースは回路基板のパターントレースだが、このモデルはその点ではまだ弱い
    浜辺の馬のような画像はうまく処理するが、産業用データにはあまり合っていない
    ファインチューニングすれば改善しそうだが、まだ試してはいない

    • 興味深い事例だ。もし参考になるサンプルリンクがあれば共有してもらえる?
  • 私は子どもの絵の背景除去作業にSAM3を使ってみた
    (関連プロジェクト紹介)
    ただ、BiRefNet v2のほうが依然として少し正確に動作する
    SAM3は線に沿って切り抜く際にやや不正確で、紙の白い部分が一部残る
    それでもSAM3には、単純な背景除去を超えて、絵の意味を認識する能力がある
    子どもたちの描いた絵を認識して、ゲーム内の行動につなげることもできそうだ

    • BiRefNetで背景除去をしたというのは興味深い
      現時点で最も性能の高いモデルだと思う? 他の代替案も気になる
  • 論文の著者一覧に “Core contributor (Alphabetical, Equal Contribution)” のような表記があるのは良い
    貢献者の平等な表記が印象的だ

  • この5年間のコンピュータビジョンの進歩の速さは遅かった
    言語理解はLLMのおかげで人間レベルに近づいたが、ビジョンは依然として不十分だ
    物体分割や科学画像の一般化は難しく、十分なデータがあるにもかかわらず何かが欠けている感じがする
    3D環境におけるエージェンシーや、より豊かな学習シグナルが必要なのかもしれない

    • 私は専門家ではないが、世界モデル(world model) が不足していると感じる
      人間は視覚情報だけで判断するのではなく、文脈や経験によって補完する
      たとえば夜道で暗い物体を見たとき、過去の経験や周囲の情報から、それが馬なのか柵なのかを推論する
      このような文脈的推論が現在のモデルには欠けている
    • 「LLMが人間レベルでテキストを理解する」という言い方には、なお限界がある
  • 私の分野は医療画像の3Dボリューム分割
    SAM2を2Dスライス方式で使ってみたが、現行標準の nnUNet より競争力がなかった

    • Unetはこの10年間、医療画像でもっとも広く使われてきたモデルだ
      ただ、LLM + VLMの結合が新しい方向性になる可能性はあると思う
      実際に このデモ を試してみたが、かなりうまく動作した
  • SAM3は素晴らしいモデルだ
    すでに chat.vlm.run でよりインタラクティブな形で活用でき、
    私たちのチームの新しいOrionモデル上でSAMや他のビジョンモデルと組み合わせることも可能だ
    まもなく動画分割とトラッキング機能も追加される予定だ

    • 実際に試してみたが、人と犬を同じチャットセッション内で分離(segmentation)できた
      結果例
  • 平均4秒のレイテンシのため、リアルタイム動画にはまだ難しいのではないかと思う
    (出典は roboflow.com の関連記事で確認した)

    • その数値はおそらく計算リソースの問題だろう
      ブログによれば、H200 GPUで100個以上のオブジェクトを含む単一画像の処理に30msしかかからない