Meta、Segment Anything Model 2 を導入
(ai.meta.com)Meta Segment Anything Model 2 (SAM 2) の紹介
主な機能
-
あらゆる動画と画像でオブジェクトをセグメンテーション
- SAM 2 は、画像と動画でオブジェクトをセグメンテーションする初の統合モデル
- クリック、ボックス、マスクを入力として使用し、画像または動画フレーム内のオブジェクトを選択可能
-
動画フレーム間でのオブジェクト選択と調整
- SAM 2 を使って、動画フレーム内で1つまたは複数のオブジェクトを選択可能
- 追加のプロンプトを使って、モデル予測を細かく調整可能
-
未知の動画でも強力なセグメンテーション性能
- SAM 2 は、学習時に見ていないオブジェクト、画像、動画に対しても強力なゼロショット性能を発揮
- さまざまな実世界アプリケーションで利用可能
-
リアルタイムのインタラクションと結果
- SAM 2 は、ストリーミング推論によってリアルタイムのインタラクティブアプリケーションを実現
-
最先端のオブジェクトセグメンテーション性能
- SAM 2 は、動画および画像のオブジェクトセグメンテーションにおいて、最高水準のモデルを上回る性能を発揮
ハイライト
- 画像セグメンテーションで SAM より性能向上
- 既存の動画オブジェクトセグメンテーションモデルより優れた性能、特に部分追跡で顕著
- 既存のインタラクティブ動画セグメンテーション手法より短い操作時間で利用可能
使ってみる
- 動画の1フレームで単一クリックによってオブジェクトを追跡し、面白い効果を作成可能
- デモを試す
モデルアーキテクチャ
- Meta Segment Anything Model 2 の設計
- SAM 2 モデルは、セッション単位のメモリモジュールを追加することで動画ドメインへ拡張
- このモジュールは動画内の対象オブジェクトに関する情報を保持し、オブジェクトが一時的に見えなくなっても全フレームで追跡できるようにする
- 追加プロンプトに基づいてマスク予測を修正できる機能もサポート
- SAM 2 のストリーミングアーキテクチャは、動画フレームを1枚ずつ処理することで動画ドメインへ自然に一般化される
Segment Anything Video Dataset
-
大規模で多様な動画セグメンテーションデータセット
- SAM 2 は、大規模かつ多様な動画とマスクレット(時間経過に伴うオブジェクトマスク)のセットで学習
- 学習データには公開ソースの SA-V データセットが含まれる
-
ハイライト
- 約 51,000 本の動画から約 600,000 件以上のマスクレットを収集
- 47 か国にまたがる地理的に多様な実世界シナリオ
- 完全なオブジェクト、部分、困難なオクルージョンを含むアノテーション
研究公開
-
オープンイノベーション
- 研究コミュニティがこの成果を基に構築できるよう、事前学習済みの Segment Anything 2 モデル、SA-V データセット、デモ、コードを公開
-
ハイライト
- SAM 2 の学習データに関する透明性を提供
- 現実世界を代表するため、SA-V データセットの地理的多様性を重視
- SAM 2 の公平性評価を実施
潜在的なモデル応用
-
スケーラブルな出力
- SAM 2 の動画オブジェクトセグメンテーション出力は、最新の動画生成モデルのような他の AI システムへの入力として利用可能
-
スケーラブルな入力
- SAM 2 は、リアルタイムまたはライブ動画でオブジェクトと対話する創造的な方法を可能にする、他種の入力プロンプトも受け入れ可能
追加リソースを確認
GN⁺ のまとめ
- SAM 2 は画像と動画でオブジェクトをセグメンテーションする統合モデルで、リアルタイムのインタラクションと強力なゼロショット性能を提供
- さまざまな実世界シナリオで使えるよう設計されており、研究コミュニティ向けに公開されたデータセットとコードを含む
- 動画オブジェクト追跡とセグメンテーションで既存モデルを上回る性能を示し、短い操作時間でも高い精度を提供
- SAM 2 は動画生成モデルのような他の AI システムと組み合わせることで、新たな体験を可能にする
まだコメントはありません。