Meta、Segment Anything Model 2を公開

(ai.meta.com)

2 ポイント投稿者 GN⁺ 2024-08-02 | まだコメントはありません。 | WhatsAppで共有

Meta FAIRのSegment Anything Model 2(SAM 2) は、画像と動画で物体をすばやく選択・セグメンテーションするための統合セグメンテーションモデル
ユーザーはクリック、ボックス、マスクをプロンプトとして入力して物体を指定し、追加のプロンプトでマスク予測を補正できる
動画ではセッションごとのメモリモジュールが前のフレームの物体情報を保持し、物体が一時的に隠れても全フレームで追跡を継続する
SAM 2は従来のSAMより画像セグメンテーションを改善し、動画物体セグメンテーションでは特に部分追跡とインタラクション時間の面を強調
Metaは事前学習済みモデル、コード、デモ、SA-Vデータセットを公開しており、SA-Vには約51K本の動画と60万超のmaskletが含まれる

画像と動画を一緒に扱うセグメンテーション

SAM 2は、画像と動画全般で物体をセグメンテーションする最初の統合モデル
ユーザーは画像や動画フレームでクリック、ボックス、マスクを入力して物体を選択できる
動画では1つまたは複数の物体を指定でき、どのフレームでも追加プロンプトで予測を細かく修正可能
学習中に見ていない物体、画像、動画でも高いゼロショット性能を発揮するよう設計されており、さまざまな実アプリケーションに活用できる
ストリーミング推論を通じて動画を効率的に処理し、リアルタイム・対話型アプリケーションを支援する

性能と対話型の利用体験

SAM 2は、動画と画像の物体セグメンテーションでこの分野の最先端モデル群より優れた性能を出すモデルとして提示されている
主な性能ポイント
- 画像セグメンテーションで従来のSAMより改善
- 既存の動画物体セグメンテーションモデルより優れており、特に部分追跡に強みがある
- 既存の対話型動画セグメンテーション手法より必要なインタラクション時間が短い
デモでは、1フレームで1回クリックするだけでも、動画全体で物体を対話的に追跡して効果を作れる
デモはSAM 2 demoで提供されている

動画追跡のためのモデル構造

SAMのプロンプトベースの選択機能を動画領域へ拡張した構造
動画内の対象物体情報を保存するセッションごとのメモリモジュールを追加
- 選択した物体をすべての動画フレームにわたって追跡できる
- 物体が一時的に視界から消えても前のフレームの文脈を活用する
どのフレームでも追加プロンプトを入れてマスク予測を補正できる
ストリーミングアーキテクチャは動画フレームを1回に1枚ずつ処理する
画像に適用する場合はメモリモジュールが空で、モデルはSAMのように動作する

SA-Vデータセット

SAM 2は大規模で多様な動画とmaskletで学習されている
- maskletは時間に沿った物体マスクを意味する
- データはSAM 2をモデル・イン・ザ・ループのデータエンジンで対話的に適用して生成された
学習データにはオープンソースとして公開されるSA-Vデータセットが含まれる
SA-Vデータセットの主な数値
- 約51K本の動画から60万超のmaskletを収集
- 47カ国で収集された、地理的に多様な実世界シナリオを含む
- 物体全体、物体の一部、難しいオクルージョン状況に対する注釈を含む
SA-Vデータセットに関する問題や質問はsupport@segment-anything.comへ問い合わせできる
データセットはExplore the datasetで確認できる

公開リソースと活用可能性

Metaは研究コミュニティが後続研究を進められるよう、事前学習済みのSegment Anything 2モデル、SA-Vデータセット、デモ、コードを公開
公開リソースとともに次の点を強調
- SAM 2の学習データに関する透明性を提供
- 実世界の表現のためにSA-Vデータセットの地理的多様性を優先
- SAM 2に対する公平性評価を実施
モデルとコードはDownload the modelから入手できる
研究論文はRead the research paperで確認できる
SAM 2は単独で使うことも、今後ほかのモデルと組み合わせたより大きなシステムの一部として使うこともできる
- 動画物体セグメンテーションの出力は、最新の動画生成モデルのような他のAIシステムへの入力として使われ、精密な編集機能を可能にしうる
- 今後は別の種類の入力プロンプトへ拡張され、リアルタイムまたはライブ動画で物体と相互作用する創造的な方法を支援できる

まだコメントはありません。

まだコメントはありません。