SAM 2: 画像と動画のための Segment Anything

(github.com/facebookresearch)

5 ポイント投稿者 GN⁺ 2024-07-30 | 2件のコメント | WhatsAppで共有

Segment Anything Model 2 は、画像と動画におけるプロンプト可能な視覚分割問題を解決するためのモデル
- 画像を単一フレームの動画とみなすことで、動画へ拡張
- リアルタイム動画処理のためのストリーミングメモリを備えたシンプルなトランスフォーマーアーキテクチャを使用
- ユーザーとの相互作用を通じてモデルとデータを改善するデータエンジンを構築し、SA-V データセットを収集
さまざまなタスクと視覚ドメインで高い性能を発揮
Segment Anything Video (SA-V) データセットも公開
- 50,583 本の多様な動画と 642,036 個の高品質な時空間分割マスク（Masklet）で構成
- CC by 4.0 ライセンス

2件のコメント

xguru 2024-07-31

GN⁺ 2024-07-30

mIoUと画像処理速度の6倍向上に関心がある
- 速度向上は主に効率的なエンコーダのおかげ
- 同一画像の複数セグメンテーションでは利点が小さいかもしれない
- 元のSAMとの比較が必要
Segment AnythingチームがSAM 2モデルを公開
- リアルタイム物体セグメンテーションのための初の統合モデル
- コード、モデル、データセット、研究論文、デモを公開
- ユーザーが何を作るのか楽しみ
SAM 1を扱ったことがある
- SAM 2論文の要約:
  - 256基のA100 GPUで108時間学習
  - 学習コストは約$50kと安価
  - 新しいSA-Vデータセットは5万本の動画で構成
  - 3段階のアノテーション・ブートストラップ方式を使用
  - メモリ注意機構が追加された
動画フレームを分類し、特定のフレームを見つけるモデルを学習したい
- SAM-2をベースモデルとして使ってよいのか気になる
SAMの損失関数の大ファン
- 感謝を伝える
Webデモがとても洗練されている
- それぞれの靴を個別の物体として選ぶと、重なっている状態でもモデルがセグメンテーションした
最初のSAMモデルが最も有用だった
- SAM2を試してみるのが楽しみ
研究デモはイリノイ州とテキサス州では利用不可
- 理由が気になる
軍事利用への懸念がある
驚くべき成果