SAM 2: 画像と動画のための Segment Anything
(github.com/facebookresearch)- Segment Anything Model 2 は、画像と動画におけるプロンプト可能な視覚分割問題を解決するためのモデル
- 画像を単一フレームの動画とみなすことで、動画へ拡張
- リアルタイム動画処理のためのストリーミングメモリを備えたシンプルなトランスフォーマーアーキテクチャを使用
- ユーザーとの相互作用を通じてモデルとデータを改善するデータエンジンを構築し、SA-V データセットを収集
- さまざまなタスクと視覚ドメインで高い性能を発揮
- Segment Anything Video (SA-V) データセットも公開
- 50,583 本の多様な動画と 642,036 個の高品質な時空間分割マスク(Masklet)で構成
- CC by 4.0 ライセンス
2件のコメント
Segment Anything Model(SAM) : 画像からあらゆるオブジェクトを抽出してくれるMetaのAIモデル
SAM.cpp - MetaのSegment Anything Modelを純粋なC/C++で実装
Hacker Newsの意見
mIoUと画像処理速度の6倍向上に関心がある
Segment AnythingチームがSAM 2モデルを公開
SAM 1を扱ったことがある
動画フレームを分類し、特定のフレームを見つけるモデルを学習したい
SAMの損失関数の大ファン
Webデモがとても洗練されている
最初のSAMモデルが最も有用だった
研究デモはイリノイ州とテキサス州では利用不可
軍事利用への懸念がある
驚くべき成果