自然言語でYouTube動画の中身を検索する
(github.com)- OpenAIのCLIPニューラルネットワークを使って、動画内の特定の場面を検索
→ "Road Works", "People crossing the street", "Fire truck" のように、動画内の画像を検索
動作方式
-
YouTube動画をダウンロード
-
各フレームを抽出
-
すべてのフレームをCLIPでエンコード
-
CLIPで自然言語検索をエンコード
-
自然言語検索で特定のシーンを探す
- Google Colabでノートブックとしてすぐに実行可能
1件のコメント
コメント欄に、同じ開発者が Unsplash の画像検索も CLIP で実装しているものがあるのですが、これもとても便利そうです。
https://github.com/haltakov/natural-language-image-search
Google Colab : https://colab.research.google.com/github/haltakov/…
Unsplash にアップロードされた200万枚の写真の中から、欲しい内容の写真を見つけてくれます。