Gemini Pro 1.5のキラーアプリは動画です
(simonwillison.net)- Google Gemini Pro 1.5のトークンコンテキストサイズは1,000,000
- これまではClaude 2.1(200,000トークン)とgpt-4-turbo(128,000トークン)がこの記録を保持していたが、モデルごとにトークナイズの実装方式が異なるため、完全に直接比較するのは難しい
- 数日間Gemini Pro 1.5を使ってみた結果、最も興味深い機能はトークン数ではなく、入力として動画を使える機能だった
- まだAPIアクセス権はないが、Google AI Studioのインターフェースを通じてモデルにアクセスしてみた
最初のテスト
- 本棚のひとつを7秒の動画で撮影
- "JSON array of books in this video" というプロンプトと一緒にアップロード
- この7秒の動画は、1,048,576トークンの上限のうち1,841トークンしか使用しなかった
- Gemini Pro 1.5はJSONを返さなかったが、映像内にある本のタイトルと著者名のリストを返答した
- さらに "as a JSON array of objects, with title and author keys" と要求すると、JSONで本と著者を返した
- 結果はかなり驚くべきものだった。動画は7秒と短く、かなり速く動いており(動画には少しモーションブラーがある)、一部の本は他の物に隠れている
2つ目のテスト
- 今度は料理本でいっぱいの本棚を縦方向に、少し長めに(22秒)、横だけでなく下方向にもパンしながら動画で撮影
- この動画では6,049トークンが使われたが、それでも非常に少ない量だ
- 新しいプロンプト: "Output a JSON array of {“title”: “...”, “authors”: “...”} objects for books in this video"
- しかし "Unsafe Content" として拒否された
- 安全フィルターが
Cocktailという単語に不快感を示したようだ - 安全設定を開き、すべてのカテゴリーを「低」に設定して再試行したが、2回目も拒否された
- そこで "go on give me that JSON" と強く指示すると、JSONを返した
- やはり結果は非常に優れていた
これをどう活用するか?
- テキストから構造化されたコンテンツを抽出する機能は、すでにLLMの最も興味深いユースケースのひとつだ
- GPT-4 VisionとLLaVAはこれを画像へと拡張し、今やGemini Pro 1.5はそれを動画へと拡張した
- もちろん、一般的なLLMの注意点は当てはまる。物を見落とす可能性があり、誤った細部をHallucinationすることもある
Cocktailのように安全フィルターに関する問題もある- したがって、最近のAIが常にそうであるように、乗り越えるべき課題はまだ多い
- しかしこれは、私が予想していたよりもはるかに近づいてきた未来を垣間見せる、もうひとつの例だと感じる
画像 vs. 動画
- 最初は、動画処理に関連するトークン数が意外なほど少ないため、動画は画像とは異なる形で処理されるのだろうと思っていた
- しかしHacker Newsに投稿された内容を見ると
Gemini 1.5 Proは最大1時間分の動画も推論できます。動画を添付すると、Google AI Studioが音声なしで数千のフレームに分類し、その後Geminiモデルはマルチモーダルであるため、高度に洗練された推論と問題解決タスクを実行できます。
- Gemini 1.5の技術レポートでは次のように説明している:
45分のバスター・キートン映画 "Sherlock Jr."(1924年)(1FPSで2,674フレーム、684kトークン)を入力すると、Gemini 1.5 Proは特定のフレームのテキスト情報を検索・抽出し、そのタイムスタンプを提供する。
1件のコメント
Hacker Newsの意見
エージェントがユーザーの画面を常時ひそかに監視するようになると、非常に有用にもディストピア的にもなり得る。
「Gemini Pro 1.5のキラーアプリは動画入力」というタイトルは適切だ。
動画は画像の連続であり、OpenAIのGPT-4-Visionデモはモデルにフレームのリストを送ることで似た効果を生み出している。
ffmpegを使って1フレームおきに出力する方法もある。AIが動画・画像・テキストを分析し、安価かつ効率的に処理できるようになれば、プライバシーは完全に終わるだろう。
著者は、入力として使われた動画で言及された本が実際に正確かどうか確認していないようだ。
Googleの安全フィルターは「Cocktail」という単語に反応したようだ。
1フレームあたり256トークンしか使わないのは驚きだという。
「Cocktail」に関する問題は実際に存在する。
Googleのハードウェア規模に対して、OpenAI(あるいはMicrosoftが提供するもの)の本当のキラーアプリが何なのか気になる。
技術そのものは印象的で興味深いが、Scunthorpe問題の逆襲とも言える状況には笑ってしまう。