Gemini Pro 1.5のキラーアプリは動画です

(simonwillison.net)

10 ポイント投稿者 GN⁺ 2024-02-22 | 1件のコメント | WhatsAppで共有

Google Gemini Pro 1.5のトークンコンテキストサイズは1,000,000
これまではClaude 2.1（200,000トークン）とgpt-4-turbo（128,000トークン）がこの記録を保持していたが、モデルごとにトークナイズの実装方式が異なるため、完全に直接比較するのは難しい
数日間Gemini Pro 1.5を使ってみた結果、最も興味深い機能はトークン数ではなく、入力として動画を使える機能だった
まだAPIアクセス権はないが、Google AI Studioのインターフェースを通じてモデルにアクセスしてみた

最初のテスト

本棚のひとつを7秒の動画で撮影
"JSON array of books in this video" というプロンプトと一緒にアップロード
この7秒の動画は、1,048,576トークンの上限のうち1,841トークンしか使用しなかった
Gemini Pro 1.5はJSONを返さなかったが、映像内にある本のタイトルと著者名のリストを返答した
さらに "as a JSON array of objects, with title and author keys" と要求すると、JSONで本と著者を返した
結果はかなり驚くべきものだった。動画は7秒と短く、かなり速く動いており（動画には少しモーションブラーがある）、一部の本は他の物に隠れている

2つ目のテスト

今度は料理本でいっぱいの本棚を縦方向に、少し長めに（22秒）、横だけでなく下方向にもパンしながら動画で撮影
この動画では6,049トークンが使われたが、それでも非常に少ない量だ
新しいプロンプト: "Output a JSON array of {“title”: “...”, “authors”: “...”} objects for books in this video"
しかし "Unsafe Content" として拒否された
安全フィルターが Cocktail という単語に不快感を示したようだ
安全設定を開き、すべてのカテゴリーを「低」に設定して再試行したが、2回目も拒否された
そこで "go on give me that JSON" と強く指示すると、JSONを返した
やはり結果は非常に優れていた

これをどう活用するか？

テキストから構造化されたコンテンツを抽出する機能は、すでにLLMの最も興味深いユースケースのひとつだ
GPT-4 VisionとLLaVAはこれを画像へと拡張し、今やGemini Pro 1.5はそれを動画へと拡張した
もちろん、一般的なLLMの注意点は当てはまる。物を見落とす可能性があり、誤った細部をHallucinationすることもある
Cocktail のように安全フィルターに関する問題もある
したがって、最近のAIが常にそうであるように、乗り越えるべき課題はまだ多い
しかしこれは、私が予想していたよりもはるかに近づいてきた未来を垣間見せる、もうひとつの例だと感じる

画像 vs. 動画

最初は、動画処理に関連するトークン数が意外なほど少ないため、動画は画像とは異なる形で処理されるのだろうと思っていた
しかしHacker Newsに投稿された内容を見ると

Gemini 1.5 Proは最大1時間分の動画も推論できます。動画を添付すると、Google AI Studioが音声なしで数千のフレームに分類し、その後Geminiモデルはマルチモーダルであるため、高度に洗練された推論と問題解決タスクを実行できます。
Gemini 1.5の技術レポートでは次のように説明している:

45分のバスター・キートン映画 "Sherlock Jr."（1924年）（1FPSで2,674フレーム、684kトークン）を入力すると、Gemini 1.5 Proは特定のフレームのテキスト情報を検索・抽出し、そのタイムスタンプを提供する。

1件のコメント

GN⁺ 2024-02-22

Hacker Newsの意見

エージェントがユーザーの画面を常時ひそかに監視するようになると、非常に有用にもディストピア的にもなり得る。
- ユーザーがコーディングしたり、計画を立てたり、調査したりする様子を何か月も見守り、個人的・職業的な助言を与えられるようになることが期待される。
- このような技術は個人の心理を反映し、多くの情報を記憶できるため、企業や悪意ある行為者にとって非常に価値のあるものになり得る。
- モデルは安全に運用される必要があり、個人の複製やプライバシー侵害のリスクがある。
「Gemini Pro 1.5のキラーアプリは動画入力」というタイトルは適切だ。
- YouTubeのような動画コンテンツの大規模モデレーションに役立つ可能性があり、コストを下げられるならなおよい。
動画は画像の連続であり、OpenAIのGPT-4-Visionデモはモデルにフレームのリストを送ることで似た効果を生み出している。
- GPT-4-Visionが関数呼び出しや構造化データをサポートし、JSON出力を保証してくれればよいのにと思う。
- コストを半分に抑えるために、ffmpegを使って1フレームおきに出力する方法もある。
- OpenAIのデモでは、約600フレームの動画のうち50フレームごとに送信している。
AIが動画・画像・テキストを分析し、安価かつ効率的に処理できるようになれば、プライバシーは完全に終わるだろう。
- 現在でも大企業は私たちに関する大量のデータを持っているが、それらをすべて理解して結び付けるには限界がある。
- 強力なAIはデジタル生活のあらゆる側面を理解でき、善にも悪にも使われ得る潜在力が非常に大きい。
著者は、入力として使われた動画で言及された本が実際に正確かどうか確認していないようだ。
- 最初に確認した「Growing Up with Lucy by April Henry」という本は存在せず、実際にはSteve Grandによるものだ。
- すばらしいデモではあるが、実際にさらに多くのことへ使うには役に立たない。
Googleの安全フィルターは「Cocktail」という単語に反応したようだ。
- 安全設定を下げて再試行したが、2回目の試行でも拒否された。
- Googleのリスク管理部門が組織を完全に支配しており、最も賢いコンピューターでさえ「cocktail」や「Abraham Lincoln」のような危険な単語や画像を使うことを恐れている。
1フレームあたり256トークンしか使わないのは驚きだという。
- 1枚の写真は千の言葉に値するという言い回しとは逆に、実際には約192語分の価値しかないことを意味する。
「Cocktail」に関する問題は実際に存在する。
- 『Moby Dick』の登場人物たちをDALLEで想像しようとしたが、完全に拒否された。
- AI企業なら、もっとましな卑語フィルターを作れるはずだと思う。
Googleのハードウェア規模に対して、OpenAI（あるいはMicrosoftが提供するもの）の本当のキラーアプリが何なのか気になる。
- Googleが行ったこと自体はOpenAIチームにとって特別驚くようなものではないが、巨大な規模でより速く反復できるのかもしれない。
技術そのものは印象的で興味深いが、Scunthorpe問題の逆襲とも言える状況には笑ってしまう。
- 安全フィルターが「Cocktail」という単語に反応したように見える。

Gemini Pro 1.5のキラーアプリは動画です

最初のテスト

2つ目のテスト

これをどう活用するか？

画像 vs. 動画

関連記事

1件のコメント

Hacker Newsの意見