Gemini 3.5 Flash

(deepmind.google)

2 ポイント投稿者 GN⁺ 2024-05-15 | 1件のコメント | WhatsAppで共有

Google DeepMindのGemini 3.5 Flashは、Flash系の低レイテンシとスケーラビリティを維持しながら、エージェント・コーディング作業に高度な推論を提供するPreviewモデル
長いワークフローや反復的なコーディングに加え、テキスト・音声・画像・コード・動画を同時に扱うマルチモーダル理解が中核的な能力
公開された例では、高速なUI生成から論文ベースのゲーム構築、仮想都市の設計まで含まれ、エージェント型作業での活用範囲を強調
ベンチマークでは、MCP Atlas 83.6%、Toolathlon 56.5%、Finance Agent v2 57.9%、MMMU-Pro 83.6% など、複数項目で表中最高スコアを記録
入力はテキスト・画像・動画・音声・PDFをサポートし、出力はテキストで、1M入力トークンと64k出力トークン、関数呼び出し・構造化出力・検索ツール・コード実行を提供

Gemini 3.5 Flashの位置づけ

Gemini 3.5 Flashは、「Flash水準のレイテンシとスケーラビリティ」で高度な推論を提供するモデル
適用領域は、エージェント、コーディング、日常タスク、高度な推論、マルチモーダル理解、長文コンテキスト理解
モデルの状態はPreview

Flashレイテンシで狙うタスク

高速性と知能を両立させることが中核の方向性
- 速度とスケーラビリティを維持しつつ、知能を犠牲にしないモデルを目指す
長距離推論と反復的なコーディング作業を処理
テキスト、音声、画像、コード、動画全般でマルチモーダル理解をサポート

エージェント活用例

高速なエージェント能力を示す作業例が複数提示されている
- 60秒未満で決済UIオプション6種を生成
- 高速でフラクタル変形64種を生成
- AlphaGo論文を入力し、知的なゲームを自律的に構築
- 最小限の入力で募金イベントのブランドを生成・改善する複数ワークフローを調整
- テキスト説明を完全なインタラクティブHTMLコンポーネントに変換
- Strudel音楽ライブラリを使って複数エージェントが楽曲を生成
- 専門エージェントチームを調整して仮想都市を設計・構築
- 散らかったデータセットを自動でリネームして構造化
- エージェントを配置してゲームをリアルタイムで継続的に改善

顧客事例と性能改善

Armadinは、Geminiの最新Flashモデルが長距離マルチターンのサイバーベンチマークでFlash 3より**42%高く、トークン効率は68%**改善したと説明
Boxのエンタープライズ作業評価セットでは、Gemini 3.5 FlashはGemini 3 Flashより**19.6%**高かった
- ライフサイエンス顧客のデータ抽出と計算精度は**96.4%**向上
- 金融サービス向けの構造化データに基づく金融レポート生成精度は**46.7%**向上
JetBrainsのJunieは、Gemini 3.5 FlashがGemini Proに近いコーディング・推論品質を提供しつつ、Flashの速度とコスト特性を維持すると評価
- 以前のFlash世代比で、低推論レベルのコーディング性能が**10–20%**改善

ベンチマーク結果

Gemini 3.5 Flashは、エージェントワークフロー向けモデルとして強く打ち出されている
コーディングベンチマーク
- Terminal-bench 2.1 Agentic terminal coding: 76.2%
- SWE-Bench Pro Public: 55.1%
エージェント・ツール使用ベンチマーク
- MCP Atlas: **83.6%**で表中最高スコア
- Toolathlon: **56.5%**で表中最高スコア
UI制御と専門作業
- OSWorld-Verified: 78.4%
- Finance Agent v2: **57.9%**で表中最高スコア
- GDPval-AA Elo: 1656
マルチモーダルベンチマーク
- CharXiv Reasoning: **84.2%**で表中最高スコア
- MMMU-Pro: **83.6%**で表中最高スコア
- Blueprint-Bench 2: 33.6%
長文コンテキストと推論
- MRCR v2 128k平均: 77.3%
- MRCR v2 1M pointwise: **26.6%**で、比較可能なGemini 3 FlashとGemini 3.1 Proを上回る
- Humanity’s Last Exam: 40.2%
- ARC-AGI-2: 72.1%
評価手法の詳細はGemini 3.5 Flash evals methodologyに記載

モデル情報と利用可能環境

入力はテキスト、画像、動画、音声、PDFをサポート
出力はテキスト
コンテキストと知識基準
- 入力トークン: 1M
- 出力トークン: 64k
- 知識カットオフ: 2025年1月
ツール利用機能
- 関数呼び出し
- 構造化出力
- 検索をツールとして利用
- コード実行
利用可能環境はGemini App、Gemini API、Gemini Enterprise、Gemini Enterprise Agent Platform、Google AI Mode、Google AI Studio、Google Antigravity、Android Studio
開発者向けドキュメントはGemini API models documentationで提供
モデルカードはGemini 3.5 Flash model cardで提供

1件のコメント

GN⁺ 2024-05-15

Hacker Newsの意見

llm-geminiプラグインをアップグレードして、Gemini FlashへのCLIアクセスを提供するようにした
pipx install llm # or brew install llm
llm install llm-gemini --upgrade
llm keys set gemini
# paste API key here
llm -m gemini-1.5-flash-latest 'a short poem about otters'
https://github.com/simonw/llm-gemini/releases/tag/0.1a4
MMLUのようなベンチマークを見ると、これは実質的にLlama 3 70B級の品質で、最初のトークンの遅延が1秒未満、GPT-4/Opus級ではないものの、ネイティブマルチモーダルと100万コンテキストを備えたモデル、という意味に見える
自前で構築するのと比べれば悪くないが、最前線モデルの中でGeminiの主要な差別化要因はネイティブマルチモーダルだった。GPT-4oが出た今、GCPに縛られていない組織がなぜGeminiを選ぶのかはよく分からない。本や映画全体を一度に処理しないならGPT-4oの128kコンテキストでも十分で、100万から10万に減らすとできなくなる作業を実際の規模で行っているところがあるのか気になる
- 100万トークンなら、チャットを始める前に2,000ページ分の文書をコンテキストウィンドウに入れられる
  Geminiの強みは論理パズルを解く能力ではなく、コンテキスト長にある。試験勉強中なら教材全体をチャットに入れればいいし、インターネットに情報がない古いテストシステム向けの死んだ言語を使わなければならないなら、1,300ページのリファレンスマニュアルを入れて質問すればよい
- これがLlama 3 70Bの品質であるはずはないと思う
  Gemini 1.5 Proをいくつかの業務フローに組み込もうとしたが、あまりにひどかった。特に動画や音声を入れると、信じられないほど幻覚が多かった。幻覚の多い小さなマルチモーダルモデルが、大半の企業で実用的なユースケースを持つのか分からないし、信頼性がなければただのおもちゃだ
- GCPに縛られていない組織がGeminiを選ぶ理由は価格だ。特にGPT-4品質までは必要ないマルチモーダル作業ではそうだ
  OpenAIで最も安いマルチモーダルモデルであるGPT-4oと比べても、GPT-3.5-TurboはGPT-4oの1/10のコストで、入力100万トークンあたり$0.5、出力100万トークンあたり$1.50、コンテキストウィンドウは16Kだ。Gemini 1.5 Flashは128K以下のプロンプトで、入力100万トークンあたり$0.35、出力100万トークンあたり$0.53。GPT-4級の知能を必要としないマルチモーダル作業、特に文書処理では、Gemini Flashはほぼ95%のコスト削減に見える
- 50MBのYahooアカウントで十分そうなのに、なぜ1GBのGmailが必要なのかと聞くのに似ている
  コンテキストを入れるときにいちいち考えなくてよくなり、コンテキスト超過に対処するための回避策を作る必要もなくなる。ほとんどのユースケースがマルチモーダルよりテキストを扱うものなら、利点はかなり明確に見える
- 数か月前にGeminiで100万トークンを使おうとしたが、クラッシュするか、非常に遅く応答した末に結局クラッシュした
  5、6回試して諦めたが、今回のバージョンはもっと速く安定していることを願う
標準の100万トークンコンテキストがここでの大きな機能だと思うが、それが実際に何を意味するのかを測る、より良いベンチマークが必要だ
直感的には、コンテキストが長くなるほど、単一のベクトル空間上の点にどれだけの理解を詰め込めるかという限界にぶつかり、コンテキストから関連部分を選ぶための、より良いアーキテクチャが必要になりそうだ
- プロダクション利用の話なら、経済的に持続不可能なデモではなく、OpenAIで最も安いマルチモーダルモデルに対してトークンあたりのコストが4〜7%のモデルのマルチモーダルは重要な機能だ
- どの次元のベクトル空間で単一点の限界があるという話なのか分からない
  公開情報かどうかは分からないが、埋め込み次元のサイズはアーキテクチャ上の選択だ。原理的な限界というより、設計とリソース制約の問題にすぎないと思う
- ベクトルやベクトルデータベースを大まかに知っている人にも分かるように、ベクトル空間の単一の点に理解を詰め込むとはどういう意味なのか説明できるのか気になる
  関連記事やさらに読むべき資料があれば勧めてほしい
- 私たちはマルチヘッドアテンションを扱っているので、トークンごとに複数の点がある
  ヘッド数やキーベクトルのサイズはいつでも増やせる
- 実際にはそれほど良くない。「ハリー・ポッター6.5冊分を入れたら、登場人物を注釈付きで結び付けたSVGマップを作った」といった、それらしいデモは作れる
  だが一部の登場人物しかおらず、注釈も貧弱で、費用は20ドルほどかかった。10回やれば何度かはだまされる程度には良い、というレベルだ
クラウドでしか使えない軽量モデルとは面白い。こうした巨大テック企業は、AI利用量まで所有しようという意志が本当に強い
だが、それを未来にしてはいけない
OpenAIがGoogleより優れている点の一つは、APIの価格公開を実際にしていて、名前も比較的一貫していることだ
GoogleはAPI自体でモデル一覧を列挙してみると、Google CloudコンソールではGenerative Language APIと呼び、ドキュメントではGemini APIと呼んでいる経路を通じて、およそ10個のモデルを提供しているようだ。モデル名は10個より多いが、いくつかのモデルには複数のエイリアスがある。
そのうちGemini APIの価格ドキュメントページに価格情報があるのは3つだけで、そのうち2つはプレビューなので価格は将来適用される。コンソールのGenerative Language APIには、ドキュメントページの3つのうちプレビューではない同じ1モデルだけ価格が表示されている。Cloud SKU一覧にはGenerative Language APIはなく、Gemini APIはあるが、やはり同じ1モデルだけだ。コンソールページが「最新価格」としてリンクしているCloud Price listには、Generative Language APIもGemini APIもまったくない。なぜこんなに異なる項目が多いのか分からない
ほとんどの作業に対してコンテキスト長が十分余裕を持つようになったようなので、なぜまだサブワードトークンを使っているのか気になる

文字ベースのLLMがどう比較されるのかも本当に気になる。200万コンテキストなら計算上のボトルネックは薄れる。ただ、語彙サイズがどんな役割を果たすのかはよく分からない。埋め込みがすでに知識の大部分を含んでいるので、大きな語彙が重要なのかもしれない。逆に文字ベースの語彙を使えば、グリッチトークン、算術、韻律のようなさまざまな問題を解決できそうにも思える。サブワードトークナイザーを正しく実装して学習させるのもかなり複雑に見えるが、文字レベルでは非常に単純なはず

アテンションメカニズムは、より大きく意味のあるトークンに注意を向けられるとき、学習効率がはるかに良い
推論サーバーではメモリの相当部分がKVキャッシュに入り、アテンションで埋め込みを積み上げるには、はるかに多くのトークンを互いに関連付ける必要があるが、各トークンの「意味」はより弱い。いつかはこの地点に到達するかもしれない。究極的には、画像と音をピクセルや周波数レベルまで理解するマルチモーダルLLMが必要になるだろうし、テキストも最終的にはそうなってほしいのだと思う
文字は単語の意味構成要素ではなく、たいていは音節がその役割を担う
少なくとも一般的にはそうだと思う。ローマ字アルファベットより、このアプローチのほうが高い品質を出せそうだ。LLMが英語と中国語をどう処理するかを比較するだけでもテストできるのか気になる
大きな問題は2つあると思う。第一に、より多くの出力を逐次生成しなければならないので、レイテンシが悪化する
第二に、これらのモデルは非常に大ざっぱに言えば、トークンを埋め込み層で「平均的な意味」に変換し、アテンション層が意味を結合し、フィードフォワード層が現在の意味の組み合わせを学習済みの原型やプロトタイプのようなものに合わせる。単語片から文字へ下りると、これらすべてがさらに混乱する。たとえば「a」の平均的な意味とは何かという時点で曖昧で、だからまだ文字ベースのモデルをうまく学習させる手法は十分ではないと思う
AI音楽生成では、10^6規模の大きな語彙サイズでずっと良い結果が出る
よく知らない推測だが、Transformerが汎用パターン認識器ではなく、特定の粒度レベルのパターンしか捉えられないからなのだろう
Googleは確かにブランディングチームのほうが優れているようだ。Gemini、Gemsといった名前は気に入っている
「ChatGPT」はかなり無骨で複雑な名前だし、OpenAIは顔の見えない組織のように感じる。もちろん変わる可能性はあるが、現時点ではかなり遅いように見える。市場に出すときに、もっと創造的にやるための資金は十分あったはずだ
- 「ChatGPT」は「Google」のような名前だ。「Gemini」がそれに取って代わることはなさそうだ
- OpenAIにはマーケティングの助言が切実に必要だ
  「GPT4o」だなんて本気なのか？それどころか「GPT4 Omni」のほうが会話では言いやすいし、それが「o」の意味でもある。一般ユーザーがどれほど多いかを深刻に過小評価している
NYT Connectionsベンチマークで、Gemini 1.5 Flashは15.3点
GPT-4 turbo(gpt-4-0125-preview) 31.0、GPT-4o 30.7、GPT-4 turbo(gpt-4-turbo-2024-04-09) 29.7、GPT-4 turbo(gpt-4-1106-preview) 28.8、Claude 3 Opus 27.3、GPT-4(0613) 26.1、Llama 3 Instruct 70B 24.0、Gemini Pro 1.5 19.9、Mistral Large 17.7、Gemini 1.5 Flash 15.3、Mistral Medium 15.0、Gemini Pro 1.0 14.2、Llama 3 Instruct 8B 12.3、Mixtral-8x22B Instruct 12.2
- あのリストには、性能は高いのに名前はひどいOpenAIモデルが多すぎる
情報があまりない。速くて安い選択肢として売っているが、推論速度ベンチマークもなく、Gemini以外のモデルとの比較もない
https://ai.google.dev/pricingによると、gpt3.5-turboより少し安く設定されているようだが、実際にはどう比較されるのか分からない
Gemini Flashが単により高速なGeminiなら、悪い回答がより早く来ても良くはならない
実用的なコーディング、システムアーキテクチャ、ときどき一般的な質問で、Gemini ProとChatGPT 4を数か月並行して使ってみたが、ChatGPTのほうが少なくとも80%は有用だった。Geminiは間違っているか、有用な答えにたどり着くまで冗長に迷走していて、使う価値がなかった。自分に必要だったのは速さではなかった。もしかすると今ではより「賢い」、つまりより有用になっているのかもしれないが
- おそらく賢さを、より少ないリソースでより多くのことをこなす能力と定義するなら、これは拡張しうる潜在空間上の何かを持っているという兆候と見なせる