Gemini 3.5 Flash
(deepmind.google)- Google DeepMindのGemini 3.5 Flashは、Flash系の低レイテンシとスケーラビリティを維持しながら、エージェント・コーディング作業に高度な推論を提供するPreviewモデル
- 長いワークフローや反復的なコーディングに加え、テキスト・音声・画像・コード・動画を同時に扱うマルチモーダル理解が中核的な能力
- 公開された例では、高速なUI生成から論文ベースのゲーム構築、仮想都市の設計まで含まれ、エージェント型作業での活用範囲を強調
- ベンチマークでは、MCP Atlas 83.6%、Toolathlon 56.5%、Finance Agent v2 57.9%、MMMU-Pro 83.6% など、複数項目で表中最高スコアを記録
- 入力はテキスト・画像・動画・音声・PDFをサポートし、出力はテキストで、1M入力トークンと64k出力トークン、関数呼び出し・構造化出力・検索ツール・コード実行を提供
Gemini 3.5 Flashの位置づけ
- Gemini 3.5 Flashは、「Flash水準のレイテンシとスケーラビリティ」で高度な推論を提供するモデル
- 適用領域は、エージェント、コーディング、日常タスク、高度な推論、マルチモーダル理解、長文コンテキスト理解
- モデルの状態はPreview
Flashレイテンシで狙うタスク
- 高速性と知能を両立させることが中核の方向性
- 速度とスケーラビリティを維持しつつ、知能を犠牲にしないモデルを目指す
- 長距離推論と反復的なコーディング作業を処理
- テキスト、音声、画像、コード、動画全般でマルチモーダル理解をサポート
エージェント活用例
- 高速なエージェント能力を示す作業例が複数提示されている
- 60秒未満で決済UIオプション6種を生成
- 高速でフラクタル変形64種を生成
- AlphaGo論文を入力し、知的なゲームを自律的に構築
- 最小限の入力で募金イベントのブランドを生成・改善する複数ワークフローを調整
- テキスト説明を完全なインタラクティブHTMLコンポーネントに変換
- Strudel音楽ライブラリを使って複数エージェントが楽曲を生成
- 専門エージェントチームを調整して仮想都市を設計・構築
- 散らかったデータセットを自動でリネームして構造化
- エージェントを配置してゲームをリアルタイムで継続的に改善
顧客事例と性能改善
- Armadinは、Geminiの最新Flashモデルが長距離マルチターンのサイバーベンチマークでFlash 3より**42%高く、トークン効率は68%**改善したと説明
- Boxのエンタープライズ作業評価セットでは、Gemini 3.5 FlashはGemini 3 Flashより**19.6%**高かった
- ライフサイエンス顧客のデータ抽出と計算精度は**96.4%**向上
- 金融サービス向けの構造化データに基づく金融レポート生成精度は**46.7%**向上
- JetBrainsのJunieは、Gemini 3.5 FlashがGemini Proに近いコーディング・推論品質を提供しつつ、Flashの速度とコスト特性を維持すると評価
- 以前のFlash世代比で、低推論レベルのコーディング性能が**10–20%**改善
ベンチマーク結果
- Gemini 3.5 Flashは、エージェントワークフロー向けモデルとして強く打ち出されている
- コーディングベンチマーク
- Terminal-bench 2.1 Agentic terminal coding: 76.2%
- SWE-Bench Pro Public: 55.1%
- エージェント・ツール使用ベンチマーク
- MCP Atlas: **83.6%**で表中最高スコア
- Toolathlon: **56.5%**で表中最高スコア
- UI制御と専門作業
- OSWorld-Verified: 78.4%
- Finance Agent v2: **57.9%**で表中最高スコア
- GDPval-AA Elo: 1656
- マルチモーダルベンチマーク
- CharXiv Reasoning: **84.2%**で表中最高スコア
- MMMU-Pro: **83.6%**で表中最高スコア
- Blueprint-Bench 2: 33.6%
- 長文コンテキストと推論
- MRCR v2 128k平均: 77.3%
- MRCR v2 1M pointwise: **26.6%**で、比較可能なGemini 3 FlashとGemini 3.1 Proを上回る
- Humanity’s Last Exam: 40.2%
- ARC-AGI-2: 72.1%
- 評価手法の詳細はGemini 3.5 Flash evals methodologyに記載
モデル情報と利用可能環境
- 入力はテキスト、画像、動画、音声、PDFをサポート
- 出力はテキスト
- コンテキストと知識基準
- 入力トークン: 1M
- 出力トークン: 64k
- 知識カットオフ: 2025年1月
- ツール利用機能
- 関数呼び出し
- 構造化出力
- 検索をツールとして利用
- コード実行
- 利用可能環境はGemini App、Gemini API、Gemini Enterprise、Gemini Enterprise Agent Platform、Google AI Mode、Google AI Studio、Google Antigravity、Android Studio
- 開発者向けドキュメントはGemini API models documentationで提供
- モデルカードはGemini 3.5 Flash model cardで提供
1件のコメント
Hacker Newsの意見
pipx install llm # or brew install llmllm install llm-gemini --upgradellm keys set gemini# paste API key herellm -m gemini-1.5-flash-latest 'a short poem about otters'https://github.com/simonw/llm-gemini/releases/tag/0.1a4
自前で構築するのと比べれば悪くないが、最前線モデルの中でGeminiの主要な差別化要因はネイティブマルチモーダルだった。GPT-4oが出た今、GCPに縛られていない組織がなぜGeminiを選ぶのかはよく分からない。本や映画全体を一度に処理しないならGPT-4oの128kコンテキストでも十分で、100万から10万に減らすとできなくなる作業を実際の規模で行っているところがあるのか気になる
Geminiの強みは論理パズルを解く能力ではなく、コンテキスト長にある。試験勉強中なら教材全体をチャットに入れればいいし、インターネットに情報がない古いテストシステム向けの死んだ言語を使わなければならないなら、1,300ページのリファレンスマニュアルを入れて質問すればよい
Gemini 1.5 Proをいくつかの業務フローに組み込もうとしたが、あまりにひどかった。特に動画や音声を入れると、信じられないほど幻覚が多かった。幻覚の多い小さなマルチモーダルモデルが、大半の企業で実用的なユースケースを持つのか分からないし、信頼性がなければただのおもちゃだ
OpenAIで最も安いマルチモーダルモデルであるGPT-4oと比べても、GPT-3.5-TurboはGPT-4oの1/10のコストで、入力100万トークンあたり$0.5、出力100万トークンあたり$1.50、コンテキストウィンドウは16Kだ。Gemini 1.5 Flashは128K以下のプロンプトで、入力100万トークンあたり$0.35、出力100万トークンあたり$0.53。GPT-4級の知能を必要としないマルチモーダル作業、特に文書処理では、Gemini Flashはほぼ95%のコスト削減に見える
コンテキストを入れるときにいちいち考えなくてよくなり、コンテキスト超過に対処するための回避策を作る必要もなくなる。ほとんどのユースケースがマルチモーダルよりテキストを扱うものなら、利点はかなり明確に見える
5、6回試して諦めたが、今回のバージョンはもっと速く安定していることを願う
直感的には、コンテキストが長くなるほど、単一のベクトル空間上の点にどれだけの理解を詰め込めるかという限界にぶつかり、コンテキストから関連部分を選ぶための、より良いアーキテクチャが必要になりそうだ
公開情報かどうかは分からないが、埋め込み次元のサイズはアーキテクチャ上の選択だ。原理的な限界というより、設計とリソース制約の問題にすぎないと思う
関連記事やさらに読むべき資料があれば勧めてほしい
ヘッド数やキーベクトルのサイズはいつでも増やせる
だが一部の登場人物しかおらず、注釈も貧弱で、費用は20ドルほどかかった。10回やれば何度かはだまされる程度には良い、というレベルだ
だが、それを未来にしてはいけない
GoogleはAPI自体でモデル一覧を列挙してみると、Google CloudコンソールではGenerative Language APIと呼び、ドキュメントではGemini APIと呼んでいる経路を通じて、およそ10個のモデルを提供しているようだ。モデル名は10個より多いが、いくつかのモデルには複数のエイリアスがある。
そのうちGemini APIの価格ドキュメントページに価格情報があるのは3つだけで、そのうち2つはプレビューなので価格は将来適用される。コンソールのGenerative Language APIには、ドキュメントページの3つのうちプレビューではない同じ1モデルだけ価格が表示されている。Cloud SKU一覧にはGenerative Language APIはなく、Gemini APIはあるが、やはり同じ1モデルだけだ。コンソールページが「最新価格」としてリンクしているCloud Price listには、Generative Language APIもGemini APIもまったくない。なぜこんなに異なる項目が多いのか分からない
文字ベースのLLMがどう比較されるのかも本当に気になる。200万コンテキストなら計算上のボトルネックは薄れる。ただ、語彙サイズがどんな役割を果たすのかはよく分からない。埋め込みがすでに知識の大部分を含んでいるので、大きな語彙が重要なのかもしれない。逆に文字ベースの語彙を使えば、グリッチトークン、算術、韻律のようなさまざまな問題を解決できそうにも思える。サブワードトークナイザーを正しく実装して学習させるのもかなり複雑に見えるが、文字レベルでは非常に単純なはず
推論サーバーではメモリの相当部分がKVキャッシュに入り、アテンションで埋め込みを積み上げるには、はるかに多くのトークンを互いに関連付ける必要があるが、各トークンの「意味」はより弱い。いつかはこの地点に到達するかもしれない。究極的には、画像と音をピクセルや周波数レベルまで理解するマルチモーダルLLMが必要になるだろうし、テキストも最終的にはそうなってほしいのだと思う
少なくとも一般的にはそうだと思う。ローマ字アルファベットより、このアプローチのほうが高い品質を出せそうだ。LLMが英語と中国語をどう処理するかを比較するだけでもテストできるのか気になる
第二に、これらのモデルは非常に大ざっぱに言えば、トークンを埋め込み層で「平均的な意味」に変換し、アテンション層が意味を結合し、フィードフォワード層が現在の意味の組み合わせを学習済みの原型やプロトタイプのようなものに合わせる。単語片から文字へ下りると、これらすべてがさらに混乱する。たとえば「a」の平均的な意味とは何かという時点で曖昧で、だからまだ文字ベースのモデルをうまく学習させる手法は十分ではないと思う
よく知らない推測だが、Transformerが汎用パターン認識器ではなく、特定の粒度レベルのパターンしか捉えられないからなのだろう
「ChatGPT」はかなり無骨で複雑な名前だし、OpenAIは顔の見えない組織のように感じる。もちろん変わる可能性はあるが、現時点ではかなり遅いように見える。市場に出すときに、もっと創造的にやるための資金は十分あったはずだ
「GPT4o」だなんて本気なのか? それどころか「GPT4 Omni」のほうが会話では言いやすいし、それが「o」の意味でもある。一般ユーザーがどれほど多いかを深刻に過小評価している
GPT-4 turbo(gpt-4-0125-preview) 31.0、GPT-4o 30.7、GPT-4 turbo(gpt-4-turbo-2024-04-09) 29.7、GPT-4 turbo(gpt-4-1106-preview) 28.8、Claude 3 Opus 27.3、GPT-4(0613) 26.1、Llama 3 Instruct 70B 24.0、Gemini Pro 1.5 19.9、Mistral Large 17.7、Gemini 1.5 Flash 15.3、Mistral Medium 15.0、Gemini Pro 1.0 14.2、Llama 3 Instruct 8B 12.3、Mixtral-8x22B Instruct 12.2
https://ai.google.dev/pricingによると、gpt3.5-turboより少し安く設定されているようだが、実際にはどう比較されるのか分からない
実用的なコーディング、システムアーキテクチャ、ときどき一般的な質問で、Gemini ProとChatGPT 4を数か月並行して使ってみたが、ChatGPTのほうが少なくとも80%は有用だった。Geminiは間違っているか、有用な答えにたどり着くまで冗長に迷走していて、使う価値がなかった。自分に必要だったのは速さではなかった。もしかすると今ではより「賢い」、つまりより有用になっているのかもしれないが