1 ポイント 投稿者 GN⁺ 2 시간 전 | 1件のコメント | WhatsAppで共有
  • Gemini 3.5 Flashは、フロンティア級の知能と実行能力を組み合わせた最初の Gemini 3.5 モデルであり、エージェントやコーディングにおける長期タスクを狙っている
  • Flash シリーズの速度を維持しつつ、Terminal-Bench 2.1 76.2%、GDPval-AA 1656 Elo などで Gemini 3.1 Pro を上回る
  • 出力トークン基準の毎秒処理速度が他のフロンティアモデルより 4倍速く、コストも多くの場合で半分未満のため、長期エージェント作業に有利
  • Antigravity と AI Studio で、アプリ開発、レガシーコードの Next.js への移行、論文ベースのゲーム実装、UX モック作成のような多段階タスクを実行する
  • Gemini アプリと Search AI Mode のデフォルトモデルとして提供され、Gemini Spark や企業パートナーのワークフローにも適用され、3.5 Pro は来月リリース予定

Gemini 3.5 の公開と提供範囲

  • Gemini 3.5は、フロンティア級の知能と実行能力を組み合わせた最新のモデル製品群であり、より有能なエージェントを作るためのモデルとして位置付けられている
  • 最初のリリースモデルは 3.5 Flash で、エージェントとコーディングにおいてフロンティア級の性能を提供し、実用性のある複雑な長期タスクに焦点を当てる
  • 3.5 Flash は複数の Google 製品と開発者ツールを通じて提供される
    • Gemini アプリと Google Search の AI Mode を通じて一般ユーザーに提供される
    • Google Antigravity、Google AI Studio の Gemini API、Android Studio を通じて開発者が利用できる
    • Gemini Enterprise Agent Platform と Gemini Enterprise を通じて企業に提供される
  • 3.5 Pro も開発中で、すでに社内で使われており、来月リリース予定

3.5 Flash の性能

  • 3.5 Flash は Flash シリーズの速度を維持しながら、複数の面で大型フラッグシップモデルと競合する知能を提供する
  • Google の最も強力なエージェント型コーディングモデルであり、難易度の高いコーディングおよびエージェント系ベンチマークで Gemini 3.1 Pro を上回る
    • Terminal-Bench 2.1: 76.2%
    • GDPval-AA: 1656 Elo
    • MCP Atlas: 83.6%
    • CharXiv Reasoning マルチモーダル理解: 84.2%
  • 出力トークン基準の毎秒処理速度は、他のフロンティアモデルより 4倍速い
  • Artificial Analysis の指標では右上象限に位置し、品質とレイテンシのあいだのトレードオフを減らしたモデルとして示されている

大規模エージェント作業

  • 速度と性能のバランスにより、3.5 Flash は長期エージェント作業に適している
  • 開発者なら数日、監査担当者なら数週間かかっていた作業をより短時間で終えられるよう支援し、他のフロンティアモデルと比べて半分未満のコストで可能な場合が多い
  • 実際の問題解決プロセスにおいて、素早く計画し、作り、反復できる
    • 新しいアプリケーション開発
    • コードベースの保守
    • 財務文書の準備支援
  • 更新された Antigravity ハーネス (harness) と組み合わせることで、難しいユースケースで協調型のサブエージェントを展開し、問題を大規模に処理する実行エンジンとなる
  • 監督下で多段階ワークフローとコーディング作業を安定して実行しながら、フロンティア級の性能を維持する

Antigravity と AI Studio の活用例

  • 3.5 Flash は Antigravity で、動的な基準に応じて構造化されていない資産を自動でリネームし分類する多段階ワークフローを実行する
  • Antigravity で 2 つのエージェントを使って AlphaZero 論文を統合し、6 時間以内に完全にプレイ可能なゲームをコーディングする
  • Antigravity ハーネスで複雑なレガシーコードベースを Next.js に変換する
  • Antigravity でサブエージェントを使って新しい都市景観を生成し、ビルダーとプレイヤーの 2 つのエージェントによる高速な自己改善ループでゲームを開発する
  • Gemini 3 の強力なマルチモーダル基盤の上に、3.5 Flash はより豊かでインタラクティブな Web UI とグラフィックスを生成する
    • AI Studio で AI 研究論文のためのインタラクティブなアニメーションを生成する
    • AI Studio で一般的なテキスト説明をインタラクティブなハードウェアに変換する
    • AI Studio で学校の募金イベント向けの完全なブランディングコンセプトを作るため、複数のコンセプトを並列実行する
    • AI Studio でチェックアウトフロー向けの異なる UX アプローチを 60秒 で生成する

企業と開発者での活用

  • 3.5 Flash のエージェント能力は、開発者と企業のワークフローですでに活用されている
  • Gemini 3.5 モデル製品群の開発過程で、業界パートナーとともに反復業務や複雑さが生じるポイントを特定した
  • パートナー各社は、銀行やフィンテックにおける数週間規模のワークフロー自動化から、複雑なデータ環境でデータサイエンスチームがインサイトを見つける作業まで効果を確認している
  • Shopify

    • サブエージェントを並列実行して長期間にわたり複雑なデータを分析し、世界規模でより正確な加盟店成長予測を行う
  • Macquarie Bank

    • 100 ページを超える複雑な文書を推論し、関連情報を検索し、低レイテンシで信頼できる推奨を生成して顧客オンボーディングを加速する方法をパイロット運用中
  • Salesforce

    • 3.5 Flash を Agentforce に統合し、文脈を維持しながら複雑な複数ターンのツール呼び出しを実行する複数のサブエージェントで、複雑な企業タスクを自動化する
  • Ramp

    • 複雑な請求書のマルチモーダル理解と過去のパターンに対する推論を組み合わせ、より賢く信頼性の高い OCR を支援する
  • Xero

    • ベンダー識別や 1099 税務フォーム用の情報収集のような複数週にまたがる複雑なワークフローをエージェントが自律的に管理できるようにし、中小企業の反復的な管理業務の自動化を可能にする
  • Databricks

    • エージェント型ワークフローを使ってリアルタイム情報を監視・検索し、大規模データセット全体で推論して問題を診断し、修正案と解決策を提案する

個人向け AI エージェントと Search への適用

  • 3.5 Flash は、世界中の Gemini アプリと Search の AI Mode におけるデフォルトモデルとなる
  • Google I/O では、3.5 Flash のエージェント機能を日常生活に適用する新機能が公開された
  • Gemini Spark は 3.5 Flash を使用する個人向け AI エージェント
    • 24 時間常時稼働する
    • ユーザーの指示に従ってデジタル生活をナビゲートし、ユーザーの代わりに行動する
    • 信頼できるテスター向けに本日から提供開始
    • 米国の Google AI Ultra 加入者には来週ベータ版として提供予定
  • 3.5 Flash の強化されたエージェント型コーディング能力は、Search 全体でよりインテリジェントな体験を提供する
    • ユーザーのために 24 時間動作する新しい情報エージェントを導入する
    • より動的な生成 UI 体験を可能にする
    • Search は 3.5 Flash を活用して Gyroid パターンを説明するインタラクティブなビジュアル資料を生成する

安全対策

  • Gemini 3.5 は Frontier Safety Framework に基づいて開発された
  • サイバーおよび CBRN の安全対策が強化され、有害なコンテンツを生成する可能性と、安全な問い合わせに誤って回答を拒否する可能性が低下した
  • 新しく、より高度な安全学習と緩和手法が適用されている
  • 応答を提供する前に AI の内部推論を点検し理解するのに役立つ解釈可能性ツールが含まれる

1件のコメント

 
GN⁺ 2 시간 전
Hacker Newsの反応
  • ペリカンはかなりもっともらしい: https://github.com/simonw/llm-gemini/issues/133#issuecomment...
    ただし自転車はイマイチ。ペダルと後輪の間の棒が抜けているし、ほかのフレームも妙に絡まっている
    コストも高い。あのペリカン1羽で 13セント だった: https://www.llm-prices.com/#it=11&ot=14403&sel=gemini-3.5-fl...

    • あのペリカンは 暗号資産カンファレンス のためにMiamiに来たように見える
    • これは巨大言語モデルの進歩で感じていた現象を完璧に示している。こういう SVG改善 をさせると、欠けた横棒や分離した手足は直さず、ただ要素を増やすだけになる
      この例も明らかにかなり良くなっていてディテールは absurd なほど多いが、基本的なフレーム形状は相変わらず間違っている。Webページでも同じで、ボタンのようなものを追加していくパターンが現れる
      壊れたペリカンSVGを画像モデルに入れて欠陥を探させてみても、壊れた要素をまだ見つけられなかった
    • チェーンステー を描き忘れるのは、誰かに自転車を描いてもらったときによくある結果だ
      https://www.gianlucagimini.it/portfolio-item/velocipedia/

      most ended up drawing something that was pretty far off from a regular men’s bicycle

    • Google特有の、ダサいけれど若い層に対して関連性を保とうと必死な雰囲気をかなりよく捉えている感じ
    • あの太陽はOS博物館関連の別の上位HN投稿の背景に出ていた太陽ととても似ている: https://news.ycombinator.com/item?id=48195009
  • 入力/出力 100万トークンあたりの価格:
    Gemini 2.5 Flash: $0.30/$2.50
    Gemini 3.0 Flash Preview: $0.50/$3.00
    Gemini 3.5 Flash: $1.50/$9.00
    価格の方向性が興味深い。同じ規模の直後モデルで 3倍の値上げ は見たことがない気がするし、3はPreviewしかなかったのも妙だ
    3.5 Flashは、$1.25/$10だったGemini 2.5 Proと近いコストだ

    • これはコスト増を過小評価している。3.5 Flashはトークンもより多く使う。artificialanalysis.ai基準で総合評価を回した場合のコスト差のほうが、より現実的な価格に近く見える:
      Gemini 2.5 Flash(27点): $172(1.0x)
      Gemini 2.5 Pro(35点): $649(3.8x)
      Gemini 3.0 Flash(46点): $278(1.6x)
      Gemini 3.5 Flash(55点): $1,552(9.0x, または2.5 Pro比で2.4x)
      とんでもない値上げだ。Gemini 3.0 Flashと比べると 5.6倍
    • そもそも安価なモデルを継続提供するつもりがなかった可能性が高い。APIの上にサービスを構築する人たちが出てきたあとで圧力をかけ始める、自然なやり方だ
      だからプロバイダーに縛られない 抽象化レイヤー を置くのは本当に合理的だ。Kotlinを使っているならKoogは素晴らしい
    • また DeepSeekの瞬間 が必要だ。そうでなければ普通の人がAIを使いにくくなり、大企業だけが負担できるものになる
    • GoogleがTPUのおかげで実際に他社より安く推論を回せているのだとしたら、これは危険信号のように感じる。巨大言語モデルを利益を出して提供するのは難しいと分かってきたのかもしれない
      あるいはベンチマークが良いので値上げしてもいいと見ているのかもしれない。ただ、まだそうした判断を正当化できるほどの市場シェアがあるようには見えない
    • 3.5 FlashはPreviewではなく Stable と表示されているのでは? 私の読み違いだろうか?
      https://ai.google.dev/gemini-api/docs/models/gemini-3.5-flas...
  • Googleが今回のモデルをPreviewではなく Stable と表示している点は注目に値する。最近のリリース傾向と比べると異例だ
    ここに3倍の値上げまで加わると、Flashの価格はあとで戻す一時措置というより、Googleが望む 長期的な下限 のようにも読める
    ただ、これがGoogleだけが空気を読んだ結果なのか、業界全体が静かに低価格推論の基準線を引き直しているのかは、まだ判断しにくい

  • Create animated SVG of a frog on a boat rowing through jungle river. Single page self contained HTML page with SVG
    3.5 Flash: Thinking Medium - 7516 tokens
    https://gistpreview.github.io/?5c9858fd2057e678b55d563d9bff0...
    3.5 Flash: Thinking High - 7280 tokens
    https://gistpreview.github.io/?1cab3d70064349d08cf5952cdc165...
    3.1 Pro - 28,258 tokens
    https://gistpreview.github.io/?6bf3da2f80487608b9525bce53018...
    3.1は生成に3分かけたが、アニメーションの動き をきちんと入れた唯一のモデルだった

  • 誰かが "Flash" と言うと、即座に "代わりにHTML5を検討してください" が思い浮かぶほど、自分は本当に歳を取ったのだろうか?

    • Flash文化をあれほど楽しくしていた要素のうち、HTML5 に引き継がれたものはほとんどない
    • Flashデザイナーは本当に良かった。Webがある意味で後退させたものの1つが、90年代と2000年代の RADツール だった
    • 若者たちよ!
      Flash, ah, ah, saviour of the universe. Flash, ah, ah, he'll save every one of us!
      ここ何年になるのかも分からないくらい長い間、"flash" という単語を聞くたびにいつもこれを思い出す
  • 知識カットオフ: 2025年1月
    最新アップデート: 2026年5月
    この遅れにはかなり不吉な感じがする

    • 少なくとも一部では、より多くの 合成データ と厳しく選別されたデータで学習する方向に向かっているようだ。特に小さなモデルは数十〜数百GBのモデル重みの中に世界のすべてを保存する余地がないので、知識の幅を極端に広げることはできない
      だから、より高品質な推論を得るには学習を集中させる必要があり、データは非常に高品質・高密度でなければならない
      ツール使用が強ければ、モデルが古いデータを使うこと自体はそれほど重要でないかもしれない。最新情報を検索できるからだ。ただ、現時点ではほとんどのモデルは少し誘導しないとそうしない
      Qwen 3系はすべて同じベースモデルから始まり、複数の指標を改善するために微調整/事後学習だけを行ったものだと理解している。Gemini 3系も全部同じかもしれないし、今この瞬間にGemini 4ベースのモデルを最新知識で並行学習しているのかもしれない
    • 事実はモデル重みから取り出させるべきではない。実データソース に根拠を置くべきだ
    • どういう意味か説明してもらえる?
    • それはGoogleが選んだことだと思っていた
  • google ai pro planを使っていて、Antigravityで3.5 Flashを試したが、プロンプト2回で割り当てを使い切ってしまった。バグでないなら本当に 使いものにならない レベルだ

    • 昨日か一昨日、GoogleはAI Proの割り当てを標準使用量の33倍から 4倍 に下げた
      Gemini subredditの雰囲気を見ると以前よりかなり減ったようだ。自分もAI Proを解約するかもしれない
      今回のアップデートでアプリも壊れた。メッセージを編集すると毎回アプリがクラッシュする。しかもPixelで使っていてもそうなる
  • Gemini 3.5 Flashの 2000トークン時計 は悪くない。 https://clocks.brianmoore.com/

  • ほぼ同じモデルで 3倍の値上げ とは。AIはもっと安くなってどこでも使われるようになると言っていたのに

    • クラックの流行みたいにどこにでも広がる、という意味だったのかも
    • ベンチマークを信じるなら、3.1 Proの 4分の3の価格 と見ることもできる
  • 価格がばかげている
    Gemini 3.5 Proも一緒に値上がりしそうだ。12 x 5 = 60?
    Googleは私たちに 中国モデル を使ってほしいかのようだ