Gemini 3.0、A/Bテストを通じて公開の場で確認される

(ricklamers.io)

5 ポイント投稿者 GN⁺ 2025-10-17 | 1件のコメント | WhatsAppで共有

一部のユーザーが、Google AI Studioで新しいGemini 3.0モデルがA/Bテストの形で提供されていることを確認
Gemini 3.0はコーディング性能の向上が期待される次世代モデルで、実際のユーザーはSVG画像生成テストを通じて品質差を確認
テスト結果では、Xbox 360コントローラーのSVG生成結果が著しく向上しており、Gemini 2.5 Proと比べて大きな改善が見られた
モデル識別子はecpt50a2y6mpgkcnで、Gemini 3.0 Pro版である可能性が高く、出力長40%増加・TTFT 24秒増加などの性能変化が確認された
これはGoogleが次世代Geminiモデルの実験的な配布を開始したことを示唆しており、本格的な公開が近いことを意味する

Gemini 3.0の非公式な公開と文脈

最近のうわさによると、Google AI StudioでA/Bテストを通じて一部のユーザーがGemini 3.0にアクセスできることが明らかになった
Gemini 3.0は現在、AI分野でAI画像レンダリングおよびコーディング性能の向上への期待から大きな注目を集めているモデル
実際に何度か試した末に、A/Bテスト画面を体験した
使用されたプロンプト: Create an SVG image of an Xbox 360 controller. Output it in a Markdown multi-line code block.
結果として、Gemini 3.0が生成したXboxコントローラーのSVGは、ディテール・正確性・レイアウトの完成度の面で既存モデルよりはるかに優れていた
Gemini 3.0のモデルIDはecpt50a2y6mpgkcnであることが確認されたが、具体的なバージョン情報を知るのは難しい
デフォルト選択モデルがGemini 2.5 Proだったため、実際にはGemini 3.0 Proとの比較であると推定できる
Gemini 2.5 Pro比で
- TTFT(Time to First Token) が約24秒増加
- 出力長が約40%増加
- 推論トークン(reasoning tokens) が含まれている可能性がある

Appendix

Gemini 3.0とGemini 2.5 ProのA/B比較結果の出力画像を一覧化

1件のコメント

GN⁺ 2025-10-17

Hacker Newsの意見

少数派かもしれないが、会社で主要なプロ向けモデルを一通り使える中で、Gemini は ChatGPT、Claude、Deepseek より常に優れていると感じている。Web 開発、とくに HTML/SCSS の作業が多いからかもしれないし、Google はインターネットをクロールしていて、より多くのデータを持っているのが強みなのだと思う。モデルごとに得意分野は違うだろうが、UI/UX の Web 開発では Gemini は本当に優秀だと感じる。3.0 がとても楽しみだ
- Gemini 2.5 Pro は、Claude や GPT-5 よりも次の 2 つのケースで特に優れていると感じた。
  - クリエイティブライティング: Gemini は他のモデルと比べて圧倒的に優れている。個人的には、Gemini 2.5 Pro だけが、かろうじて創作執筆（詩、短編小説）に使える唯一のモデルだ。ニュアンスの理解度がかなり高く、自分の創作を批評してもらうのに使っている。もちろん、詩作のような分野では、まだどのモデルも不十分だ
  - 複雑な推論（学部・大学院レベルの数学）: Gemini はごくわずかに正確で、最も優れていると思う。Claude Opus 4.1 や Sonnet 4.5 も同程度だが、Gemini 2.5 のほうが一貫性があり、予測しやすい回答を返してくれる（代数学、可換代数、圏論、代数幾何、位相幾何などでよく使っている）
  - ただし、大規模コードベース全体の検索や、オープンエンドな質問でのリファクタリング依頼など、「エージェント」的な役割では Gemini は Claude や GPT-5 に劣る。ツール呼び出しにやや問題があり、Copilot/Cursor では挙動が安定しない
  - 総合的には Gemini 2.5 Pro が最も賢いと思うが、作業ごとにモデルを使い分けるのが正しいと思う
- 数週間前、サードパーティのスクリプトが自分の React ボタンの click イベントを妨害していて、mousedown イベントを追加して修正しようとしていた。疲れていたので、mousedown の数 ms 後に click をシミュレートする雑なコードで手早く済ませようと思い、その方針を Gemini に説明したところ、Gemini はきっぱり拒否し、その代わり mousedown と mouseup を組み合わせて処理する、よりクリーンな解決策を提示してきた。問題を完全に理解した上で、自分のやりたい方法ではなく、より良い方法を勧めてくれたことに本当に驚いた
- うちの会社で主要な LLM モデルをベンチマークしているが、Gemini 2.5 はごく一部の非常に特定の分野を除けば圧倒的な 1 位だ。Google の事前学習が最強だという評判とも一致していて、調整やアラインメントにはやや物足りなさが残る。Gemini 3 にとても期待している理由でもある。2.5 は最高だが、まだ改善の余地は大きい。（特定分野: 「本当の推論」（GPT-5）と Python スクリプト作成（Claude 系））
- 検索精度や事実ベースの作業では、Claude も Gemini も ChatGPT よりかなり劣ると感じる。Gemini は数回検索しただけで適当にでっち上げ始める一方、ChatGPT は何十回、何百回と検索を繰り返し、先に見つけた結果を踏まえてさらに検索を続ける
- Gemini のより広いコンテキストウィンドウが本当に気に入っている。自分のやり方は、コードベース全体を文字列に変換して Gemini に貼り付け、それから質問するというものだ。みんなは「エージェント」が数ファイルだけ選んで見ることをありがたがっているが、自分はコードベース全体をそのまま投げ込んで、コード生成やファイル修正などを対話的に進めるほうが、はるかに便利で効果的だ
LLM に SVG を生成させることへの過剰な関心がよく理解できない。この作業は一発で成功させるのが難しく、人間にとっても試行が難しいので、あまり実用性がない。もしモデルが視覚フィードバックを受けて結果を改善できるなら、もっと有用になると思う。これが人気のベンチマーク課題になってしまったせいで、企業がサンプルデータを学習セットに追加するようになり、結局は誰がより良い「text-to-SVG」データセットを使ったかを比べているだけで、モデル全体の品質とは関係ないと思う
1か月ほど前から、さまざまな憶測とともに Gemini 3 関連の話題が続いている。正式発表までは判断を保留したいし、Pro、Flash、Flash Lite の代替モデルなのか、まったく新しいモデルなのか、そもそもリリースされるのかも誰にも分からない。AIStudio では A/B テスト方式のため、1 回のプロンプトに対する結果しか得られず、速度・遅延・命令追従の程度しか分からない。こうした各モデルの実際の性能を 1 回のプロンプトで評価するのは、専門的な評価ではないと思う。複数ファイル処理やツール呼び出し対応などは当然分からない。やみくもに期待を膨らませるより、過度な期待や失望に陥らないでほしい。自分が推測ベースのコンテンツをあまり好きでない理由でもある。実際の文脈や分析なしに、刺激的な部分だけが強調されるからだ
- 最近はハイプそのものが一つの職業になったようだが、Twitter のリンクごとに "GAME CHANGER!!!"、"みんなが衝撃を受ける！" のような大げさな反応ばかりで少しうんざりする。実際の例はすごいが、上で述べたような非専門的な評価ばかりなのが残念だ
本当に素晴らしいペリカンの絵だ。Gemini 3 を体験するのがとても楽しみだ関連する Twitter の例
- ベンチマークが（ついに）壊れた
- 予想以上に芸術作品っぽい
- これってそんなに良いのか？自分の目にはただ微妙に見える
自分が変だと感じたのは、Gemini 2.5 Pro は大半の用途で最高クラスなのに、それが必ず最初の質問に限られることだ。つまり、コンテキストを全部入れた状態で 1 回質問して 1 回回答を受け取るときが最良だ。会話を長く続けるほど品質が急激に落ちる。他のモデルよりコンテキストウィンドウが長いのに不思議だ。自分はプロジェクト全体（およそ 20 万トークン）を会話欄に入れて、よく練った質問を 1 つだけ投げ、そのチャットはすぐ閉じる使い方をしている
- 長時間会話すると回答品質が落ち続ける現象は、自分が使ったすべての LLM で同じだった。だから自分は 2 メッセージ以上は続けない。最初の回答で欲しい結果が出なければ、メッセージを積み重ねるほど正解が出る確率はどんどん下がる。常に新しいチャットで始めて、プロンプトを調整しながら試すのがいいと思う
「Gemini 3.0 は、とくにコード生成性能の向上によって、現時点で最も期待される AI リリースの一つだ」と言われているが、Google 社内で使っている友人たちの話を聞くと、みんな失望するだろうとのことだ。
編集: 実際には Gemini 3 を使える状態ではないので、彼らが微妙だと言うのもむしろ当然だ
- Gemini 3.0 は Google 社内でも現時点では広く展開されていない。"Gemini for Google" は 2.5 Pro や 2.5 Flash をファインチューニングした版だ。3.0 モデル自体は広く使われていない。（Google 社員、決済関連チーム勤務。個人的見解）
- この盛り上がりに水を差して申し訳ないが、うちの Google 内の Vibecoding チームでも Gemini 3 は使っていない
- 驚くことでもない。LLM は性能向上の限界、つまり収穫逓減の領域に入りつつあり、GPU をもっと安く作る方法が必要だ
Twitter に Gemini 3 の例がさらに大量に流れ始めている。これを見てすぐに Google 株を買った。出力を見ると、過去のテンプレートをコピペしているのではなく、本当に創造的な新規デザインを生み出している感じがする。コードレベルでこれほど一貫して美しい成果物を出すのは極めて難しいのに、Gemini 3 はそれを実現しているようで衝撃だった。しかも Google だけがモデルからハードウェアまでの垂直統合を完成させている会社なので、AI 時代に成功する可能性は非常に高いと思う
- 自分は金融の専門家ではないが、単にハイプ気味の Twitter 投稿だけを見て株を買うのは安全な投資方法ではない、という助言はできる。ただ、余剰資金で楽しみながらやるのなら何でもありだ
chetaslua の Twitter で Gemini 3 に関するさまざまな実験結果が投稿されている（Web デスクトップ、Vampire Survivor クローン、実際にプレイ可能な Vogel 3D モデル、さまざまなゲームクローン、SVG など）。とくに one-shot 形式では、出力は非常に優秀で見栄えも良い
- この例は本当に斬新だった: リアルタイムデモ codepen
  Python ターミナルを起動すると、ちょっと面白い第四の壁を破るような効果が現れる
  1. "Python" の print キーワードを使うと、実際のブラウザで印刷ダイアログが開く
  2. "Python" の open キーワードを使うと、ブラウザで新しいタブが開き、そのファイルにアクセスしようとする
    つまり print と open の実行がブラウザに直接つながっている
ルーピング（反復）現象が改善されるといいと思う。本当に深刻な問題だ。CLI にもループ検知機能があるが、使って 1 分で即座に検出される。Gemini app の 2.5 Pro も、何度も繰り返さないよう指示しても、結局は単語を繰り返し続けてしまい、ほとんど使い物にならない
モデルは SVG を「目で」評価しながら何度も修正しているのか、それとも一発で完璧な結果を出すことを期待されているのか気になる
- 自分のベンチマークではチャンスは 1 回だけだ。
  視覚モデルにレンダリング結果を見せて最大 3 回まで改善させる方式も試したが、驚いたことに結果は良くならなかった

Gemini 3.0、A/Bテストを通じて公開の場で確認される

Gemini 3.0の非公式な公開と文脈

Appendix

関連記事

1件のコメント

Hacker Newsの意見