- 一部のユーザーが、Google AI Studioで新しいGemini 3.0モデルがA/Bテストの形で提供されていることを確認
- Gemini 3.0はコーディング性能の向上が期待される次世代モデルで、実際のユーザーはSVG画像生成テストを通じて品質差を確認
- テスト結果では、Xbox 360コントローラーのSVG生成結果が著しく向上しており、Gemini 2.5 Proと比べて大きな改善が見られた
- モデル識別子は
ecpt50a2y6mpgkcnで、Gemini 3.0 Pro版である可能性が高く、出力長40%増加・TTFT 24秒増加などの性能変化が確認された
- これはGoogleが次世代Geminiモデルの実験的な配布を開始したことを示唆しており、本格的な公開が近いことを意味する
Gemini 3.0の非公式な公開と文脈
- 最近のうわさによると、Google AI StudioでA/Bテストを通じて一部のユーザーがGemini 3.0にアクセスできることが明らかになった
- Gemini 3.0は現在、AI分野でAI画像レンダリングおよびコーディング性能の向上への期待から大きな注目を集めているモデル
- 実際に何度か試した末に、A/Bテスト画面を体験した
- 使用されたプロンプト:
Create an SVG image of an Xbox 360 controller. Output it in a Markdown multi-line code block.
- 結果として、Gemini 3.0が生成したXboxコントローラーのSVGは、ディテール・正確性・レイアウトの完成度の面で既存モデルよりはるかに優れていた
- Gemini 3.0のモデルIDは
ecpt50a2y6mpgkcnであることが確認されたが、具体的なバージョン情報を知るのは難しい
- デフォルト選択モデルがGemini 2.5 Proだったため、実際にはGemini 3.0 Proとの比較であると推定できる
- Gemini 2.5 Pro比で
- TTFT(Time to First Token) が約24秒増加
- 出力長が約40%増加
- 推論トークン(reasoning tokens) が含まれている可能性がある
Appendix
- Gemini 3.0とGemini 2.5 ProのA/B比較結果の出力画像を一覧化
1件のコメント
Hacker Newsの意見
少数派かもしれないが、会社で主要なプロ向けモデルを一通り使える中で、Gemini は ChatGPT、Claude、Deepseek より常に優れていると感じている。Web 開発、とくに HTML/SCSS の作業が多いからかもしれないし、Google はインターネットをクロールしていて、より多くのデータを持っているのが強みなのだと思う。モデルごとに得意分野は違うだろうが、UI/UX の Web 開発では Gemini は本当に優秀だと感じる。3.0 がとても楽しみだ
Gemini 2.5 Pro は、Claude や GPT-5 よりも次の 2 つのケースで特に優れていると感じた。
数週間前、サードパーティのスクリプトが自分の React ボタンの click イベントを妨害していて、
mousedownイベントを追加して修正しようとしていた。疲れていたので、mousedownの数 ms 後に click をシミュレートする雑なコードで手早く済ませようと思い、その方針を Gemini に説明したところ、Gemini はきっぱり拒否し、その代わりmousedownとmouseupを組み合わせて処理する、よりクリーンな解決策を提示してきた。問題を完全に理解した上で、自分のやりたい方法ではなく、より良い方法を勧めてくれたことに本当に驚いたうちの会社で主要な LLM モデルをベンチマークしているが、Gemini 2.5 はごく一部の非常に特定の分野を除けば圧倒的な 1 位だ。Google の事前学習が最強だという評判とも一致していて、調整やアラインメントにはやや物足りなさが残る。Gemini 3 にとても期待している理由でもある。2.5 は最高だが、まだ改善の余地は大きい。(特定分野: 「本当の推論」(GPT-5)と Python スクリプト作成(Claude 系))
検索精度や事実ベースの作業では、Claude も Gemini も ChatGPT よりかなり劣ると感じる。Gemini は数回検索しただけで適当にでっち上げ始める一方、ChatGPT は何十回、何百回と検索を繰り返し、先に見つけた結果を踏まえてさらに検索を続ける
Gemini のより広いコンテキストウィンドウが本当に気に入っている。自分のやり方は、コードベース全体を文字列に変換して Gemini に貼り付け、それから質問するというものだ。みんなは「エージェント」が数ファイルだけ選んで見ることをありがたがっているが、自分はコードベース全体をそのまま投げ込んで、コード生成やファイル修正などを対話的に進めるほうが、はるかに便利で効果的だ
LLM に SVG を生成させることへの過剰な関心がよく理解できない。この作業は一発で成功させるのが難しく、人間にとっても試行が難しいので、あまり実用性がない。もしモデルが視覚フィードバックを受けて結果を改善できるなら、もっと有用になると思う。これが人気のベンチマーク課題になってしまったせいで、企業がサンプルデータを学習セットに追加するようになり、結局は誰がより良い「text-to-SVG」データセットを使ったかを比べているだけで、モデル全体の品質とは関係ないと思う
1か月ほど前から、さまざまな憶測とともに Gemini 3 関連の話題が続いている。正式発表までは判断を保留したいし、Pro、Flash、Flash Lite の代替モデルなのか、まったく新しいモデルなのか、そもそもリリースされるのかも誰にも分からない。AIStudio では A/B テスト方式のため、1 回のプロンプトに対する結果しか得られず、速度・遅延・命令追従の程度しか分からない。こうした各モデルの実際の性能を 1 回のプロンプトで評価するのは、専門的な評価ではないと思う。複数ファイル処理やツール呼び出し対応などは当然分からない。やみくもに期待を膨らませるより、過度な期待や失望に陥らないでほしい。自分が推測ベースのコンテンツをあまり好きでない理由でもある。実際の文脈や分析なしに、刺激的な部分だけが強調されるからだ
本当に素晴らしいペリカンの絵だ。Gemini 3 を体験するのがとても楽しみだ 関連する Twitter の例
ベンチマークが(ついに)壊れた
予想以上に芸術作品っぽい
これってそんなに良いのか? 自分の目にはただ微妙に見える
自分が変だと感じたのは、Gemini 2.5 Pro は大半の用途で最高クラスなのに、それが必ず最初の質問に限られることだ。つまり、コンテキストを全部入れた状態で 1 回質問して 1 回回答を受け取るときが最良だ。会話を長く続けるほど品質が急激に落ちる。他のモデルよりコンテキストウィンドウが長いのに不思議だ。自分はプロジェクト全体(およそ 20 万トークン)を会話欄に入れて、よく練った質問を 1 つだけ投げ、そのチャットはすぐ閉じる使い方をしている
「Gemini 3.0 は、とくにコード生成性能の向上によって、現時点で最も期待される AI リリースの一つだ」と言われているが、Google 社内で使っている友人たちの話を聞くと、みんな失望するだろうとのことだ。
編集: 実際には Gemini 3 を使える状態ではないので、彼らが微妙だと言うのもむしろ当然だ
Gemini 3.0 は Google 社内でも現時点では広く展開されていない。"Gemini for Google" は 2.5 Pro や 2.5 Flash をファインチューニングした版だ。3.0 モデル自体は広く使われていない。(Google 社員、決済関連チーム勤務。個人的見解)
この盛り上がりに水を差して申し訳ないが、うちの Google 内の Vibecoding チームでも Gemini 3 は使っていない
驚くことでもない。LLM は性能向上の限界、つまり収穫逓減の領域に入りつつあり、GPU をもっと安く作る方法が必要だ
Twitter に Gemini 3 の例がさらに大量に流れ始めている。これを見てすぐに Google 株を買った。出力を見ると、過去のテンプレートをコピペしているのではなく、本当に創造的な新規デザインを生み出している感じがする。コードレベルでこれほど一貫して美しい成果物を出すのは極めて難しいのに、Gemini 3 はそれを実現しているようで衝撃だった。しかも Google だけがモデルからハードウェアまでの垂直統合を完成させている会社なので、AI 時代に成功する可能性は非常に高いと思う
chetaslua の Twitter で Gemini 3 に関するさまざまな実験結果が投稿されている(Web デスクトップ、Vampire Survivor クローン、実際にプレイ可能な Vogel 3D モデル、さまざまなゲームクローン、SVG など)。とくに one-shot 形式では、出力は非常に優秀で見栄えも良い
Python ターミナルを起動すると、ちょっと面白い第四の壁を破るような効果が現れる
printキーワードを使うと、実際のブラウザで印刷ダイアログが開くopenキーワードを使うと、ブラウザで新しいタブが開き、そのファイルにアクセスしようとするつまり
printとopenの実行がブラウザに直接つながっているルーピング(反復)現象が改善されるといいと思う。本当に深刻な問題だ。CLI にもループ検知機能があるが、使って 1 分で即座に検出される。Gemini app の 2.5 Pro も、何度も繰り返さないよう指示しても、結局は単語を繰り返し続けてしまい、ほとんど使い物にならない
モデルは SVG を「目で」評価しながら何度も修正しているのか、それとも一発で完璧な結果を出すことを期待されているのか気になる
視覚モデルにレンダリング結果を見せて最大 3 回まで改善させる方式も試したが、驚いたことに結果は良くならなかった