GPT-3からGemini 3までの3年間

(oneusefulthing.org)

5 ポイント投稿者 GN⁺ 2025-11-26 | 1件のコメント | WhatsAppで共有

GoogleのGemini 3は、単なる対話型チャットボットを超え、コード作成・Web探索・ファイル操作など実際の作業をこなすデジタル同僚型AIへと進化
同時に公開されたAntigravityは、ユーザーのコンピューターにアクセスして自律的にプログラムを書き、Inboxシステムを通じて承認や支援を求めるエージェントベースのツール
Gemini 3はユーザーの指示に従ってWebサイト構築、データ分析、論文執筆まで実行し、PhDレベルの研究遂行能力を示す
エラーは依然として存在するが、それは判断力・理解の差のレベルであり、人間と協働する**「AIチームメンバー」的な形**に近い
記事は**「チャットボットの時代からデジタル同僚の時代への転換」**が起きていると強調し、人間はもはやAIのミスを直す存在ではなく、AIの仕事を指揮する管理者へと変わりつつあると述べる

Gemini 3の登場と3年間の変化

ChatGPTの公開から約3年後に登場したGoogle Gemini 3は、AI進化の速度を示す事例
- 2022年のGPT-3.5時代には、単に段落や詩を生成する程度だった
- 2025年のGemini 3は、インタラクティブゲームを自らコーディングしてデザインするレベルに進化
Gemini 3はユーザーのリクエストに応じて、「Candy-Powered FTL Starship Simulator」という実際に遊べるゲームを生成
- これは、かつてのAIが単にテキストを説明していた段階から、コードとインターフェースを直接実装する段階へ進化したことを示す

Antigravityとエージェント型AI

GoogleはGemini 3とともに、Antigravityという開発者向けツールを公開
- これはClaude CodeやOpenAI Codexに似た、ユーザーのコンピューターにアクセスして自律的にコードを書くシステム
AntigravityはInboxの概念を導入し、AIが作業中に承認や支援を必要とするとき、ユーザーに通知を送る
ユーザーは英語で指示を出し、AIはそれをコードとして実行する
- 例として、筆者のニュースレター原稿ファイルを分析し、AI関連の予測を整理したWebサイトを自動生成
- AIはWeb検索・コード実行・ブラウザテストを行い、結果をNetlifyにデプロイ可能な形でパッケージ化する

協働型AIとしてのGemini 3

Gemini 3は作業中、ユーザー承認の要求を通じて進行状況を透明に共有
- ユーザーはAIの提案を確認・修正しながら協働する
- このプロセスは**「AIの管理」**に近い体験
AIは完璧ではないが、エラーは判断の違いや意図解釈のずれのレベルであり、従来のハルシネーション問題はほとんどない
Gemini 3との協働は**「チームメンバーの管理」**に近く、単なるプロンプト入力以上の相互作用を強調する

研究遂行能力と「PhDレベル」の評価

Gemini 3は研究用データセットの分析と論文執筆という課題を遂行
- 古いクラウドファンディングのデータファイルを復旧・整理し、新たな分析を実施
- 「スタートアップ・ビジネス戦略」をテーマにした14ページの論文を執筆
AIは独自の仮説を立て、統計分析を行い、**独自指標（アイデアの独創性測定）**も作成
成果物は大学院生レベルの完成度を見せたが、一部の統計手法や理論展開は不十分
- 追加の指示を与えると品質は大きく向上
- 筆者は「PhDレベルの知能は遠くない」と評価

デジタル同僚への転換

Gemini 3は考え、実行するパートナー型AIであり、世界中の数十億人がアクセス可能
AI進化には減速の兆しがなく、エージェント型モデルの台頭とAI管理能力の重要性が浮き彫りになっている
筆者は「チャットボットの時代がデジタル同僚の時代へ移行中」と表現
- 人間はもはやAIのエラーを修正する存在ではなく、AIの業務を指揮する管理者へと変化
最後にGemini 3は、コードだけでブログ用のカバー画像を生成するなど、テキストを超えた創作能力も実演
ただし、AIにコンピューターへのアクセス権を与える際にはセキュリティリスクがあるため注意が必要

1件のコメント

GN⁺ 2025-11-26

Hacker Newsの意見

こういう記事を見るたびに、いつも抜けている部分がある — 「それは良いのか、正確なのか」 という問いだ
- 印象的な部分だけが示されるが、実際には 品質検証 がされていないことが多い
- 自分が理解しているコードならセキュリティ問題やエラーが見えるのに、知らない分野の14ページの論文については、ただ「良いと信じるしかないのか？」という疑問が湧く
- 結局、自分が知っているものは出荷不可能な水準だと分かる一方で、知らないものはすごそうに見えるだけの錯覚のように思える
- この矛盾が腑に落ちない
- 専門家の評価 を信頼するか、自分で検証可能な複雑な作業をさせてみる方法がある
  - たとえば以前は edgeDetect(image) のような Sobelフィルタ のコードを書かせると、モデルごとに成功するかどうかが分かれていた
  - 最近は WebGL glow shader を作らせてみたが、実際に動くデモを作り、自分が作ったモジュールとも互換性があった
  - こういうものは性能と視覚的な正確さで即座に検証できる
  - ただし「できる」と言っても毎回うまくいくわけではなく、一度でも成功したことがあるという意味で受け取るべきだ
- 最新世代のモデル（Codex 5.1、Sonnet 4.5、Opus 4.5）は、ますます 出荷可能な水準 に近づいている
  - 自分の基準は「wtfs per line」だが、その数値は急激に減っている
  - Codex 5.1で複数のプロジェクトを問題なくデプロイした（例: pine.town）
- 記事の後半では、実際に論文の 強みと弱み にも言及されている
- モデルにはユーザーを満足させようとする傾向があるため、根拠のない自信 で誤った答えを返すことがある
  - ユーザーが検証しなければ、だまされることもある
これまでAIとのインタラクションの大半が テキストボックス 中心だったのは興味深い
- Claude CodeやOpenAI Codexのようなツールが登場したことは大きな変化だった
- 未来の AIインターフェース を誰がきちんと実装するかによって、とてつもない価値が生まれそうだ
- テキストは情報密度が高く、今でもなお効率的だ
  - 数秒でスクロールしてざっと見られるし、キーボード は依然として最も生産的な入力手段だ
- Unix CLI が50年以上テキストベースで維持されてきたのも同じ文脈だ
  - PowerShellのように構造化データを試みても、結局は汎用性が落ちる
  - AIに人間の既存インターフェースを理解させるほうが、より強力なアプローチだ
- AI UIを新しく探そうとする執着は行き過ぎに思える
  - 本質的に人間が扱いやすいのは、今でも テキスト、表、グラフ だ
- 世界は本質的に マルチモーダル だ
  - テキストとさまざまなデータ型を統合的に扱う 統合型インターフェース が次の段階だと思う
  - 特にロボティクスが発展するにつれて、3D要素も重要になりそうだ
- ChatGPTの 音声インターフェース は驚くほど自然で、ブレインストーミングにはむしろより適している
「幻覚（hallucination）」問題は依然として存在する
- 微妙で人間らしい誤りは増えたが、同時に 致命的な誤り も依然として混ざっている
- Claudeに20ページの短編を書かせたところ、基本的な時系列や人物の一貫性 すら保てなかった
- 最近のモデルは単純なミスの代わりに、自信満々に間違った主張 をし、存在しない参考文献まででっち上げる
「PhDレベルの知能なのか？」という問いについては、大学院生として似た感覚を持つ
- 最新モデルと会話すると、専門分野の研究者 と話しているような印象を受ける
- それでも、人間の 自然知能と動機 は依然として重要だと思う
- コーディングでは、まるで 2人の開発者 と一緒に働いているような感じだ — 1人は有能な中堅、もう1人は完全に見当違いな人
  - 問題は、2人がまったく同じ見た目で区別できないことだ
- 自分はよく SOTAモデル同士を会話させる 実験をしている
  - 最近Gemini-3とChatGPT-5.1を組み合わせてみたところ、人間が思考を放棄したときに生じる 神経萎縮（neural atrophy） の問題を議論していた
  - AIが人間を意図的に「考えさせる」べきか悩む場面が印象的だった
- HNでは、こういう意見がしばしば 理由もなく低評価 されるのが残念だ
Googleの進歩は ソフトウェアだけでなくハードウェア においても起きている
- 自社ハードウェアで学習と推論の両方を行っている
- 以前はGoogleの強みは 汎用ハードウェアの活用 にあったが、今はまったく別の方向へ進化した
Gemini 3は印象的だが、それでもなお 既存文献の限界 の中にとどまっている感じがする
- 数学の問題で新しいアイデアを求めると、既存の結果を繰り返すだけ になる
- Terrence Taoも数学の問題解決に活用しているが、完全に新しい成果というより アイデア補助ツール として使っているように見える
- 自分もThinking with 3 Proで試してみたが、スプーンフィーディング並みにヒントを与えないと、やっと自分のアイデアの近くまで来る程度だった
- 結局のところ、その感嘆はモデルの能力より ユーザーの期待値の限界 によるものかもしれない
- こうしたモデルは本質的に 知識の司書（librarian） に近く、新しいアイデアの源泉ではない
- 真の 創造的探索 には、確率的にあまり探索されていない空間を探検し、目標を自ら設定・評価する過程が必要だ
  - 現在のTransformerアーキテクチャは 最も可能性の高いトークン を選ぶよう設計されているため、本質的に 新規性より一貫性 を追求する
  - そのためtemperatureを高くしても、創造性より テキストの一貫性低下 につながる
  - この問題を解決するには 適応的な目標生成とシミュレーションベースの評価 が必要だが、計算コストが非常に高い
  - 結局、現在のLLMアーキテクチャでは 真の知能 に到達するのは難しいと思う
- リアルタイムWeb検索を活用せよ という カスタム指示 を追加すると、最新情報の探索には役立つ
GPT-3のリリース時期は2020年6月で、ChatGPTは3.5バージョンだった
- 些細なミスだが、正確に指摘しておきたい
「Human in the loop」が、AIのミスを直す人間 から AIを指揮する人間 へ進化しているという話は昔から聞いてきた
- 実際、いつごろそれが明確に現実になるのか気になる
- 完全に明確な時点はない気がする
  - ちょうど管理職が「指示だけする人」にはなれないのと同じで、常に 修正の割合 は存在する
- CLIツールとエージェントを直接つないでみると、すでに その転換点 は越えたと感じる
- 個人的には、もう AIを指揮する段階 に入っていると感じる
Claude CodeやAntigravのようなツールを ローカルシステムで直接実行 するのが安全なのか疑問がある
- VS Codeベースの製品には ワークスペースアクセス制限 があるので安全だが、Warpのようなターミナルは コマンド許可/ブロックリスト で制御している
- 中にはフラグで制限を解除できるものもあるが、意図的にそうしなければならない
- 自分はこうした作業を常に Podman開発コンテナ の中でしか実行しない
- この問題を解決するために作られたツールが Leash で、セキュリティ制御のためのオープンソースプロジェクトだ
- 中にはただ「Yolo」と言ってリスクを受け入れて実行する人もいる
- 実際には、ほとんどのユーザーが ローカルで直接実行 している

GPT-3からGemini 3までの3年間

Gemini 3の登場と3年間の変化

Antigravityとエージェント型AI

協働型AIとしてのGemini 3

研究遂行能力と「PhDレベル」の評価

デジタル同僚への転換

関連記事

1件のコメント

Hacker Newsの意見