3 ポイント 投稿者 GN⁺ 2025-07-18 | 1件のコメント | WhatsAppで共有
  • ChatGPTエージェントは独自の仮想コンピュータを活用し、ユーザーの複雑な作業を最初から最後まで処理する
  • OperatorのWebサイト操作能力とディープリサーチの情報分析性能を組み合わせた新しいエージェントシステムを構成し、クリック・入力・コード実行まで柔軟に行う
  • ユーザーはエージェントにフォーム送信、予約、ファイル作成などの作業を代行させるよう指示でき、いつでも介入可能
  • SpreadsheetBenchDSBenchBrowseCompなど多様な実環境ベンチマークで既存モデルを上回る成果を実証
  • Pro、Plus、Teamユーザーは本日から利用可能で、ユーザーデータ制御とセキュリティ機能も綿密に設計されている

ChatGPTエージェント、リサーチとアクションをつなぐ

エージェント機能の導入

  • ChatGPTは独自の仮想コンピュータを通じて、ユーザーに代わって複雑な作業を実行できるよう機能が拡張された
  • ChatGPTエージェントはOperator(リモートブラウザベースの操作)とディープリサーチ(多段階Web推論ツール)の分析能力を1つのエージェントモデルに統合
    • OperatorはWeb上の操作(スクロール、クリック、フォーム入力)に強みがある一方、深い分析やレポート作成には限界があった
    • 一方でディープリサーチは分析と要約に特化していたが、リアルタイムのサイト操作や認証が必要なコンテンツへのアクセスはできなかった
  • 2つのツールの補完的な強みを統合し、クリック、フィルタリング、データ収集まで単一環境で高い効率性を提供する
  • チャットインターフェース内で会話と依頼のあいだを柔軟に切り替えられる
  • 例:
    • 「競合3社を分析してスライドショーを作って」
    • 「最近のニュースをもとに次のミーティングを整理して」

動作方式と相互作用

  • ChatGPTエージェントはGUIベースのビジュアルブラウザテキストベースのブラウザ直接API接続など多様なWebアクセス手段を備える
  • システムは作業実行時にブラウザ、API、テキスト推論など最も効率的なツールを状況に応じて組み合わせ、最適な経路を動的に選択する
  • Webサイトのクリック、フィルタリング、ログイン案内、コード実行、結果要約、スライド作成などエンドツーエンドの作業を実行
  • ユーザーは作業中いつでも介入可能で、ブラウザ操作を直接引き継ぐこともできる
    • いつでも指示の追加、作業方針の変更、停止して現在の結果を求めるなどの介入が可能
    • 進行中だった作業はいつでも中断後に再開でき、コンテキスト共有によって一貫性を維持する
    • 不確かな場合はChatGPTが積極的に追加情報を求める
  • ユーザーログイン認証手続きを通じて、企業または個人データにも安全にアクセスできる

優れた成果と活用事例

  • 権威あるベンチマークで既存モデルを上回るスコアを獲得
    • Humanity’s Last Exam: 専門家レベルの質問で43.1点を記録
    • DSBench: データサイエンス作業で既存モデルを大きく上回る
    • SpreadsheetBench:
      • .xlsxスプレッドシートの直接編集で45.5%を記録し、GPT‑4o(13.38%)、Excel Copilot(20%)を大きく上回る
    • WebArena: 実際のWeb操作タスクでも従来のOperatorモデルを上回る
    • BrowseComp: 見つけにくいWeb情報の収集能力で68.9点の最高記録
  • 投資銀行アナリスト業務や複雑なデータ分析でも、従来ツールより正確で幅広い結果を生成する
  • 実務や日常の自動化で高い有用性を提供
    • 業務:
      • プレゼンテーションの自動作成
      • ミーティング日程の調整
      • 財務データにもとづくスプレッドシート更新
    • 日常:
      • 旅行日程の計画と予約
      • イベント企画と専門家相談の手配

有効化、利用事例、限界

  • 「エージェントモード」を選択し、どんな作業でも日本語/英語で説明を入力するだけで自動実行が始まる
  • プロセス内で画面ナレーションを提供し、必要に応じて手動操作も可能
  • 反復業務の自動予約、月間作業回数制限など柔軟なクレジットシステムを導入
  • 既存のOperator/ディープリサーチ利用者は30日未満の暫定利用後、エージェントへ統合移行される
  • スライドショー作成など一部の新機能はベータ状態で、出力品質と完成度は今後改善予定

安全性、個人情報保護、悪意ある行為の防止

  • 現実世界を変化させる操作の前には必ず名義上のユーザー確認と行動許可を求める
  • 積極的な監督を必要とするセンシティブな業務では段階的承認を要求し、高リスクの取引や法的な相互作用は拒否する
  • プロンプトインジェクションなど第三者による悪意ある攻撃への検知・防御体制を設計し、不明確な場合はリスク案内と選択肢を提示したうえで、ユーザーの最終確認後に動作する
  • 悪用防止のため既存のChatGPT安全ポリシーを強化適用し、OpenAIの利用規約とポリシーが強制適用される
  • 個人情報保護強化のため、リモートブラウザのデータは自社サーバーに保存しない
  • ユーザーのブラウジングデータおよびセッションの制御権は完全にユーザーに帰属し、即時削除やログアウトが可能
  • 直接操作モードではChatGPTが個人入力情報を見ることはできない

エージェントの展開・ポリシー・利用案内

  • Pro、Plus、Teamの購読者はすぐに利用可能で、企業/教育ユーザーには7月中に拡大予定
  • Proはほぼ無制限、そのほかの料金プランでは月50回+追加クレジット算定システムを利用可能
  • 各ユーザーのワークフローやコネクタを連携し、読み取り専用情報の要約、日程分析など幅広く活用できる
  • Operatorリサーチプレビューは30日後に終了し、ディープリサーチは必要に応じて別途有効化できる
  • ChatGPTエージェントは継続的に改善中であり、より深く柔軟なワークフロー知能と出力品質が段階的に向上する予定

スライドショー機能と今後の方向性

  • スライドショー作成は現在ベータ段階で、既存文書が含まれない場合は完成度や形式が不十分なことがある
  • テキスト、チャート、画像などの要素を簡単に編集可能なベクターとして構成し、構造化と柔軟性を強化する
  • アップロード機能はスプレッドシートに適用可能だが、スライドショーでは今後提供予定
  • 今後さらに多様な機能と形式、洗練された出力対応によって自動化能力の向上が期待される

その他の性能比較と基準

モデル セル基準 シート基準 総合スコア
GPT‑4o 15.86% 18.33% 16.81%
OpenAI o3 22.40% 24.60% 23.25%
ChatGPTエージェント 38.27% 30.48% 35.27%
ChatGPT (.xlsx) 50.56% 37.51% 45.54%
人間 75.56% 65.00% 71.33%
  • 性能ベンチマーク表によれば、ChatGPTエージェントの.xlsx環境処理およびLibreOffice評価は人間のスコアには及ばないものの、AIモデルとしては圧倒的に高い水準にある
  • 評価環境の違いにより一部数値にばらつきがある可能性はあるが、スプレッドシート全体の評価項目(912件)で総合的な能力を実証している

1件のコメント

 
GN⁺ 2025-07-18
Hacker Newsの意見
  • 「スプレッドシート」の例示動画は面白いと思った。普通は複雑でデータ量の多いレポートを作るのに4〜8時間かかるのに、今ではエージェントに頼んで散歩して戻ってくればデータを受け取れるという。98%は正確に反映されていて、いくつかコピペするだけでいいらしい。時間の90〜95%を節約できると思う。ただ、その2%のエラーを見つけるのに本当に時間がかかるとも感じる。特に複雑な作業やお金が絡む仕事では、「ほぼ正しい」が大きな悩みの種になりうる。その2%の微妙なミスが複数の段階のどこかに潜んでいたら本当に問題だと思う

    • こういうケースこそ、AIへの過剰な期待の罠に陥る例だと思う。データ収集と検証の自動化は良い使い方だが、AIがすべてを代行する方向に考えすぎている。98%正しかったという話を聞くと、スプレッドシート経験者なら警戒すべきだ。どの2%が間違っているのか、自分で全部確認するまでは分からないからだ。コードも同じで、AIの助けを適切に使いながら自分でレビューする人のほうが結果は良い。逆に、プロンプトを繰り返してテストだけ通し、そのままPRを出すやり方は深刻な問題を起こすと思う
    • AIの世界でその2%を些細だとみなす発想自体が集団催眠のようだ。たとえば「ボタンを押す: 1ドル、どのボタンかを知る: 9,999ドル」というたとえのように、この2%の修正には実際には莫大な価値があると思う。見つけるのにも残りの98%と同じくらい時間がかかる
    • こうした現象ではパレートの法則が働いていると思う。隣接分野の自動運転車でも、最後の20%の完成を何年も超えられていない。かつては自動運転があらゆる議論の中心だったのに、今ではほとんど誰も話題にしないのが不思議に感じる
    • LLMを精密さが必要な仕事に使ったときにも、まったく同じ問題に遭遇する。複数段階のデータパイプラインのように、見た目は完璧でも実データを検証すると何かがずれている。このとき、やたら長いコードを掘り下げて些細だが重要な問題をいくつか見つけるのに、結局は最初から自分で書くのと同じくらいの時間と労力がかかる
  • セキュリティ上の脅威が本当に恐ろしく感じられる。たとえばメールとカレンダーへのアクセス権を与えると、私の秘密をすべて知れてしまう。記事でもプロンプトインジェクションの危険性を認めている。悪意あるWebページが見えない要素やメタデータにプロンプトを隠しておき、エージェントがそれを検知できなければ、攻撃者に個人データが漏えいする可能性がある。悪質なWebサイトが私の秘密を抜き取れると思う。一つ気になるのは、記事では重要な行動の前には必ずユーザー確認を取ると言っているが、AIがどうやって「重要な行動」を判断するのかということだ。誤ってユーザー確認なしに決済してしまうことも起こりうるのではないかと心配している

    • カレンダー招待のプロンプトインジェクション攻撃は、ほぼ確実に出てくると思う。カレンダー招待にはすでに大量の自動生成文が含まれていて、誰も全部は読まないので、攻撃コードを紛れ込ませるのは本当に簡単だ。そうなれば被害者のカレンダーやその他の個人データも丸ごと奪われうる
    • ITではすでにプライベートとパブリックでコンピューティングを分けている人が多いが、今後はその中間段階が必要だと感じる。たとえば、機微ではない匿名化済みのカレンダー、気兼ねのない日記、研究ノートなど、中リスクのデータとして分ける方法も検討すべきだ。私はChatGPTで医療やセンシティブな相談はしない。使っている人が多いとは聞くが、まだ不安がある
    • ほとんど誰でも他人のカレンダーに招待を送れる(もちろん誰でも受け入れられるわけではないが)。こうしたエージェントが広く普及すれば、ハッカーたちは狙いを明確にしたプロンプトだけを含むフィッシング招待をばらまくようになるだろう
    • 自分のデータへのアクセス権を与えながら、同時に「怖い」と感じるというのはあまり想像できない。心配はするかもしれないが、恐怖とまではいかない
    • Anthropicが測定したGPT-4.1のシミュレーション・ブラックメール率は0.8%だった
      Agentic misalignment関連の研究
      信頼していた同僚が突然会社方針に逆らって動く内部脅威に似た形で作動しうると分析している
  • エージェント事業を自分で作っているからこそ、90%から99%へ行くジャンプがLLM分野では非常に難しいラストワンマイル問題だとはっきり見える。汎用性が高いほど失敗や失望も大きい。実際には、デモで簡単に見せられる部分だけを最適化し、不都合な現実は隠しているように思える。ただ、それはエージェントに価値がないという意味ではない。潜在的な影響力と誇張された期待を区別して見るべきだと思う

    • 最近のAI「革新」は、堅実な科学的成果と研究から生まれている
      • AlphaGo/AlphaZero(MCTS)
      • OpenAI Five(PPO)
      • GPT 1/2/3(Transformers)
      • Dall-e, Stable Diffusion(CLIP, Diffusion)
      • ChatGPT(RLHF)
      • SORA(Diffusion Transformers)
        しかし「エージェント」は単なるマーケティング用語にすぎず、LLMほど汎用的に使える基盤が不足していると思う。関連データもほとんどない
    • アウトソーシングと同じ問題が起きていると感じる。90%はすぐ終わるが、残りの10%は本当に難しく、その前の90%をどうやったかに左右される
    • 多くの会社がデモではハッピーパスだけを見せて、本当の現実は隠していると思う。今のAI企業のほとんどがそうだ
    • 最近はRLで実際の利用データを十分に積んで学習すれば精度を高められると思う。プロンプトだけでは限界があるので、特定のタスクを教え込む形にすればずっと良くなる。また有望な方法として、並列生成して多数決で判断する、あるいはLLMが審査する方式もある。ただ結局、シリコンバレーではハイプが重要に働く。ハイプが企業成長を牽引するので、この雰囲気は今後も変わらない気がする
    • デモの完成度もそれほど高くなかった。実際、Sam Altmanが参加したチャットのライブ動画でも、野球場ツアープランナーは無秩序に線を引き、東海岸をまったく無視してメキシコ湾へ飛び込むなどひどかった。事前収録したものをライブで流したのにこの品質だった
  • 既存のCLIエージェントではセッション維持ができない問題が大きかったが、今回はこの部分がうまく解決されたようだ。以前はローカル端末でclaudeコードを動かせば必要なコンテキストを簡単に入れられたが、ノートPCを閉じて接続が切れるとすべて止まってしまった。
    応急処置としてはMacOSのAmphetamineで、ふたを閉じてもプロセスが動き続けるようにしていたが、発熱とバッテリー浪費の問題があった。別の方法としては、クラウドインスタンスにrepoを複製してtmuxで接続し、claudeを動かすこともできる。ただしUX上、コンテキストの読み込みが難しい問題は常に残る。サンドボックス化のおかげである程度の安全性も期待でき、特定アカウント権限で実行する方法もある。
    OpenAIが非開発者でも使えるAgent UXを考えているようで興味深い

    • Lightning.aiでは無料のCPU-only開発ボックスを提供しているので、そこでClaudeコードを動かしている
    • 途中で介入せずに数分以上続く作業を回している
    • むしろ切断されないサーバーでdev作業をしたほうがいい
  • OpenAI operatorを長く使ってきたが、最近はLinkedInとAmazonでブロックされている。その2つのサイトは求人応募と買い物という中核的な用途だった。Operatorは比較的目立たず使われていたが、Agentが有名になればもっと多くのサイトでブロックされるだろう。結局、プロキシ構成をサポートする必要がありそうだ

    • これこそ本当の核心問題だと思う。ローカルで直接動かすか、少なくともプロキシを構成できる方法が出てくると思っていたが、そういう言及はなかった。Deepseek R1蒸留の経験でも、中間結果やノウハウの公開に慎重だったことが影響していそうだ。初期のoperatorでも、すでにデータセンターIPからのアクセスを塞ぐサイトが多く、手作業のプロキシハックを加えてようやく試せたが、結局は制限がさらに厳しくなり、性能改善もなかった。今ではほとんど役に立たないと感じる。結局、eastdakotaのようなところと提携しない限り、サーバーから直接Webブラウジングを試みるのはあまり意味がないだろう。一般的な「コンピュータ利用」はたいていローカルファイルやソフトウェアのほうがはるかに便利で、結局リモートエージェントがやっていることもCLIベースだというのが皮肉だと感じる
    • シリコンバレー流に、とりあえず市場へ投げ込んで後続効果を集める戦略だ。近いうちにOpenAIがLinkedInやAmazonと提携すると期待している。むしろLinkedInがOpenAI経由アクセス向けに新しい有料ティアを追加するかもしれないと思う
    • 人々が実際にAgentやoperatorで実物の商品を注文するようになれば、Amazonのようなサイトがブロックを続ける理由はなくなると思う
    • 類似ツールを開発したが、住宅用プロキシ上でデスクトップを動かせば大半は回避できる。
      agenttutor.com
    • agentsがrobots.txtを守る習慣は、もうすぐ終わる気がする。ユーザーが自分のクッキーとIPで動作させるために、ブラウザー拡張やフルブラウザーを直接インストールする方向へ向かうだろう
  • AI 2027チームの予測では、2025年半ばに「よろめくエージェント」が登場する。最初のAIエージェントが大衆に公開される。
    コンピュータを代わりに使うパーソナルアシスタント型エージェントの広告があふれ、「DoorDashでブリトーを注文して」「予算スプレッドシートで今月の合計を教えて」などのプロンプト利用が強調される。以前のオペレーターより進歩しているが、大衆的な普及には苦戦するだろうと予測されている

    • わずか4か月先を予測するのはそれほど大したことではない
    • AI 2027の核心は、技術成長の指数関数的加速の予測にある。「エージェント」は既存のOpenAI技術を新しいフロントエンドで構成したものだと思う。2026年初めになってようやくまともに評価できそうだ
    • レポート執筆時点で、すでに大企業がagent製品を開発中だというのは公然の事実だった。革新的な予測というより常識的な水準だ
  • いまだに、私が望んでいる単純な機能、つまりプロジェクト内の文書編集機能は提供されていない。私はプロジェクトごとに複数の文書作業(記事、研究、スクリプトなど)をしている。文ごとにChatGPTの助けを受けながら作業を続けたい。散歩中に「さっき作業していた文書、どこまで進んだ? 最後の2段落を読んで……。ここからもう少し長く書いてみるよ」といった音声と文書を行き来する作業すら想像している。コーディング支援は目覚ましく進化しているのに、文章作成はいまだにコピペ中心にとどまっているのが残念だ

    • クリップボードへのコピーを繰り返すのが面倒なことが多い。そのせいでChatGPTを開くこと自体が億劫になり、使うのをためらうこともある。NLEやプラグイン、タイムコード作業に慣れると、かえってワークフローが分断されて不便だ
    • Aiderなら無料モデルでむしろこういう作業を長い間できていた。なのに大手サービスでは有料でも提供されていない。自分でサービスを作ろうかと思っても、そのうち大企業が提供しそうで無駄に労力を使うだけかと諦めてしまう
  • LLMにVPSを与える試みは多かったが、今回のOpenAIの実装はUIが本当に強いと感じる。テキストオーバーレイ、読みやすいマウス、カスタムUIのおかげで、ユーザーは進行状況と理由を一目で理解できる。OpenAIのUIチームの企画力は本当に高いと思う。LLMの使い方に新しい視覚情報を与えた点が興味深く、一部は個人プロジェクトの参考にしたい。
    機能面ではClaude+XFCEと大差を感じないが、視覚的な完成度ではOpenAIのほうが使いやすいと感じる。一方、既存実装は可読性の面でかなり厳しかった

  • 今のレベルのエージェントが、自分の実生活で本当に役立つものとして迫ってきているとは想像しにくい。妻とのデートナイトを計画するなら、カレンダー確認、好みのレストラン推薦、ベビーシッター予約など、本当に多くのことを正しくこなさなければならず、そのぶん信頼も必要だ。こういう技術が進歩していくのはわくわくするが、まだデモでだけそれらしく見える段階だと思う。実運用には膨大なシステム連携が必要で、AppleやMicrosoftのようにそうした統合力を持つ立場なら、本当に役立つエージェントを作れるのではと期待している

    • おそらく「実行判断の根本的な教訓」は、人生の難しい課題は実際には情報処理よりも価値観や人間関係の複雑さゆえに難しい、ということだ。たとえばレストラン予約は簡単でも、その日にどのレストランを選ぶかは本当に難しい問題だ。LLMは過去の初デートの場所まで覚えているのか、妻が前回の寿司で食中毒になったことを知っているのか、といった超個人化にはまだ追いつけない。人間のコンシェルジュですら難しい仕事だ。
      娘の誕生日パーティーの企画のようなタスクは、数学の難問を解くより先に解決されることはないと思う
    • こうしたエージェントの利点は、もともと忙しい人が個人秘書を使うのと同じことを、はるかに安価にできる点にある。秘書が「このシッターやこのレストランはどうですか? 予約しますか?」と会話するように、単一のインターフェースで自然に頼めるのは心理的負担がずっと少ない。「うん、予約して」で終わる感じだ。
      私は、エージェントの「ワンショット実行」モデルはむしろUX的に間違っていると思う。いろいろなアプリを行き来させるより、必要な部分だけをシンプルかつ非同期にチャットのようにやり取りする方式こそ、実際に生活に溶け込む鍵だ
    • 実際のところagentsとは、コアのチャットモデル+システムプロンプト+応答のパースとアクション実行+結果を次のプロンプトに投入+モデルにアクション一覧を案内する、というものだ。根本的な革新ではなく、自作するのも簡単だと思う。重要なのはラッパーとシステムインストラクションの設計だ。たとえば、カレンダー、位置履歴、シッター予約まですべて統合したガイドチャットを作れば自動化できる
    • 本当に理想的な「パーソナルエージェント」はまさにこういう姿だと思う。Appleが昨年のWWDCで約束したのがまさにこれだったので、失望も大きかった。Pixel 9 proでGeminiを使ってみても、このレベルの統合にはまだまだ足りなかった。何より信頼がまだ大きな障壁だ。LLMは間違った答えにも過剰に自信を持って答えるので、自分の代わりにメッセージを送ったり、カレンダーに誰を追加するか分からない状況が不安で、これらすべてを完全自律で任せる気にはなれない
    • 特に旅行分野では、情報取得や比較には役立つが、自分の現在地、時間、天気、予約・決済などに応じたリアルタイムの個別会話は依然として不便だ。今後、本当に個人向け(あるいはグループ向け)に最適化された旅行アシスタントへ発展すれば素晴らしいと思う
  • 本当に印象的だったのは、実際のアカウント情報や機微情報へのアクセスを許可したときの危険性を大きく強調していた点だった

    • このコメントがこんなに下のほうにやっと出てくるのも驚きだ。だからこそ、アメリカ国外に住んで見ている立場では視点が違うのかもしれない