- ChatGPTエージェントは独自の仮想コンピュータを活用し、ユーザーの複雑な作業を最初から最後まで処理する
- OperatorのWebサイト操作能力とディープリサーチの情報分析性能を組み合わせた新しいエージェントシステムを構成し、クリック・入力・コード実行まで柔軟に行う
- ユーザーはエージェントにフォーム送信、予約、ファイル作成などの作業を代行させるよう指示でき、いつでも介入可能
- SpreadsheetBench、DSBench、BrowseCompなど多様な実環境ベンチマークで既存モデルを上回る成果を実証
- Pro、Plus、Teamユーザーは本日から利用可能で、ユーザーデータ制御とセキュリティ機能も綿密に設計されている
ChatGPTエージェント、リサーチとアクションをつなぐ
エージェント機能の導入
- ChatGPTは独自の仮想コンピュータを通じて、ユーザーに代わって複雑な作業を実行できるよう機能が拡張された
- ChatGPTエージェントはOperator(リモートブラウザベースの操作)とディープリサーチ(多段階Web推論ツール)の分析能力を1つのエージェントモデルに統合
- OperatorはWeb上の操作(スクロール、クリック、フォーム入力)に強みがある一方、深い分析やレポート作成には限界があった
- 一方でディープリサーチは分析と要約に特化していたが、リアルタイムのサイト操作や認証が必要なコンテンツへのアクセスはできなかった
- 2つのツールの補完的な強みを統合し、クリック、フィルタリング、データ収集まで単一環境で高い効率性を提供する
- チャットインターフェース内で会話と依頼のあいだを柔軟に切り替えられる
- 例:
- 「競合3社を分析してスライドショーを作って」
- 「最近のニュースをもとに次のミーティングを整理して」
動作方式と相互作用
- ChatGPTエージェントはGUIベースのビジュアルブラウザ、テキストベースのブラウザ、直接API接続など多様なWebアクセス手段を備える
- システムは作業実行時にブラウザ、API、テキスト推論など最も効率的なツールを状況に応じて組み合わせ、最適な経路を動的に選択する
- Webサイトのクリック、フィルタリング、ログイン案内、コード実行、結果要約、スライド作成などエンドツーエンドの作業を実行
- ユーザーは作業中いつでも介入可能で、ブラウザ操作を直接引き継ぐこともできる
- いつでも指示の追加、作業方針の変更、停止して現在の結果を求めるなどの介入が可能
- 進行中だった作業はいつでも中断後に再開でき、コンテキスト共有によって一貫性を維持する
- 不確かな場合はChatGPTが積極的に追加情報を求める
- ユーザーログイン認証手続きを通じて、企業または個人データにも安全にアクセスできる
優れた成果と活用事例
- 権威あるベンチマークで既存モデルを上回るスコアを獲得
- Humanity’s Last Exam: 専門家レベルの質問で43.1点を記録
- DSBench: データサイエンス作業で既存モデルを大きく上回る
- SpreadsheetBench:
.xlsxスプレッドシートの直接編集で45.5%を記録し、GPT‑4o(13.38%)、Excel Copilot(20%)を大きく上回る
- WebArena: 実際のWeb操作タスクでも従来のOperatorモデルを上回る
- BrowseComp: 見つけにくいWeb情報の収集能力で68.9点の最高記録
- 投資銀行アナリスト業務や複雑なデータ分析でも、従来ツールより正確で幅広い結果を生成する
- 実務や日常の自動化で高い有用性を提供
- 業務:
- プレゼンテーションの自動作成
- ミーティング日程の調整
- 財務データにもとづくスプレッドシート更新
- 日常:
- 旅行日程の計画と予約
- イベント企画と専門家相談の手配
有効化、利用事例、限界
- 「エージェントモード」を選択し、どんな作業でも日本語/英語で説明を入力するだけで自動実行が始まる
- プロセス内で画面ナレーションを提供し、必要に応じて手動操作も可能
- 反復業務の自動予約、月間作業回数制限など柔軟なクレジットシステムを導入
- 既存のOperator/ディープリサーチ利用者は30日未満の暫定利用後、エージェントへ統合移行される
- スライドショー作成など一部の新機能はベータ状態で、出力品質と完成度は今後改善予定
安全性、個人情報保護、悪意ある行為の防止
- 現実世界を変化させる操作の前には必ず名義上のユーザー確認と行動許可を求める
- 積極的な監督を必要とするセンシティブな業務では段階的承認を要求し、高リスクの取引や法的な相互作用は拒否する
- プロンプトインジェクションなど第三者による悪意ある攻撃への検知・防御体制を設計し、不明確な場合はリスク案内と選択肢を提示したうえで、ユーザーの最終確認後に動作する
- 悪用防止のため既存のChatGPT安全ポリシーを強化適用し、OpenAIの利用規約とポリシーが強制適用される
- 個人情報保護強化のため、リモートブラウザのデータは自社サーバーに保存しない
- ユーザーのブラウジングデータおよびセッションの制御権は完全にユーザーに帰属し、即時削除やログアウトが可能
- 直接操作モードではChatGPTが個人入力情報を見ることはできない
エージェントの展開・ポリシー・利用案内
- Pro、Plus、Teamの購読者はすぐに利用可能で、企業/教育ユーザーには7月中に拡大予定
- Proはほぼ無制限、そのほかの料金プランでは月50回+追加クレジット算定システムを利用可能
- 各ユーザーのワークフローやコネクタを連携し、読み取り専用情報の要約、日程分析など幅広く活用できる
- Operatorリサーチプレビューは30日後に終了し、ディープリサーチは必要に応じて別途有効化できる
- ChatGPTエージェントは継続的に改善中であり、より深く柔軟なワークフロー知能と出力品質が段階的に向上する予定
スライドショー機能と今後の方向性
- スライドショー作成は現在ベータ段階で、既存文書が含まれない場合は完成度や形式が不十分なことがある
- テキスト、チャート、画像などの要素を簡単に編集可能なベクターとして構成し、構造化と柔軟性を強化する
- アップロード機能はスプレッドシートに適用可能だが、スライドショーでは今後提供予定
- 今後さらに多様な機能と形式、洗練された出力対応によって自動化能力の向上が期待される
その他の性能比較と基準
| モデル |
セル基準 |
シート基準 |
総合スコア |
| GPT‑4o |
15.86% |
18.33% |
16.81% |
| OpenAI o3 |
22.40% |
24.60% |
23.25% |
| ChatGPTエージェント |
38.27% |
30.48% |
35.27% |
| ChatGPT (.xlsx) |
50.56% |
37.51% |
45.54% |
| 人間 |
75.56% |
65.00% |
71.33% |
- 性能ベンチマーク表によれば、ChatGPTエージェントの
.xlsx環境処理およびLibreOffice評価は人間のスコアには及ばないものの、AIモデルとしては圧倒的に高い水準にある
- 評価環境の違いにより一部数値にばらつきがある可能性はあるが、スプレッドシート全体の評価項目(912件)で総合的な能力を実証している
1件のコメント
Hacker Newsの意見
「スプレッドシート」の例示動画は面白いと思った。普通は複雑でデータ量の多いレポートを作るのに4〜8時間かかるのに、今ではエージェントに頼んで散歩して戻ってくればデータを受け取れるという。98%は正確に反映されていて、いくつかコピペするだけでいいらしい。時間の90〜95%を節約できると思う。ただ、その2%のエラーを見つけるのに本当に時間がかかるとも感じる。特に複雑な作業やお金が絡む仕事では、「ほぼ正しい」が大きな悩みの種になりうる。その2%の微妙なミスが複数の段階のどこかに潜んでいたら本当に問題だと思う
セキュリティ上の脅威が本当に恐ろしく感じられる。たとえばメールとカレンダーへのアクセス権を与えると、私の秘密をすべて知れてしまう。記事でもプロンプトインジェクションの危険性を認めている。悪意あるWebページが見えない要素やメタデータにプロンプトを隠しておき、エージェントがそれを検知できなければ、攻撃者に個人データが漏えいする可能性がある。悪質なWebサイトが私の秘密を抜き取れると思う。一つ気になるのは、記事では重要な行動の前には必ずユーザー確認を取ると言っているが、AIがどうやって「重要な行動」を判断するのかということだ。誤ってユーザー確認なしに決済してしまうことも起こりうるのではないかと心配している
Agentic misalignment関連の研究
信頼していた同僚が突然会社方針に逆らって動く内部脅威に似た形で作動しうると分析している
エージェント事業を自分で作っているからこそ、90%から99%へ行くジャンプがLLM分野では非常に難しいラストワンマイル問題だとはっきり見える。汎用性が高いほど失敗や失望も大きい。実際には、デモで簡単に見せられる部分だけを最適化し、不都合な現実は隠しているように思える。ただ、それはエージェントに価値がないという意味ではない。潜在的な影響力と誇張された期待を区別して見るべきだと思う
しかし「エージェント」は単なるマーケティング用語にすぎず、LLMほど汎用的に使える基盤が不足していると思う。関連データもほとんどない
既存のCLIエージェントではセッション維持ができない問題が大きかったが、今回はこの部分がうまく解決されたようだ。以前はローカル端末でclaudeコードを動かせば必要なコンテキストを簡単に入れられたが、ノートPCを閉じて接続が切れるとすべて止まってしまった。
応急処置としてはMacOSのAmphetamineで、ふたを閉じてもプロセスが動き続けるようにしていたが、発熱とバッテリー浪費の問題があった。別の方法としては、クラウドインスタンスにrepoを複製してtmuxで接続し、claudeを動かすこともできる。ただしUX上、コンテキストの読み込みが難しい問題は常に残る。サンドボックス化のおかげである程度の安全性も期待でき、特定アカウント権限で実行する方法もある。
OpenAIが非開発者でも使えるAgent UXを考えているようで興味深い
OpenAI operatorを長く使ってきたが、最近はLinkedInとAmazonでブロックされている。その2つのサイトは求人応募と買い物という中核的な用途だった。Operatorは比較的目立たず使われていたが、Agentが有名になればもっと多くのサイトでブロックされるだろう。結局、プロキシ構成をサポートする必要がありそうだ
agenttutor.com
AI 2027チームの予測では、2025年半ばに「よろめくエージェント」が登場する。最初のAIエージェントが大衆に公開される。
コンピュータを代わりに使うパーソナルアシスタント型エージェントの広告があふれ、「DoorDashでブリトーを注文して」「予算スプレッドシートで今月の合計を教えて」などのプロンプト利用が強調される。以前のオペレーターより進歩しているが、大衆的な普及には苦戦するだろうと予測されている
いまだに、私が望んでいる単純な機能、つまりプロジェクト内の文書編集機能は提供されていない。私はプロジェクトごとに複数の文書作業(記事、研究、スクリプトなど)をしている。文ごとにChatGPTの助けを受けながら作業を続けたい。散歩中に「さっき作業していた文書、どこまで進んだ? 最後の2段落を読んで……。ここからもう少し長く書いてみるよ」といった音声と文書を行き来する作業すら想像している。コーディング支援は目覚ましく進化しているのに、文章作成はいまだにコピペ中心にとどまっているのが残念だ
LLMにVPSを与える試みは多かったが、今回のOpenAIの実装はUIが本当に強いと感じる。テキストオーバーレイ、読みやすいマウス、カスタムUIのおかげで、ユーザーは進行状況と理由を一目で理解できる。OpenAIのUIチームの企画力は本当に高いと思う。LLMの使い方に新しい視覚情報を与えた点が興味深く、一部は個人プロジェクトの参考にしたい。
機能面ではClaude+XFCEと大差を感じないが、視覚的な完成度ではOpenAIのほうが使いやすいと感じる。一方、既存実装は可読性の面でかなり厳しかった
今のレベルのエージェントが、自分の実生活で本当に役立つものとして迫ってきているとは想像しにくい。妻とのデートナイトを計画するなら、カレンダー確認、好みのレストラン推薦、ベビーシッター予約など、本当に多くのことを正しくこなさなければならず、そのぶん信頼も必要だ。こういう技術が進歩していくのはわくわくするが、まだデモでだけそれらしく見える段階だと思う。実運用には膨大なシステム連携が必要で、AppleやMicrosoftのようにそうした統合力を持つ立場なら、本当に役立つエージェントを作れるのではと期待している
娘の誕生日パーティーの企画のようなタスクは、数学の難問を解くより先に解決されることはないと思う
私は、エージェントの「ワンショット実行」モデルはむしろUX的に間違っていると思う。いろいろなアプリを行き来させるより、必要な部分だけをシンプルかつ非同期にチャットのようにやり取りする方式こそ、実際に生活に溶け込む鍵だ
本当に印象的だったのは、実際のアカウント情報や機微情報へのアクセスを許可したときの危険性を大きく強調していた点だった