6 ポイント 投稿者 GN⁺ 2025-01-24 | 1件のコメント | WhatsAppで共有
  • OpenAIが新たに披露したOperatorは、独立してWebを探索し、作業できるAIエージェント
    • 独自のブラウザを使用してWebページを見て、入力・クリック・スクロールを通じて相互作用
  • 研究プレビュー段階のため、まだ制限があり、ユーザーフィードバックを通じて発展していく予定
  • 独立して作業を遂行できるAIで、ユーザーが作業を指示するとそれを実行する初期のエージェントの1つ
  • 反復的なブラウザ作業(例: フォーム入力、食料品の注文、ミーム作成など)を処理し、時間節約を図る
  • 米国在住のProユーザー向けに先行公開中で、今後Plus、Team、Enterprise版やChatGPT内への統合の可能性あり

Operatorの動作方式

  • 新しいモデルであるComputer-Using Agent(CUA)を基盤としている
  • GPT-4oのビジョン機能と強化学習ベースの高度な推論方式を組み合わせ、GUI(ボタン、メニュー、テキストフィールドなど)との相互作用を可能にする
  • スクリーンショットを通じてブラウザ画面を「見て」、マウスとキーボードで操作しながら作業を実行できる
  • 作業中にエラーや難所に直面すると、自己修正推論を活用するか、必要に応じてユーザーに操作を引き継ぐ協調方式を取る
  • WebArena、WebVoyagerなどのブラウザ活用ベンチマークで高い性能を示しており、詳細は研究ブログで確認できる

使い方

  • 望む作業を簡単に説明すれば、Operatorがその作業を自動で進める
  • 途中でいつでもユーザーが直接ブラウザの操作権を取り戻せる
  • ログイン、決済情報の入力、CAPTCHAの解決などの機微な段階では、Operatorは直接対応せず、ユーザーが自ら処理する必要がある
  • サイトごと、または全サイトに対する設定を通じて、ユーザーの好みや嗜好を反映できる
  • よく使うプロンプトを保存し、頻繁に行う作業(例: Instacartで食料品を再注文するなど)をすばやく実行できる
  • 複数のタブのように複数の作業を同時に処理でき、会話セッションを分けて異なる作業を並行できる

エコシステムとユーザー

  • OperatorはAIを単なるツールではなく、デジタル生態系の能動的な参加者へと発展させる
  • DoorDash、Instacart、OpenTable、Priceline、StubHub、Thumbtack、Uberなどと協業し、実際のユーザーニーズと業界標準を反映している
  • 公共部門でも業務効率とアクセシビリティ向上のため適用可能性を検討しており、例としてCity of Stocktonと市行政サービスでの活用策を模索している
  • InstacartのChief Product OfficerであるDaniel Dankerは、Operatorによる容易な注文プロセスについて前向きな評価を述べている

安全性とプライバシー

  • Operatorは安全性を最優先に考え、3つの層の安全装置を用意している
    • ユーザー主導の制御: 機微情報(ログイン、決済など)を入力する際は、Operatorがtakeoverを求め、ユーザー自身が情報を入力するよう促す
    • 重要な操作前の確認: 注文送信、メール送信のような重要な作業の前には、ユーザー承認を求める
    • 作業制限: 銀行業務や就職関連の意思決定のように機微性が高い作業は、Operatorが拒否するよう学習されている
    • 機微なサイトにアクセスする際には、Watchモードを通じてユーザーがOperatorの動作を直接監視できる
  • データプライバシー管理機能を提供
    • 「Improve the model for everyone」を無効化すると、Operatorのデータもモデル学習に使用されない
    • 設定内のPrivacyセクションで、ブラウジングデータの削除、全サイトからのログアウト、会話履歴の削除などを簡単に実行できる
  • 悪意あるWebサイトからOperatorを保護するための防御体系も適用されている
    • 隠されたプロンプトや悪性コード、フィッシングの試みを検知して無視するよう設計されている
    • 専用の監視モデルが不審な動作をリアルタイムで監視し、必要に応じて作業を中断させる
    • 自動化と人手によるレビューで新たな脅威を発見した際には、すばやく安全装置を更新する
  • 有害な目的で技術が悪用されないよう、Operatorは特定のリクエストを拒否し、ポリシー違反が繰り返されると警告やアクセス遮断が適用される可能性がある
  • まだ研究プレビュー段階である以上、完全ではなく、実運用でのフィードバックを通じて継続的に改善される予定

限界点

  • Operatorは現在初期段階にあり、スライドショー作成やカレンダー管理など、複雑なインターフェース作業では苦戦する可能性がある
  • ユーザーフィードバックは、精度、安定性、安全性の改善に向けた重要な資源として活用される予定

今後の計画

  • CUAのAPI提供を予定しており、開発者が独自のエージェントを構築できる基盤を整える計画
  • 長時間の作業や複雑なワークフローを処理する能力を強化し、Operatorの機能を高度化する予定
  • Proユーザー以外にもPlus、Team、Enterpriseなどへ段階的に拡大し、長期的にはChatGPTに機能を統合して、リアルタイム・非同期の作業実行を支援する計画

1件のコメント

 
GN⁺ 2025-01-24
Hacker Newsの意見
  • 多くの人は、OpenAIのような企業が個人秘書を提供するために資金を投じているのではなく、将来的に人件費を削減するためにAIを訓練していると考えている

    • AIが個人秘書として有用になる頃には、その機能は平均的な人には手の届かない価格で提供されるだろう
  • OpenAI Operatorの公開については意見が分かれている

    • 現在の機能、コスト、潜在的な過剰拡大に対する懐疑的な見方がある一方で、タスク自動化や時間とともに改善していく可能性を前向きに見る声もある
    • 倫理的問題、プライバシー保護、業界への影響についても議論されている
    • 全体として、課題と改善の可能性を認めつつも、慎重な楽観論が見られる
  • Operatorは数か月前のClaudeのComputer Useデモに似ており、VMを実行しなければならないアーキテクチャと、不正確になりがちな傾向がある

    • ClaudeのComputer Use実装は、発表後もAIエージェント業界で大きな反響を呼ばなかった
  • Operatorの安全上のリスクとその緩和に関するスライドには、「ユーザーがアラインメントされていない」という表現がある

    • OpenAIがユーザーを「アラインメントされていない」と見なす例をもっと見てみたいという意見がある
  • ミームを作るような作業に500億ドルを投じることに批判的な意見がある

    • 地球を次の世代にとって住みやすい場所にすることに投資しないことへの残念さが表明されている
  • CogAgent: 中国のオープンソース代替案

    • 論文、コード、モデルへのリンクが提供されている
  • 将来的に製品やモデルが大幅に改善されれば、ChatGPTと会話しながら、夕食の予約、航空券の手配、食料品の購入など、Web上の退屈な作業を処理できるようになるだろうという期待がある

    • このような機能に大いに期待している
  • InstacartやDoordashのような企業が、LLM向けのマーケティング最適化を通じて新しいUIの方向性を開けるのではないかという意見がある

    • たとえば栄養価の高い卵を探すよう指示された場合、エージェントが栄養成分表示を参照して判断を下すことができる
  • 「エージェント」がマウスとキーボードを使い、ピクセルを見て操作する方式はぎこちないという意見がある

    • アプリやサービスが、ユーザーの代わりに実行できる事前承認済みのタスク群を公開する標準があるとよいのではないかと想像している
    • ユーザー権限を追加・撤回できる機能を備えた「アプリストア」という概念を提案している
  • エージェントにはOpen APIsの利用が必要だと強く信じている

    • OpenAPIは、エージェントのためのオープンな世界とインターネットを可能にする完璧な仕様標準だと主張している
    • OpenAIが最初にGPTを公開したときはOpen APIsに基づいていたが、次第にそこから離れてきている
    • これは市場を支配しようとする意図の表れに見え、オープン標準に基づきたくないということだ
    • これは非常に残念なことだ