- OpenAIがChatGPTに導入した新しいエージェント型機能「Deep Research」
- インターネット上の膨大な情報を収集・分析・統合し、複雑な課題を数十分以内に自動で解決する役割を果たす
- 今後のAGI達成に向けた中核的なステップとして、新しい知識を創出できる「知識統合」能力は不可欠
Deep Researchを作った理由
- 高度な知識労働(金融、科学、政策、エンジニアリングなど)から大型消費財の購入リサーチまで、徹底的で信頼できる調査結果が必要なユーザーのために開発
- 多様なオンラインソースから、表に出にくいニッチな情報や直感的ではない事実も素早く見つけ出して文書化できる
- 専門レベルの研究を自動化し、業務生産性を大きく高められるようにする
Deep Researchの使い方
- ChatGPTのメッセージ入力欄でDeep Researchモードを選択
- 依頼(例: 競合分析、カスタマイズされた製品推薦など)とともに、必要なファイルやスプレッドシートを添付可能
- Deep Researchは5分から最長30分にわたってインターネットを探索し、詳細なレポートを作成する
- 作業の進行中は、段階別の要約と参照元が表示されるサイドバーを通じて過程を確認できる
- 最終成果物は広範な引用付きのレポート形式で提供され、今後は画像・データ可視化なども含まれる予定
動作原理
- OpenAI o1の推論能力を拡張した次世代モデル(OpenAI o3ベース)を活用し、複雑なブラウジングや分析作業に対応
- 複数段階の計画立案、情報収集、中間フィードバックの反映を自律的に実行
- ユーザーがアップロードしたファイルにもアクセスし、Pythonツールを用いたグラフ作成などの分析作業を進められる
- 文単位で出典を引用し、正確性と透明性を高める
Humanity’s Last Examでの評価
- 最近公開された大規模評価であるHumanity’s Last Examで26.6%の正答率を記録し、従来モデルを上回る優れた性能を示した
- 3,000問以上の専門家レベルの問題で構成され、複数の学問分野を網羅している
- 化学、人文・社会、数学分野で従来モデル比の大きな改善を示した
- 比較対象としてGPT-4o、Grok-2、Claude 3.5 Sonnet、Gemini Thinking、OpenAI o1など複数モデルがあったが、Deep Researchモデルが26.6%で最も高い正確度を示した
- GPT-4oは約3.3%、Claude 3.5 Sonnetは4.3%、OpenAI o1は9.1%だった
GAIAベンチマーク
- GAIAは、Webブラウジング、マルチモーダル処理、ツール使用能力をすべて必要とする現実世界の質問を評価する指標
- Deep Researchモデルはこのベンチマークで従来の最高性能を更新
- GAIAの問題は難易度を1〜3レベルに分けており、Deep Researchはすべての難易度で従来最高記録を上回るスコアを示した
- 具体的には従来記録比で各レベルにおいておおむね6〜8%程度改善し、全体平均も上昇した
専門家レベルの作業
- 社内評価では、数時間にわたる手作業の調査を置き換えられるほど高い自動化レベルを示した
- モデルはより多くの資料をブラウズし、より長く考えるほど性能が向上するため、計算に十分な時間を与えることが重要
制限事項
- 一部で事実関係の誤りや誤った推論(hallucination)が依然として発生する可能性がある
- うわさと信頼性の高い情報源の区別が苦手で、不確実性の表現が正確でない場合がある
- リリース初期にはレポートや引用形式がやや洗練されていない可能性があり、実行時間が長くなる場合もある
アクセスと利用
- 現在Deep Researchは計算コストが高いため、まずProユーザー向けに提供され、月最大100回まで利用可能
- まもなくPlusおよびTeamユーザーにも順次開放される予定
- 英国、スイス、欧州経済領域(EEA)のユーザーには今後サポートを拡大する計画
- 今後はより高速で効率的な小型モデル版を通じて、すべての有料アカウントのリクエスト上限が大幅に増える見込み
今後の計画
- Deep ResearchはまずChatGPTのWeb版で利用可能で、モバイル・デスクトップアプリにもまもなく搭載予定
- 今後はサブスクリプション型データや内部リソースにも接続し、よりパーソナライズされた成果物を提供する計画
- Deep ResearchをOperatorと組み合わせることで、オフライン/オンラインの実作業まで自動で実行する高度なエージェント体験を構築できると期待される
3件のコメント
Deep Researchを活用して作成した実際のレポート
Hacker Newsの意見
あるユーザーは、自分自身についてのレポートを作成してみたものの、複数の誤りが発生したと述べている。たとえば、Stack Overflowでの評判を誤って認識しており、インタビューの引用も別人から取っていた。
別のユーザーは、言語モデルが完全に正確な回答を提供できないケースが10%ほど発生し、これは信頼を損なう可能性があると指摘している。回答の正確性を確認するのにかかる時間も重要な要素だと強調している。
あるユーザーは、最近Standardが公開したレポート生成プロジェクトと似ていると述べている。
Geminiが数か月前から"Deep Research"という名前でこの機能を提供していることに触れ、AIの世界における名称の重複現象に疑問を呈している。
あるユーザーは、誤りやハルシネーションの問題を認めたとしても、多くの人がそれを見過ごし、結果を自分のPowerPointに貼り付けるだろうと懸念している。こうしたツールが強力になるほど、情報の歪みはさらに深刻になると警告している。
unreleased o3モデルがこの機能を支えており、かなり印象的なモデルだと述べている。Google、DeepSeek、Perplexityに対して先行するモデルだと強調している。
学術分野で働く人々にとって興味深いツールだと述べ、試してみたいがコストが負担だとこぼしている。特定のプロンプトでテストしてくれるよう依頼している。
AGIやASIの前提条件としての能力について疑問を呈している。研究の重要性には懐疑的で、実行結果ではなく回答に依存することを懸念している。
内部テストで通過率が20%にとどまったことに触れ、大量の不正確なテキストをレビューするには時間がかかると指摘している。より反復的なプロセスが必要だと主張している。
ブログで著名な専門家や露出を求める人々が今後も書き続けるのか疑問を呈している。読者がみなボットになってしまう状況を懸念している。
ものすごく期待しています……これがワン・モア・シングですらないなんて……
DeepSeekのイシューはこれで埋もれるのでしょうか