ディープリサーチ、ディープリサーチ、ディープリサーチの違い
(leehanchung.github.io)- 最近のAIラボは「ディープリサーチ(Deep Research)」という用語を使って、さまざまな機能を発表している
- Google は2024年12月に Gemini 1.5 Deep Research を、OpenAI は2025年2月に Deep Research を、Perplexity はその直後に独自の Deep Research を公開した
- このほか、DeepSeek、Alibaba の Qwen、Elon Musk の xAI なども、チャットボットアシスタントに Search および Deep Search 機能を導入している
- GitHub には 数十件のオープンソースの「ディープリサーチ」実装 が登場している
- これは、2025年の Retrieval-Augmented Generation(RAG) と同様に、「ディープリサーチ」という用語が 明確な定義なしに使われている ことを示している
Deep Research, Deep Search, または単なる Search
> Google : 「ディープリサーチは、AI を使って複雑なトピックを探究し、包括的で読みやすいレポートを提供するものであり、Gemini が複雑な作業を処理して時間を節約する能力をさらに高めていることを示しています。」
> OpenAI : 「ディープリサーチは OpenAI の次世代エージェントであり、ユーザーがプロンプトを与えると、ChatGPT が数百のオンラインソースを見つけて分析・統合し、リサーチアナリスト水準の包括的なレポートを生成します。」
> Perplexity : 「ディープリサーチの質問をすると、Perplexity は数十回の検索を実行し、数百のソースを読み、資料を推論して、自律的に包括的なレポートを提供します。」
- マーケティング用語を除けば、ディープリサーチは次のように定義できる
> ユーザークエリ を受け取り、大規模言語モデル(LLM)をエージェントとして使用 して、反復的に情報を検索・分析 し、詳細なレポートを出力 するレポート生成システム - 自然言語処理(NLP)の用語では「レポート生成(report generation)」として知られている
実装方式
- ChatGPT の登場以降、レポート生成、あるいは「ディープリサーチ」は AI エンジニアリングの主要な焦点となっている
- 筆者は2023年初頭のハッカソンでこれを実験しており、当時は AI エンジニアリングがようやく立ち上がり始めた時期だった
- LangChain、AutoGPT、GPT-Researcher、プロンプトエンジニアリングなどのツールや数多くのデモが、Twitter や LinkedIn で大きな関心を集めた
- しかし、実際の課題は実装の細部にある
- 以下では、レポート生成システムを構築するための一般的なパターンを見ていき、その違いを強調し、さまざまなベンダーの提供内容を分類する
非学習型: 有向非巡回グラフ(DAG)
- 初期には、GPT-3.5 のような LLM にレポートを最初から生成させることは実用的ではないと分かった
- その代わりに、複数の LLM 呼び出しをつなぐために Composite パターンを使う
- ユーザークエリを分解してレポートのアウトラインを生成する
- 各セクションについて、検索エンジンやナレッジベースから関連情報を検索し、要約する
- 最後に LLM を使って各セクションを一貫したレポートに統合する
- GPT-Researcher がその一例である
- このシステムのすべてのプロンプトは「プロンプトエンジニアリング」によって慎重に調整されている
- 評価は主観的な出力確認に依存しており、レポート品質は一貫しない
- うまく動くときは素晴らしいが、常に安定しているわけではない
非学習型: 有限状態機械(FSM)
- レポート品質を向上させるため、エンジニアは DAG アプローチに複雑さを加えた
- 単一パスのプロセスではなく、Reflexion や自己反省(self-reflection)のような構造的パターンを導入し、LLM が自らの出力を見直して改善するようにした
- これは単純な DAG を有限状態機械(FSM)へと変換するものであり、LLM が部分的に状態遷移を導く
- DAG 方式と同様に、すべてのプロンプトは手作業で書かれ、評価は主観的である
- システムが手作業で調整されるため、レポート品質は依然として大きく変動する
学習型: エンドツーエンド
- 以前の方法の欠点である行き当たりばったりのプロンプトエンジニアリングと、測定可能な評価指標の欠如が、変化を求める理由となった
- Stanford の STORM は、DSPy を用いてシステムをエンドツーエンドで最適化することで、こうした問題を解決している
- その結果、STORM は Wikipedia の記事に匹敵する品質のレポートを生成する
学習型: 大規模推論モデル
- LLM の推論能力向上により、大規模推論モデルはディープリサーチにとって魅力的な選択肢になっている
- たとえば OpenAI は、ディープリサーチモデルを次のように訓練している
- LLM-as-a-judge と評価ルーブリックを使って出力を評価
- Google の Gemini と Perplexity のチャットアシスタントも「ディープリサーチ」機能を提供しているが、これらがモデルやシステムをどのように最適化したのか、また実質的な定量評価についての文書は公開していない
- しかし、Google のディープリサーチ製品マネージャーはポッドキャストのインタビューで「特別なアクセス権があります。ほぼ同じモデル(Gemini 1.5)です。もちろん独自の追加トレーニング作業は行っています」と述べている
- これは、ファインチューニング作業の比重がそれほど大きくないことを示唆している
- 一方、xAI の Grok はレポート生成に優れているが、2回の反復を超えて検索していないように見える
- アウトラインのセクションを数回、各セクションを数回検索する方式である
競争構図
- ディープリサーチ機能を提供するさまざまなサービスの能力を評価するために、概念マップを作成した
- 縦軸: リサーチの深さ(以前の結果を基に追加情報を収集する反復サイクルの数)
- 横軸: 学習レベル(手作業で調整されたシステムから、機械学習技術を活用した完全学習システムまで)
- 代表的な学習型システム:
- OpenAI Deep Research: リサーチ作業向けに最適化された強化学習ベースのシステム
- DeepSeek: 一般的な推論とツール使用のために訓練されており、リサーチ要件にも適応可能
- Google Gemini: 幅広く訓練された LLM であり、リサーチに特化しているわけではない
- Stanford STORM: 研究プロセス全体をエンドツーエンドで最適化したシステム
- このフレームワークを通じて、各サービスが反復的リサーチの深さと学習アプローチをどのようにバランスさせているのかを理解できる
結論
- ディープリサーチ技術は急速に進化しており、数か月前には効果がなかった、あるいは実装されていなかった技術が、現在ではうまく適用されている
- しかし、用語の使い方が曖昧であるため、混乱をさらに大きくしている
- この記事が技術的な違いを明確にし、マーケティング用語に振り回されない助けになれば幸いである
2件のコメント
> 同僚が「AlphaGOはイ・セドルに勝ったが、イ・セドルのほうがはるかに優れた自動運転アルゴリズムを持っている」と冗談を言っていた。
しかし、イ・セドルは一人しかおらず、複製できない
Hacker Newsの意見
Han Xiaoが提案したDeepSearchとDeepResearchの区別は非常に興味深い
同僚が「AlphaGOがイ・セドルに勝ったが、イ・セドルのほうがはるかに優れた自動運転アルゴリズムを持っている」と冗談を言っていた
OpenAIと他社が提供しているものの違いをうまく捉えているようだ
AIはますます多様化しており、さまざまなエージェントが生まれる可能性がある
Grokはレポート生成に優れていると言われており、表形式で回答を求めることで比較しやすくなる
DRは情報を収集し、焦点を絞った出発点から実際の調査を行うための良い方法である
OpenAI Deep ResearchとPerplexityのDeep Researchを比較すると、「狭く深い」対「浅く広い」という違いがある
Deep Search/Researchを通じてさまざまなワークフローを試してみた
STORMは高く評価されたが、GPT Researcherはそうではなかった
インターネット上で最大級の情報整理プラットフォームだが、それでも製品を説明する別の言葉が見つからない