ディープリサーチ、ディープリサーチ、ディープリサーチの違い

(leehanchung.github.io)

6 ポイント投稿者 GN⁺ 2025-03-06 | 2件のコメント | WhatsAppで共有

最近のAIラボは「ディープリサーチ（Deep Research）」という用語を使って、さまざまな機能を発表している
Google は2024年12月に Gemini 1.5 Deep Research を、OpenAI は2025年2月に Deep Research を、Perplexity はその直後に独自の Deep Research を公開した
このほか、DeepSeek、Alibaba の Qwen、Elon Musk の xAI なども、チャットボットアシスタントに Search および Deep Search 機能を導入している
GitHub には 数十件のオープンソースの「ディープリサーチ」実装 が登場している
これは、2025年の Retrieval-Augmented Generation(RAG) と同様に、「ディープリサーチ」という用語が 明確な定義なしに使われている ことを示している

Deep Research, Deep Search, または単なる Search

> Google : 「ディープリサーチは、AI を使って複雑なトピックを探究し、包括的で読みやすいレポートを提供するものであり、Gemini が複雑な作業を処理して時間を節約する能力をさらに高めていることを示しています。」
> OpenAI : 「ディープリサーチは OpenAI の次世代エージェントであり、ユーザーがプロンプトを与えると、ChatGPT が数百のオンラインソースを見つけて分析・統合し、リサーチアナリスト水準の包括的なレポートを生成します。」
> Perplexity : 「ディープリサーチの質問をすると、Perplexity は数十回の検索を実行し、数百のソースを読み、資料を推論して、自律的に包括的なレポートを提供します。」

マーケティング用語を除けば、ディープリサーチは次のように定義できる
> ユーザークエリ を受け取り、大規模言語モデル（LLM）をエージェントとして使用 して、反復的に情報を検索・分析 し、詳細なレポートを出力 するレポート生成システム
自然言語処理（NLP）の用語では「レポート生成（report generation）」として知られている

実装方式

ChatGPT の登場以降、レポート生成、あるいは「ディープリサーチ」は AI エンジニアリングの主要な焦点となっている
筆者は2023年初頭のハッカソンでこれを実験しており、当時は AI エンジニアリングがようやく立ち上がり始めた時期だった
LangChain、AutoGPT、GPT-Researcher、プロンプトエンジニアリングなどのツールや数多くのデモが、Twitter や LinkedIn で大きな関心を集めた
しかし、実際の課題は実装の細部にある
以下では、レポート生成システムを構築するための一般的なパターンを見ていき、その違いを強調し、さまざまなベンダーの提供内容を分類する

非学習型: 有向非巡回グラフ（DAG）

初期には、GPT-3.5 のような LLM にレポートを最初から生成させることは実用的ではないと分かった
その代わりに、複数の LLM 呼び出しをつなぐために Composite パターンを使う
ユーザークエリを分解してレポートのアウトラインを生成する
各セクションについて、検索エンジンやナレッジベースから関連情報を検索し、要約する
最後に LLM を使って各セクションを一貫したレポートに統合する
GPT-Researcher がその一例である
- このシステムのすべてのプロンプトは「プロンプトエンジニアリング」によって慎重に調整されている
- 評価は主観的な出力確認に依存しており、レポート品質は一貫しない
- うまく動くときは素晴らしいが、常に安定しているわけではない

非学習型: 有限状態機械（FSM）

レポート品質を向上させるため、エンジニアは DAG アプローチに複雑さを加えた
単一パスのプロセスではなく、Reflexion や自己反省（self-reflection）のような構造的パターンを導入し、LLM が自らの出力を見直して改善するようにした
これは単純な DAG を有限状態機械（FSM）へと変換するものであり、LLM が部分的に状態遷移を導く
- DAG 方式と同様に、すべてのプロンプトは手作業で書かれ、評価は主観的である
- システムが手作業で調整されるため、レポート品質は依然として大きく変動する

学習型: エンドツーエンド

以前の方法の欠点である行き当たりばったりのプロンプトエンジニアリングと、測定可能な評価指標の欠如が、変化を求める理由となった
Stanford の STORM は、DSPy を用いてシステムをエンドツーエンドで最適化することで、こうした問題を解決している
- その結果、STORM は Wikipedia の記事に匹敵する品質のレポートを生成する

学習型: 大規模推論モデル

LLM の推論能力向上により、大規模推論モデルはディープリサーチにとって魅力的な選択肢になっている
たとえば OpenAI は、ディープリサーチモデルを次のように訓練している
- LLM-as-a-judge と評価ルーブリックを使って出力を評価
Google の Gemini と Perplexity のチャットアシスタントも「ディープリサーチ」機能を提供しているが、これらがモデルやシステムをどのように最適化したのか、また実質的な定量評価についての文書は公開していない
しかし、Google のディープリサーチ製品マネージャーはポッドキャストのインタビューで「特別なアクセス権があります。ほぼ同じモデル（Gemini 1.5）です。もちろん独自の追加トレーニング作業は行っています」と述べている
これは、ファインチューニング作業の比重がそれほど大きくないことを示唆している
一方、xAI の Grok はレポート生成に優れているが、2回の反復を超えて検索していないように見える
アウトラインのセクションを数回、各セクションを数回検索する方式である

競争構図

ディープリサーチ機能を提供するさまざまなサービスの能力を評価するために、概念マップを作成した
縦軸: リサーチの深さ（以前の結果を基に追加情報を収集する反復サイクルの数）
横軸: 学習レベル（手作業で調整されたシステムから、機械学習技術を活用した完全学習システムまで）
代表的な学習型システム:
- OpenAI Deep Research: リサーチ作業向けに最適化された強化学習ベースのシステム
- DeepSeek: 一般的な推論とツール使用のために訓練されており、リサーチ要件にも適応可能
- Google Gemini: 幅広く訓練された LLM であり、リサーチに特化しているわけではない
- Stanford STORM: 研究プロセス全体をエンドツーエンドで最適化したシステム
このフレームワークを通じて、各サービスが反復的リサーチの深さと学習アプローチをどのようにバランスさせているのかを理解できる

結論

ディープリサーチ技術は急速に進化しており、数か月前には効果がなかった、あるいは実装されていなかった技術が、現在ではうまく適用されている
しかし、用語の使い方が曖昧であるため、混乱をさらに大きくしている
この記事が技術的な違いを明確にし、マーケティング用語に振り回されない助けになれば幸いである

2件のコメント

halfenif 2025-03-10

> 同僚が「AlphaGOはイ・セドルに勝ったが、イ・セドルのほうがはるかに優れた自動運転アルゴリズムを持っている」と冗談を言っていた。

しかし、イ・セドルは一人しかおらず、複製できない

GN⁺ 2025-03-06

Hacker Newsの意見

Han Xiaoが提案したDeepSearchとDeepResearchの区別は非常に興味深い
- DeepSearchは最適な答えを見つけるまで検索、読解、推論を繰り返すプロセスである
- DeepResearchはDeepSearchに構造化されたフレームワークを追加し、長い調査レポートを生成する
- DeepSearchのほうがより価値があり、興味深いパターンだと思う
- DeepResearchは結果を「レポート」として包装する化粧効果にすぎず、不正確または誤解を招く結果を生む可能性が高い
同僚が「AlphaGOがイ・セドルに勝ったが、イ・セドルのほうがはるかに優れた自動運転アルゴリズムを持っている」と冗談を言っていた
- 時間の経過とともに、最先端のAIシステムと一般的な人間の「平均的な能力」との大きな差を強調している
OpenAIと他社が提供しているものの違いをうまく捉えているようだ
- GoogleのGemini 2.0 FlashもGoogle検索とネイティブ統合されている
- OpenAIのDRは特定のタスク向けにモデルを訓練する傾向がある
- モデル + 追加の強化学習RLを製品として提供する方向に進んでいる
- genspark MOAは与えられたプロンプトに対する詳細なレポートを生成する
AIはますます多様化しており、さまざまなエージェントが生まれる可能性がある
Grokはレポート生成に優れていると言われており、表形式で回答を求めることで比較しやすくなる
- Amazonは比較する製品を選ぶが、比較項目が良くない
- Grokを使って列を追加または削除し、応答を短くできる
DRは情報を収集し、焦点を絞った出発点から実際の調査を行うための良い方法である
- LLMがこれを実行したからといって、より賢くなったわけではない
- LLMは主題をより深く理解しているわけではない
- 情報を統合し適用するための、より深い能力が必要である
- Transformerアーキテクチャの限界により、リアルタイム学習は難しい
OpenAI Deep ResearchとPerplexityのDeep Researchを比較すると、「狭く深い」対「浅く広い」という違いがある
- OpenAIは高品質なソースを選び、特定のトピックを深く掘り下げる
- Perplexityは多くのソースを使って表面的な問題空間を提供する
- OpenAIのほうが時間がかかる
Deep Search/Researchを通じてさまざまなワークフローを試してみた
- 命令型（ソースを直接選んでレポートを生成）と宣言型（DFS/BFSアルゴリズムを使用）というアプローチがある
- STORMのようなシステムのエンドツーエンドのフローに魅了される
STORMは高く評価されたが、GPT Researcherはそうではなかった
- GPT Researcherはさまざまな予算に合わせて構成できる
インターネット上で最大級の情報整理プラットフォームだが、それでも製品を説明する別の言葉が見つからない