ChatGPTのGPT-5思考(Research Goblin)は検索に強力
(simonwillison.net)- GPT-5ベースのChatGPT(通称 Research Goblin)は、ウェブ検索において非常に高いレベルの正確性と有用性を示す
- 一般的な trivial な質問から複雑な情報調査まで、幅広いトピックで強力な探索および推論能力を発揮する
- 実例では、膨大な検索プロセスと連鎖推論を通じて信頼できる回答と資料を提供する
- モバイル環境でも優れた使い勝手と継続的な作業フローを体験できる
- Tool calling と chain-of-thought の統合により、開発者視点でLLMベース検索の新たな標準を提示する
GPT-5思考(Research Goblin)と検索革新
変化する検索パラダイム
- これまでは「チャットボットを検索エンジンのように使うべきではない」という助言が主流だったが、最新のGPT-5ベースのChatGPTではこの常識が崩れつつある
- GPT-5ベースのモデルは、Bingのような検索エンジンとの連携を超えて、実質的にインターネット調査を代替または凌駕するレベルに到達している
- 「Research Goblin」というあだ名が付いた理由は、どんな疑問や複雑な課題を与えても、異常なほど執拗に調査して最適な答えを導き出すからである
実際の検索事例と結果
面白い動く通路(Travelators)
- ヒースロー空港のゴム製移動ベルトが金属製に交換された時期を尋ねたところ、2014〜2018年の間と推定し、関連する興味深い2024年の記事まで見つけ出した
建物の特定
- 列車の窓の外に見える異国風の建物について質問すると、**1分4秒で『The Blade(Reading)』**であると正確に確認し、出典リンクも提供した
Starbucks UKのケーキポップ調査
- 英国のStarbucks店舗でなぜケーキポップがないのかを深く調査し、2023年に導入されたが、特定の店舗(特に旅行地の店舗)では取り扱いがないことを突き止めた
- 栄養・アレルギー案内PDFやRedditの議論なども含め、立証資料を総合した
WikipediaとBritannicaの関係
- Wikipediaが初期データとして1911年版 Britannica の出典の一部を使用したというオンライン上の言及の真偽と文脈を深く分析し、関連プロジェクト文書や説明まで追跡して提供した
University of Cambridgeの正式名称
- ケンブリッジ大学の正式な法的名称(The Chancellor, Masters, and Scholars of the University of Cambridge)を根拠資料とともに提示した
- 推論過程を透明に示し、答えの信頼性まで確認できる
Exeter quay の洞窟とレストランの沿革
- エクセター Quay 地域の崖を掘って作られたレストランの内部構造とその歴史について、複数段階の検索とPDF分析を経て、1820〜1830年代に赤砂岩の崖に作られた背景を解明した
- 英語の報告書・図面資料を探し、到達できなかった場合でもメール依頼の下書きまで作成する積極的な探索パターンを見せた
AldiとLidlの比較
- AldiとLidlの英国国内での立地、画像、マーケットランキングなど、市場シェアや消費者評価などの数値まで長く分析した
- ユーザーの要望に応じて、「fanciness(高級感)」基準でもランキングを整理して提供した
AI研究所の書籍スキャン
- Anthropicが大量の書籍をスキャンして学習データを作る事例以外に、他のAI研究所による類似行為の有無は確認できなかったが、その可能性についての探索を詳しく記録した
GPT-5検索の実質的な優秀さ
- GPT-5ベースのChatGPT検索では、手作業に比べて高速で体系的かつ幅広い情報の収集と評価が可能である
- 特にモバイル環境で使い勝手が大幅に改善され、普段の好奇心を満たす用途や日常的な調査業務がいつでもどこでも可能になる
- OpenAIのDeep Research機能を代替できるほど、迅速でありながら豊かな結果を提供する能力を備えている
LLM開発の観点での意味
- Tool calling と chain-of-thought 手法の組み合わせにより、検索と連鎖的推論・追加探索が1回の「思考」段階で自然につながる
- RAG(検索・生成の組み合わせ)技術も、複数段階の柔軟な tool 呼び出しと高度化された検索連携を通じて、はるかに強力に運用できる
- Anthropicの用語ではinterleaved thinkingであり、OpenAI Responses APIでもこれに近いフローをサポートしている
効果的な検索活用のヒント
- 経験的な直感によって検索品質を高められる(「go deep」などのヒントを使うと、より徹底した調査を促せる)
- 明確な答えが存在しない解釈的な質問であっても有益で興味深い結果を導き出す
- 「ゴブリン」という比喩のように、Research Goblin は勤勉だが完全には信頼できない、人間とは異なる検索AIとして活用価値が高い
1件のコメント
Hacker Newsの意見
Simonの文章には同意するが、私は「リサーチ」とはさまざまな形の証拠を比較することを意味すると思う。たとえば、Obamacareの効果、法的判決の予測、アニメーションの影響力分析、オープンソースライブラリの活用法など、さまざまな分野に適用される。ChatGPTや他のLLMは、証拠の評価やソースのバイアスを理解することに苦労しており、特に多くの統計を扱う場合、もっともらしい推論が増えるほどハルシネーションも増える。モデルにはユーザーの観点を支持したがる傾向があり、実際には求められていなくても肯定的に答えようとする。私はいつもChatGPTに出典を直接評価するよう求め、賛成と反対の論点を比較させ、ときにはモデルに反論して反応を見る。詳しい体験談はブログで確認できる
Perplexityで自分のモニターの最適設定を探そうとしたところ、簡潔な設定一覧と理由を提示してくれた。しかしソースを確認すると、公式情報や根拠はなく、Samsungのフォーラムでユーザーたちが推測したり議論したりしている投稿しかなかった。ソースの信頼度に応じたconfidence ratingが提供されるとよいと思うが、それを実装するのは本当に難しそうだ
ChatGPTやLLMは、表面的な「常識」を繰り返して言うことが多い。何度も追加質問して、本当にそれが根拠に基づくのか、ソースは何か、抜粋情報を出してほしい、ハルシネーションではないかを再確認する。かなりの頻度で、最初の回答が完全に間違っていたことが明らかになる。ほとんどの人はこうした最初の回答をそのまま受け入れてしまうのだろう
たとえば、十分に調査したうえで購入判断をしようとするとき、マーケティング的な意見が大半を占め、反対のシグナル(Redditの否定的コメントやYouTubeのコメントなど)が十分に補完されないため、本当に難しいと感じる
GPT-5(o3モデルなど)は、最も批判的な視点を持つLLMの1つだ。学術的・技術的な依頼に対しては、特別なプロンプトがなくても情報源を引用し、異なる結果を比較できる。Grok 4の初期バージョンは分析なしに記事を要約するだけで、Claude Opus 4もJSライブラリ一覧の依頼に対して利用率中心の文書を返すなど、核心から外れていた。GPT-5はもちろん完璧ではないが、平均的な人間よりは優れている
LLMで「リサーチ」という単語が機能セットの表現に使われていることについて、どう思うのか聞きたい。実際の研究を十分に代表する用語なのか、それとも米国の選挙シーズンによく使われていた「do your research」という慣用句に近いレベルなのかが気になる
Google検索(特にudm=14でAI要約を無効化した場合)は、依然としてかなり良い体験だと思う。たとえばBritannicaやWikipediaに関する質問でも、GoogleとWikipediaでそれぞれ1〜2秒以内に結果が得られ、60秒ほどあれば自分で欲しい内容を素早く見つけられた。一方でChatGPTは、処理とは独立して約3分かかり、自分で結果を確認してハルシネーションかどうかをチェックしなければならない。結局のところ、LLMがXという作業をできるのは印象的だが、自分で検索してから整理するほうがはるかに効率的だと感じる
最近の経験からすると、少し違う意見だ。Google AI要約を切らないと確かに体験は悪くなる。たとえばGitHubのrepoを探すとき、Googleは実際のページを見つけられず、的外れなリンクばかり出してきた。GPTは時間はかかるが、調査範囲によっては利点があると思う。StarCraft2のユニット移動のような掘り下げたテーマでは、GPTで一度に要約・説明・コードソースまで続けて依頼できる点が便利で、ミスのフィルタリングも自分で十分にできる。将来は、あらゆるインターネット探索がLLMベースの補助として提供されるようになる気がする
Googleで"Rubber bouncy at Heathrow removal"を検索すると3件のリンク結果が出たが、ChatGPTは証拠提示にいくらかハルシネーションがあったようだ。画像の逆検索やStarbucksのポップ価格の検索も、自分で探したほうが効果的だと感じる。それでも人々がChatGPTを好むのは、Web情報を一度に答えてくれる利便性のためだ。たまにハルシネーションがあっても、このコストを受け入れる方向に進んでいる。かつてWikipediaより図書館を信頼していたように、LLMの進化が新たなパラダイムシフトになるかもしれないと思う
私の提案としては、Googleの実験をするときは、最も答えにくい例で試してみることを勧めたい
私は簡単な質問をGPT-5 Autoモードでしてみたところ、2秒で回答を始め、読みやすい速度で正確なリンクを2つ提示してくれた。Thinkモードでは2分ほどかかったが、さまざまなソースを比較し、すべての要約に根拠を添えていた。実際に見つけにくい地方政府の情報や、複雑なオープンソースPRの分析などでGPTをうまく活用している。大量の提案書を自分で読む手間を代わりに引き受けてくれるので、本当に便利だと感じる
もし人々がWebに直接アクセスせず、エージェントとのやり取りしかしなくなったら、Webの姿はどう変わるのだろうか。これから面白い変化の時代だ
Redditの"Tip of My Tongue"サブで、記憶に残っている昔の情報を探すのによく使っていたが、全部が解決するわけではなかった。Deep Research機能で、解けなかった4つの問題を1時間で解決し、5つ目も自分で手がかりを見つけられるようになった。論理推論には不足があっても、数十件の検索結果を素早く消化し、緩い説明だけからでも関連情報を取り出せる点は本当に強力だ。今ではRedditのスパムボットやルールを守らないユーザーを気にせず、数分でこうした検索パワーに触れられる
私もChatGPTはリサーチに優れていると思うが、表面的で、しかも潜在的に間違った答えを出す病的なケースが時々ある。客観的な一次ソースがオンラインにあっても間違うことがあるので、関連ブログを共有する
あなたが書いているケースは、実際とは違うと思う。あなたの意見は論文群と異なっていて、それをブログにまとめ、ChatGPTに自分の観点を受け入れてほしい形に見える。客観的な評価には限界があるように思える
最近のChatGPTは不安定になったと感じる。半分以上の回答で根拠を作り出したり、文脈を忘れたり、単純に間違ったりする。Aistudioでは30万トークンを超えてもGemini/Aistudioが文脈をよく維持するのに、ChatGPTは大量の情報に弱い感じがする
私にも似た経験が多い。GPT5 Thinkingに切り替えると少し良くなるが、o3やo1に比べると何かを見落とす傾向がある。たとえばBotchan小説の温泉エピソードをGPT5に尋ねたら、微妙に間違った説明をした。実際の小説では主人公が温泉で泳ぎ、その後で禁止標識のせいで恥をかくのだが、GPT5は規則の説明のほうにだけ集中していた
あなたの文章は興味深く、議論に適していると思う。正直、GPTはもっと良い答えを出せたはずだと思うが、リサーチをどの時点で打ち切るべきかという議論にも意味がある。普通は信頼性の低いソースまで全部受け入れると議論が終わらなくなるだろう。結局のところ、一般的に合意された結論で止めるのが妥当なトレードオフだと思う
以前の"heavy"モデルは百科事典級の知識を内蔵していた一方で、最近の"lighter"モデルはWeb検索に依存して浅い情報だけを伝えているように感じる。膨大なオフライン文書を記憶したモデルの強みが恋しい
私はまったく逆だ。モデルの内在知識はハルシネーションかもしれないので、常に別途検証リサーチが必要になる。一方で、LLMが検索から要約まで先にやってくれれば、ソースだけ確認すればよいのでずっと便利だ。Kagi Assistantはこの役割をうまく果たしている
長い間検索機能をオフにして使っていたが、最近はカスタム命令にWeb検索/内部知識使用モードを追加した。xzと入力したらWeb検索、xxなら内部知識のみを使う。セッション内で自由に切り替えられる設定だ
検索なしのモデルは重く、検索ベースのモデルは軽いが最新の実データに依存する。私は両方を行き来していたが、最近はソースベースのライトモデルのほうを好むようになった
実際の知識は外部に保存されている。だから大学で図書館が重要な存在なのだ。エージェントも記憶だけでは十分ではない
私もある程度そう感じる。ライトなWeb検索モデルが、各ページごとに既出情報と新情報、ページごとに主張されている根拠事項と不一致を区別したビューを提供したら面白そうだ
著者はインターネットで答えを見つけるために「不合理なほど多い作業」を処理していて、そのような計算資源の浪費を喜んで受け入れているように見えるのが不思議だ。本当にそれが目標なのか、無条件に正しい答えを見つけるために莫大なリソースを投じる「wild goose chase」が正当化されるのか疑問だ
ChatGPTは本当に驚異的だが、高校教師や大学教授はこうしたツールの使用で苦労しそうだ。たとえば「『指輪物語』がGormenghastの影響を受けた証拠を可能な限り集めて、深く調査せよ」という課題を出せば、学生たちは自動的にディープリサーチを使うだろう 共有例
直接ファクトチェックしたのか、すべてのリンクをクリックしてソースを確認したのか気になる。私も以前、ChatGPTが何かを「解決した」と自慢していたことがあったが、実際にはWikipediaの情報で、それも間違っていたことがある
学校で不正行為をする学生の大半は怠け者で、地位など気にしないので、質の高い課題には関心がない。時間のかかるThinkingモードを使う理由がない
ChatGPTの回答で
steel-manのような新語が使われていたのが面白かった教師向けワークショップでソクラテス式質問法を教え、子どもたちがGoogle/ChatGPTで得た情報を自分で論証できるよう支援するアイデアが浮かぶ。LLMリサーチで増幅された知識を自分の言葉で述べながら、現在の知識レベルを整理するアプローチだ
こうした回答はBrave searchに入れれば数秒で解決する質問なのに、LLMだと驚くほど時間がかかることがある
私はBraveが好きだが、検索結果はいまひとつだった。AI機能も悪くはないが、欲しい実際の結果がほとんど出てこない
最近はSEO最適化された低品質サイトが壁のように多くて、私はそんなに簡単には納得できない
Chat+Searchを使えば、広告、クリック、コンテンツファーム、マルウェアの心配なしに、すぐ答えを得られる利点がある
これがChatGPTの「Web Search」「Deep Research」「Agent Mode」のどの機能なのか混乱する。機能構成が実に面白い
Deep SearchでもAgent Modeでもない。私は「GPT-5 Thinking」を選び、通常の検索ツールだけを有効にしている
私の経験では、結果は単に「Redditを検索してコメントを載せたもの」に近い
「ChatGPT 5 Pro」も忘れてはいけない。Deep Researchとは少し違う
私はただのデフォルトモードだと思う。わざわざWeb検索オプションをオンにしなくても自動で検索する。なぜ別オプションがあるのか不思議だ
私の感覚では、少なくともプロフィールレベルでWeb検索が有効になっているChatGPT 5 Thinkingモードだ。最近の情報やリサーチ依頼があると、ChatGPTは深く考えながら調査する傾向がある
私が聞いているポッドキャストの収益が気になった。フェニックス出身の2人のコメディアンがフォロワーなしで始め、今ではAppleチャート上位に来ている。以前は調べても明確な答えがなかったが、GPT-5は「無理やり」と言えるほど大量のリサーチを行い、さまざまなソースを相互検証したうえで、信頼できる範囲まで示してくれた
それで、その範囲はいくらだったのか気になる
最近はGPTもより冗長な回答を出すようになった気がする。Google Geminiは無駄な論文を持ち出すことがあるし、ChatGPTも情報性より冗長なレポートを返す傾向が出てきた。おそらく人々がこうした長い報告書風の応答をより信頼するようになったからだろう。しかも、詳しい根拠や数値が出ていても、検証しやすい答えとしにくい答えがある。LLMを多用すると自分のリサーチ能力が衰えるのではないかと心配だ。また、MCPを試していて感じたのは、とんでもなく多くのリソースを消費することだ。こうしたディープリサーチはOpenAIが赤字覚悟で安く提供しているように見えるので、後で値上げ幅が大きければ、依存そのものが危うくなるかもしれないとも思う