OpenAI Deep Researchの問題点
(ben-evans.com)> 「OpenAIのディープリサーチは私のために作られたようなものだが、私は使えない。素晴らしいデモのように見えるが、結局は案の定問題が起きる。そしてその問題の現れ方がかなり興味深い。」 - ベネディクト・エバンス
- 私が主にしている仕事はリサーチと分析である
- 欲しいデータを探し、整理したうえでチャートを作り、そこから洞察を得てテキストとチャートで表現する
- こうして作った成果物をもとに人々と話し合うプロセスである
- OpenAIのDeep Researchは、こうした**「リサーチ業務」**を自動化するソリューションのように見える
- 私はこのツールが実際に適しているのか気になり、テストしてみようとした
- ちょうどDeep Researchが提示したサンプルレポートのテーマが「スマートフォン市場」で、私がよく知る分野だった
- サンプルレポートに示された表は、見た目には素晴らしく見えた
- しかしまず必要なのは、**「そのデータはどこから来たのか」**という根本的な問いである
- Deep Researchは出典として「Statista」と「Statcounter」を挙げていたが、どちらの出典にも問題がある
- Statcounterはトラフィックベースの統計であり、デバイス利用量の偏りによって特定プラットフォームが過大または過小に反映される傾向がある
- StatistaはSEO最適化を活用して他の出典を再加工しており、実際の出典は別に存在する
- これは「出典はGoogle検索結果です」と言うのと大差ない
- 例として日本市場のiOS/Androidシェアの数値を見ると、Deep Researchは「iOS 69%、Android 31%」と示している
- Statcounter自体も、この1年以内に69%という数値を出したことがない
- Statistaの背後にある実際の出典はKantar Worldpanelだが、Kantarが提供する数値はほぼ正反対である(約Android 63%、iOS 36%)
- 一方、日本の政府機関資料(リンク、25ページ)は「約53% Android、47% iOS」としている
- しかもKantarの数値は月ごとに20ポイントも変動することがあり、「ハードウェアの実際の導入比率」を示すデータとは見なしにくい
- こうした差異をすべて確認するには、結局その表のすべての数字を再検証しなければならない
- この場合、そもそもツールを使う理由である**「時間節約効果」が大きく失われる**
- 結局、Deep Researchが表に入れたデータを盲信するのは難しい
- ここで問題になるのは、「LLMはデータベースではない」という点である
- LLMは確率的な方法で質問の意図を把握するのは得意だが、特定の出典から正確な数値を抽出するような「決定論的」作業には弱い
- Deep Researchは「どの意味での市場シェアを求めているのか」を正しく理解し、信頼できる出典から正しい数値を持ってくる必要があるが、それができていなかった
- これはすなわち、**「LLMはコンピュータが苦手な部分(文脈理解)は得意だが、コンピュータが得意な部分(正確な情報抽出)は苦手である」**という現象を示している
- OpenAIはユーザーの意図を推論する役割と、正確な情報収集の役割を同時に担わせようとしているが、現状ではずれが生じている
- しかもサンプル自体がOpenAI側の販促用に提示された資料であるにもかかわらず、誤りが見つかる
- 一部の人は**「モデルは徐々に改善されるのだから良くなるだろう」**と言うかもしれない
- しかし表が85%正しくても、残り15%が誤っていれば、なお全体の信頼性は低い
- 100%近くに達して初めて「完全自動化されたリサーチ」が可能になるが、その地点に本当に到達できるのかについては懐疑的である
- それでも、この技術がまったく役に立たないという意味ではない
- 自分がよく知るテーマであれば、20ページのレポートを素早く生成したうえで、誤りだけを自分で修正する形で時間を節約できる
- 私はLLMを**「無限のインターン」**と呼んでいるが、インターンが持ってきた下書きには校正が必要なのと似ている
- コンピュータは心の自転車だというSteve Jobsの言葉を引用しつつ、人間の能力を補助する道具として活用するとよいだろう
- ただし根本的には2つの問題がある
- モデルが誤る可能性を前提にした製品を作るべきなのか、それともモデル自体を信頼できるようになると想定すべきなのかが不明確である
- OpenAIのような企業は、巨大資本以外に特別な参入障壁や製品力(コーディング・マーケティング分野以外)を持てていない状態である
- Deep Researchのような試みが単なる「テキストボックス + API」以上の「製品」になるには、エラー管理や利用文脈の問題を解決しなければならない
- Perplexityのような競合も現れており、最終的にはLLMを抽象化したAPIを基盤として、他のソフトウェアがエラー率を管理するシナリオが有力である
- 結論として、Deep Researchは興味深い試みではあるが、まだ信頼性を担保するのは難しく、業界がどの方向へ発展するのかも確かではない
まだコメントはありません。