- OpenAIが発表したDeepResearchは、Web検索を通じてコンテンツを要約し、質疑応答を実行する
- GAIAベンチマークで高いスコアを達成し、注目を集めた
- 強力なLLMと内部的なエージェントフレームワークを組み合わせ、Webブラウジングなど多様なツールを段階的に活用する
- OpenAIがエージェントフレームワークの詳細を公開していないため、これをオープンソースで再現するべく24時間にわたる実験を行った
エージェントフレームワークとは何か、なぜ重要なのか?
- エージェントフレームワークは、LLMの上に追加レイヤーを置き、ブラウジングやPDF読み取りなどさまざまなアクションを実行できるようにする構造
- LLMを単なるチャット形式で使うよりも、エージェントシステムと組み合わせることで、はるかに強力になる
smolagents のようなライブラリでシンプルなエージェントフレームワークを適用するだけでも、性能は大幅に向上する
- OpenAI DeepResearchもこの方式を活用して優れた性能を得ている
GAIAベンチマーク
- GAIAは、エージェント性能を評価するための非常に難しいベンチマーク
- 例として、「Embroidery from Uzbekistan」に登場する果物を、ある船の昔の朝食メニューと結び付けて順番に並べるという複雑な質問が提示される
- 単一のLLMだけでは7%程度にとどまるが、DeepResearchは67%以上を達成し、大きな差を見せた
- GAIAの問いは、マルチステップ推論、情報検索、マルチモーダル処理などを必要とするため、エージェント型アプローチの真価を試すのに適している
Open Deep Researchを構築する
- DeepResearch方式を再現するため、オープンソースLLMとエージェントフレームワークを組み合わせる実験を行った
- 目標は、シンプルなテキストベースのWebブラウザやファイル閲覧ツールなどでGAIA性能を高めること
- CodeAgentを利用
- CodeAgent方式は、JSONではなくコードの形でアクションを表現する
- Wang et al. (2024) の研究によれば、コード表現は圧縮的で直感的であり、LLMに最適化された利点がある
- ステップ数が減ることでコスト削減効果があり、マルチモーダルな状態管理にも有利
- 適切なツールを作る
- 1つ目のツール: テキストベースのWebブラウザ
- Operatorのような豊富な機能はまだ実装していないが、初期段階としてシンプルなブラウジング機能のみを提供する
- 2つ目のツール: テキストファイル形式を閲覧するためのインスペクタ
- シンプルな文書処理ツールによって内容を読む機能を提供する
- 今後は、より細かなファイル形式のサポート、Webブラウジング時のビジョンモデル連携、GUIエージェント導入などを計画している
結果
- 24時間以内の再現実験で、GAIAベンチマーク54%水準に到達した
- JSONの代わりにコード表現を使った場合、スコアは33%から54%へ上昇した
- 公開された
smolagents フレームワークとツールを使って、誰でも再現できる
- Operator級のブラウザや強力なローカルモデルなどを組み合わせれば、さらに改善の余地が大きい
コミュニティによる再実装
dzhng, assafelovic, nickscamara, jina-ai, mshumer など、さまざまな実装がコミュニティで登場している
- それぞれ異なるライブラリを活用したり、異なる検索・インデックス方式を試したりしている
- 今後は、オープンLLM、ビジョンモデル、コードベースのアクション表現などを活用した再現結果を共有しながら発展させていきたい
最も重要な次のステップ
- OpenAIのOperatorのような高度なWebブラウザ機能を支援するためのGUIエージェントを作ることが重要
- 画面を見てマウスとキーボードで操作する機能をオープンソースで提供したい
smolagents、OpenAI Operatorなどと連携して完成度を高める計画
- GAIAスコアの向上、オープンLLM活用、視覚的Webブラウジングの実装などが主要課題
まだコメントはありません。