- Tongyi DeepResearchは、OpenAI DeepResearchと同等の性能を示す初の完全オープンソースのウェブエージェントであり、複雑な情報探索ベンチマークで最高水準の結果を記録
- Tongyi LabはAlibaba GroupのAI研究開発部門の一つで、大規模言語モデル(LLM)やマルチモーダルモデル、エージェント(Agent)技術などに注力し、QWENモデルを生み出した組織
- Agentic Continual Pre-training(CPT)、Supervised Fine-Tuning(SFT)、Reinforcement Learning(RL) を統合したエンドツーエンド学習パイプラインを構築
- 完全な合成データ基盤の大規模QA生成とIterResearchパラダイムを通じて、長期的な推論能力と計画能力を強化
- ReActモードとHeavyモードをサポートし、単純な推論から複雑な多段階リサーチまで対応、GRPOアルゴリズムベースの強化学習で安定した性能を確保
- 実際にGaode MateやTongyi FaRuiなどAlibabaの内外のサービスに適用され、オープンソースAIリサーチエージェントの実用性と拡張可能性を実証
チャットボットから自律エージェントへ
- Tongyi DeepResearchは、OpenAI DeepResearch級の性能を達成した初の完全オープンソースのウェブエージェント
- Humanity’s Last Exam(HLE) 32.9、BrowseComp 43.4、BrowseComp-ZH 46.7、xbench-DeepSearch 75点を記録
- 既存のすべての商用およびオープンソースのDeep Researchエージェントを上回る
- モデルだけでなく、データ合成ベースの学習手法全体も公開
- Agentic CPT、SFT、RLを含む全工程の自動データ生成および強化学習インフラを提供
- ReActフレームワークにより、プロンプトエンジニアリングなしでも強力な内在能力を発揮
- Heavy Modeでは、複雑な計画・推論能力の限界値を実演
合成データベースの継続的事前学習と事後学習
- Agentic CPTを導入し、エージェント型の基盤モデルを構築
- AgentFounderシステムを通じて大規模データ合成と循環型データフライホイールを実現
- データ再構成と質問生成の段階で、文書、クロールデータ、知識グラフ、ツール呼び出し記録などを統合
- これをエンティティ中心のオープンワールド知識メモリとして再構成し、多様な形式の(質問、回答)ペアを生成
- 行動合成(Action Synthesis) を通じて一次および高次の行動データを生成
- 多段階の意思決定構造をモデル化し、意思決定能力を強化
-
事後学習(Post-training)データ
- 完全自動化された合成QA生成パイプラインを構築
- WebWalker、WebSailor、WebShaperなど一連の研究を通じて、グラフベース合成と難易度制御型QAデータを生成
- ランダムウォークベースの知識グラフと表データ融合により、現実的な情報構造を確保
- エンティティ統合などの「原子演算」を通じて難易度を体系的に調整
- 集合論ベースの問題形式化で、情報構造と推論構造の不一致を最小化
- 自動データエンジンで博士レベルの研究課題を生成
- 学際的な知識基盤から出発し、反復的に複雑性を高めるループを通じて高難度QAを生成
- ReActとIterResearchフレームワークを活用して多様な推論パターンを学習
- IterResearchは各ラウンドごとにワークスペースを再構成し、長期計画能力を強化
ロールアウトモード
- モデルはReActモードとHeavyモードの2つの実行方式をサポート
-
Native ReAct Mode
- Thought–Action–Observationの循環構造に従い、プロンプトエンジニアリングなしでも優れた性能を発揮
- 128Kコンテキスト長で多数のインタラクションラウンドを処理可能
- シンプルさと汎用性が、モデルの内在能力を評価する明確な基準を提供
- 「The Bitter Lesson」の原則に従い、スケーラブルな一般手法を採用
-
Heavy Mode
- IterResearchパラダイムベースで複雑な多段階リサーチ課題を実行
- 各ラウンドごとに重要な結果だけを保持し、新たなワークスペースを再構成
- 中央レポートを継続的に更新し、高品質な推論を維持
- Research–Synthesisフレームワークを通じて、複数のリサーチエージェントの結果を並列探索してから統合
- 制限されたコンテキスト内で、より広い探索経路を確保
エンドツーエンドのエージェント学習パイプライン
- Agentic CPT → SFT → RLへと続く完全統合型学習ループを構築
- On-policy強化学習(RL) 段階でGroup Relative Policy Optimization(GRPO) アルゴリズムを使用
- トークン単位のポリシー勾配損失、leave-one-out戦略、負例サンプルフィルタリングなどで安定性を確保
- 学習中の報酬上昇と高いポリシーエントロピー維持により探索を継続
- 合成データがBrowseCompなどの人手アノテーションデータより一貫した分布を提供し、学習効率を向上
-
インフラ構成
- 合成学習環境: オフラインWikipedia DBとカスタムツールセットを用いたシミュレーション環境を構築
- 安定したツールサンドボックス: キャッシュ、リトライ、バックアップAPIでツール呼び出しエラーを防止
- 自動データキュレーション: 学習ダイナミクスに応じたリアルタイムのデータ合成・フィルタリングで安定性と性能を向上
- 非同期On-policyフレームワーク: rLLMベースのステップ単位非同期RLループを実装
- この過程を通じて自己進化型AIエージェント学習ループを完成させ、複雑で動的な環境でも安定した問題解決が可能
実際の適用事例
- Gaode Mate(地図・ナビゲーションエージェント)
- Amapチームと協力して「Xiao Gao」AIコパイロットを開発
- 多段階推論により、旅行日程、ペットフレンドリーな宿泊先を含む経路などの複合計画を実行
- Tongyi FaRui(法務リサーチエージェント)
- 判例検索、法令のクロスチェック、分析統合など、弁護士レベルの多段階リサーチを実行
- すべての結論は検証可能な司法資料に基づき、正確な引用を含む
限界と今後の課題
- 128Kコンテキストの限界により、超長期タスク処理に制約
- 30B規模のMoEモデル以上への拡張性検証が必要
- 強化学習効率の改善に向けて、部分ロールアウトおよびオフポリシー学習の研究を計画
シリーズ研究
- WebWalker、WebDancer、WebSailor、WebShaper、WebWatcherなど、関連論文11本を公開
- 直近6か月間は毎月技術レポートを発行し、今回はTongyi DeepResearch‑30B‑A3Bモデルとともに新規レポート6本を同時公開
- 次世代エージェント型モデルの開発を継続予定
1件のコメント
Hacker Newsのコメント
複数のエージェントを並列で動かし、探索・抽出は軽量モデルが、計画・ツールルーティング・検証は30Bモデルが担う構成が効率的だ
MoEの 専門化された構造 は分散型エージェントAIによく合うが、リトライ・合意形成・多段階Webリサーチ評価のためのオーケストレーションが必要になる
大規模モデルが大きくなりすぎて事前学習の限界に達するなら、目的別モデルがさらに増えるかもしれない
GPT‑3.5はチェスに強かったのに最近のモデルはそうではないのを見ると、学習データの トレードオフ があるようだ
小型モデルを特定用途向けにファインチューニングするのはコストが高く、大規模モデルの進化速度が速すぎてすぐに置いていかれる
ただし進化の速度が鈍れば 小型モデルの訓練 に再び意味が出てくるだろう
以前からSvelteKitのような特定フレームワークだけに詳しい4B〜8Bモデルがあればいいと思っていた
大規模モデルの品質が常に上とは限らず、小型モデルがGPU1枚で動くならはるかに実用的だと思う
昔、兄にチェスLLM比較サイトのアイデアを提案したが、まだ実装されていない
実際に試すと 幻覚の手 が多かった
必要な部分だけを 個別に学習 して改善できる点が利点だ
自分の経験では検索エンジンの要約レベルを超えられず、平板なレポートを生成するだけだ
弁護士レベルではないが、予算のないプロジェクトには大きな助けになる
実際に学ぼうとする人向けというより、「品質が高そうに見える」 コンサルティングレポート のような感じで、実質的な価値は低い
「このテーマはすでに研究されているのか?」のような問いに対して、参考になる例を探す助けになる
自分でのリサーチを完全に置き換えるわけではないが、初期の情報整理には大いに役立つ
Qwen3 4Bは自分の Intel内蔵GPU でもよく動いて印象的だった
以前「有害コンテンツ検知用の超低価格モデル」というアイデアを考えたことがあるが、こうした小型LLMがその役割を果たせそうだ
また、ルーティング用にも使えそうだ
ただしCSSプロパティ
word-break: break-word;のせいで読みづらすぎる2080Tiで128GB VRAM(?) を使って、遅くてもいいから動かしてみたい
制約があるほうがむしろ楽しいと思う
32GB版をAliExpressで150〜250ドルで手に入れられ、複数枚まとめれば128GB VRAM構成も可能だ
最新GPUほど速くはないが、十分実用になる
ollama.com からインストールできる
ただ、2080Tiで128GB VRAMというのはどういう構成なのか気になる
速度は遅いが、オフラインでもよく動くし、コーヒーショップでも使える
Ollamaを使っているので、最新モデルは移植されるまで待つ必要がある
Ryzen 9 9950X, 96GB RAM, RTX 3090を2枚, 1600W PSU
FP8量子化された30Bモデルを無理なく動かせる
このモデルは30B MoEだがアクティブパラメータは3B程度で、Qwen3 MoE と似ている
自分は11年前のi5‑6600とRadeon 6600(8GB)で4bit量子化モデルを動かしており、16kコンテキストで約12tpsほど出る
実行スクリプト例 も共有している
openrouter.ai/alibaba/tongyi-deepresearch-30b-a3b
「同意」と発音は同じだが意味は異なる
Alibaba Qwen公式ページ 参照
GPT‑5, GPT‑4o, o3など、どのモデルを使うかによって結果は変わる
検索ベースの長時間実行タスクとして、5〜10分かけて資料を集め、引用付きレポート を生成する
Tongyiモデルはこのようなループ型の検索・レポート作成に特化している