Tongyi DeepResearch – OpenAI DeepResearchに匹敵するオープンソース30B MoEモデル

(tongyi-agent.github.io)

10 ポイント投稿者 GN⁺ 2025-11-04 | 1件のコメント | WhatsAppで共有

Tongyi DeepResearchは、OpenAI DeepResearchと同等の性能を示す初の完全オープンソースのウェブエージェントであり、複雑な情報探索ベンチマークで最高水準の結果を記録
- Tongyi LabはAlibaba GroupのAI研究開発部門の一つで、大規模言語モデル（LLM）やマルチモーダルモデル、エージェント（Agent）技術などに注力し、QWENモデルを生み出した組織
Agentic Continual Pre-training(CPT)、Supervised Fine-Tuning(SFT)、Reinforcement Learning(RL) を統合したエンドツーエンド学習パイプラインを構築
完全な合成データ基盤の大規模QA生成とIterResearchパラダイムを通じて、長期的な推論能力と計画能力を強化
ReActモードとHeavyモードをサポートし、単純な推論から複雑な多段階リサーチまで対応、GRPOアルゴリズムベースの強化学習で安定した性能を確保
実際にGaode MateやTongyi FaRuiなどAlibabaの内外のサービスに適用され、オープンソースAIリサーチエージェントの実用性と拡張可能性を実証

チャットボットから自律エージェントへ

Tongyi DeepResearchは、OpenAI DeepResearch級の性能を達成した初の完全オープンソースのウェブエージェント
- Humanity’s Last Exam(HLE) 32.9、BrowseComp 43.4、BrowseComp-ZH 46.7、xbench-DeepSearch 75点を記録
- 既存のすべての商用およびオープンソースのDeep Researchエージェントを上回る
モデルだけでなく、データ合成ベースの学習手法全体も公開
- Agentic CPT、SFT、RLを含む全工程の自動データ生成および強化学習インフラを提供
ReActフレームワークにより、プロンプトエンジニアリングなしでも強力な内在能力を発揮
- Heavy Modeでは、複雑な計画・推論能力の限界値を実演

合成データベースの継続的事前学習と事後学習

Agentic CPTを導入し、エージェント型の基盤モデルを構築
- AgentFounderシステムを通じて大規模データ合成と循環型データフライホイールを実現
データ再構成と質問生成の段階で、文書、クロールデータ、知識グラフ、ツール呼び出し記録などを統合
- これをエンティティ中心のオープンワールド知識メモリとして再構成し、多様な形式の（質問、回答）ペアを生成
行動合成(Action Synthesis) を通じて一次および高次の行動データを生成
- 多段階の意思決定構造をモデル化し、意思決定能力を強化
事後学習(Post-training)データ
- 完全自動化された合成QA生成パイプラインを構築
  - WebWalker、WebSailor、WebShaperなど一連の研究を通じて、グラフベース合成と難易度制御型QAデータを生成
- ランダムウォークベースの知識グラフと表データ融合により、現実的な情報構造を確保
  - エンティティ統合などの「原子演算」を通じて難易度を体系的に調整
- 集合論ベースの問題形式化で、情報構造と推論構造の不一致を最小化
  - QA整合性検証の効率を向上
- 自動データエンジンで博士レベルの研究課題を生成
  - 学際的な知識基盤から出発し、反復的に複雑性を高めるループを通じて高難度QAを生成
- ReActとIterResearchフレームワークを活用して多様な推論パターンを学習
  - IterResearchは各ラウンドごとにワークスペースを再構成し、長期計画能力を強化

ロールアウトモード

モデルはReActモードとHeavyモードの2つの実行方式をサポート
Native ReAct Mode
- Thought–Action–Observationの循環構造に従い、プロンプトエンジニアリングなしでも優れた性能を発揮
  - 128Kコンテキスト長で多数のインタラクションラウンドを処理可能
- シンプルさと汎用性が、モデルの内在能力を評価する明確な基準を提供
- 「The Bitter Lesson」の原則に従い、スケーラブルな一般手法を採用
Heavy Mode
- IterResearchパラダイムベースで複雑な多段階リサーチ課題を実行
  - 各ラウンドごとに重要な結果だけを保持し、新たなワークスペースを再構成
  - 中央レポートを継続的に更新し、高品質な推論を維持
- Research–Synthesisフレームワークを通じて、複数のリサーチエージェントの結果を並列探索してから統合
  - 制限されたコンテキスト内で、より広い探索経路を確保

エンドツーエンドのエージェント学習パイプライン

Agentic CPT → SFT → RLへと続く完全統合型学習ループを構築
On-policy強化学習(RL) 段階でGroup Relative Policy Optimization(GRPO) アルゴリズムを使用
- トークン単位のポリシー勾配損失、leave-one-out戦略、負例サンプルフィルタリングなどで安定性を確保
- 学習中の報酬上昇と高いポリシーエントロピー維持により探索を継続
合成データがBrowseCompなどの人手アノテーションデータより一貫した分布を提供し、学習効率を向上
インフラ構成
- 合成学習環境: オフラインWikipedia DBとカスタムツールセットを用いたシミュレーション環境を構築
- 安定したツールサンドボックス: キャッシュ、リトライ、バックアップAPIでツール呼び出しエラーを防止
- 自動データキュレーション: 学習ダイナミクスに応じたリアルタイムのデータ合成・フィルタリングで安定性と性能を向上
- 非同期On-policyフレームワーク: rLLMベースのステップ単位非同期RLループを実装
- この過程を通じて自己進化型AIエージェント学習ループを完成させ、複雑で動的な環境でも安定した問題解決が可能

実際の適用事例

Gaode Mate（地図・ナビゲーションエージェント）
- Amapチームと協力して「Xiao Gao」AIコパイロットを開発
- 多段階推論により、旅行日程、ペットフレンドリーな宿泊先を含む経路などの複合計画を実行
Tongyi FaRui（法務リサーチエージェント）
- 判例検索、法令のクロスチェック、分析統合など、弁護士レベルの多段階リサーチを実行
- すべての結論は検証可能な司法資料に基づき、正確な引用を含む

限界と今後の課題

128Kコンテキストの限界により、超長期タスク処理に制約
30B規模のMoEモデル以上への拡張性検証が必要
強化学習効率の改善に向けて、部分ロールアウトおよびオフポリシー学習の研究を計画

シリーズ研究

WebWalker、WebDancer、WebSailor、WebShaper、WebWatcherなど、関連論文11本を公開
直近6か月間は毎月技術レポートを発行し、今回はTongyi DeepResearch‑30B‑A3Bモデルとともに新規レポート6本を同時公開
次世代エージェント型モデルの開発を継続予定

1件のコメント

GN⁺ 2025-11-04

Hacker Newsのコメント

「ディープリサーチ」向けに公開された 30B MoEモデル は歓迎できる
複数のエージェントを並列で動かし、探索・抽出は軽量モデルが、計画・ツールルーティング・検証は30Bモデルが担う構成が効率的だ
MoEの 専門化された構造 は分散型エージェントAIによく合うが、リトライ・合意形成・多段階Webリサーチ評価のためのオーケストレーションが必要になる
最近 特化型LLM が爆発的に増えるのか気になる
大規模モデルが大きくなりすぎて事前学習の限界に達するなら、目的別モデルがさらに増えるかもしれない
GPT‑3.5はチェスに強かったのに最近のモデルはそうではないのを見ると、学習データの トレードオフ があるようだ
- 現時点では汎用の大規模モデルがほぼあらゆる面で優れている
  小型モデルを特定用途向けにファインチューニングするのはコストが高く、大規模モデルの進化速度が速すぎてすぐに置いていかれる
  ただし進化の速度が鈍れば 小型モデルの訓練 に再び意味が出てくるだろう
- チェスに強いLLMの ベンチマーク を見てみたい
  以前からSvelteKitのような特定フレームワークだけに詳しい4B〜8Bモデルがあればいいと思っていた
  大規模モデルの品質が常に上とは限らず、小型モデルがGPU1枚で動くならはるかに実用的だと思う
  昔、兄にチェスLLM比較サイトのアイデアを提案したが、まだ実装されていない
- GPT‑3.5がチェスに強かったという話には同意しない
  実際に試すと 幻覚の手 が多かった
- seed‑tars.com/game‑tars のリンクを共有している
- MoE構造の要点はまさにこれではないか？
  必要な部分だけを 個別に学習 して改善できる点が利点だ
こうした ディープリサーチツール が実際に役立つのか気になる
自分の経験では検索エンジンの要約レベルを超えられず、平板なレポートを生成するだけだ
- 英国で小さなウェブサイトを運営していて、法令順守のために使ってみたが、文脈を与えるとかなり カスタム化された結果 を返してくれる
  弁護士レベルではないが、予算のないプロジェクトには大きな助けになる
- 自分も似たような経験だ
  実際に学ぼうとする人向けというより、「品質が高そうに見える」 コンサルティングレポート のような感じで、実質的な価値は低い
- レポート自体は平板だが、資料の出典探し には有用だ
  「このテーマはすでに研究されているのか？」のような問いに対して、参考になる例を探す助けになる
- ChatGPTをよく使っているが、質問を投げると関連する ソースの整理 をうまくやってくれる
  自分でのリサーチを完全に置き換えるわけではないが、初期の情報整理には大いに役立つ
- 検索エンジン程度の要約でも、新しいアイデアや unknown unknowns を見つけるには十分使いものになる
以前作った Qwen3 4B distillモデル と合成データセットを Hugging Face で公開した
- ブラウザですぐ試せる Hugging Face Space を作ってほしい
  Qwen3 4Bは自分の Intel内蔵GPU でもよく動いて印象的だった
  以前「有害コンテンツ検知用の超低価格モデル」というアイデアを考えたことがあるが、こうした小型LLMがその役割を果たせそうだ
  また、ルーティング用にも使えそうだ
- 自分のWeb検索MCPで回してみたが、これほど小さなモデルでこの ディープリサーチ品質 を見たのは初めてだ
全体として興味深いシリーズだ
ただしCSSプロパティ word-break: break-word; のせいで読みづらすぎる
- 自分も読もうとしてみたが、単語のつながりが分からない感じ だった
日曜の朝、エンジニアの趣味としてセルフホスト するにはどうすればいいのか気になる
2080Tiで128GB VRAM(?) を使って、遅くてもいいから動かしてみたい
制約があるほうがむしろ楽しいと思う
- 安くVRAMを確保するなら AMD MI50 がよい
  32GB版をAliExpressで150〜250ドルで手に入れられ、複数枚まとめれば128GB VRAM構成も可能だ
  最新GPUほど速くはないが、十分実用になる
- 手早くローカルで動かしたいなら Ollamaアプリ がいちばん簡単だ
  ollama.com からインストールできる
  ただ、2080Tiで128GB VRAMというのはどういう構成なのか気になる
- 自分は MacBook Pro 128GBユニファイドメモリ でモデルを動かしている
  速度は遅いが、オフラインでもよく動くし、コーヒーショップでも使える
  Ollamaを使っているので、最新モデルは移植されるまで待つ必要がある
- 予算を抑えて組んだ自分の構成はこうだ
  Ryzen 9 9950X, 96GB RAM, RTX 3090を2枚, 1600W PSU
  FP8量子化された30Bモデルを無理なく動かせる
- おそらくVRAMではなくRAMのことだろう
  このモデルは30B MoEだがアクティブパラメータは3B程度で、Qwen3 MoE と似ている
  自分は11年前のi5‑6600とRadeon 6600(8GB)で4bit量子化モデルを動かしており、16kコンテキストで約12tpsほど出る
  実行スクリプト例も共有している
Tongyiモデル はOpenRouterでも提供されており、無料版もある
openrouter.ai/alibaba/tongyi-deepresearch-30b-a3b
「Deep research」が「同意(Agree)」と訳されたのでは、という冗談を言っている
- 実際には中国語名は 通义千问(Tongyi Qianwen) で、「あらゆる質問を知る」という意味だ
  「同意」と発音は同じだが意味は異なる
  Alibaba Qwen公式ページ参照
このモデルは1か月前にすでに 重みが公開 されていたものだ
- それでも誰もがリアルタイムで追っているわけではないので、1か月前のモデルでもまだ十分有用だ
- それなら他のモデルとの 性能比較 はどうなのか気になる
OpenAIの「Deep research」は特定のモデルではなく、機能的パターン に近い
GPT‑5, GPT‑4o, o3など、どのモデルを使うかによって結果は変わる
- 今ではOpenAI、Perplexity、Google Gemini、Anthropic、Grokなど、ほぼどこも 似たようなリサーチパターン を提供している
  検索ベースの長時間実行タスクとして、5〜10分かけて資料を集め、引用付きレポート を生成する
  Tongyiモデルはこのようなループ型の検索・レポート作成に特化している

Tongyi DeepResearch – OpenAI DeepResearchに匹敵するオープンソース30B MoEモデル

チャットボットから自律エージェントへ

合成データベースの継続的事前学習と事後学習

事後学習(Post-training)データ

ロールアウトモード

Native ReAct Mode

Heavy Mode

エンドツーエンドのエージェント学習パイプライン

インフラ構成

実際の適用事例

限界と今後の課題

シリーズ研究

関連記事

1件のコメント

Hacker Newsのコメント