10 ポイント 投稿者 GN⁺ 2025-11-04 | 1件のコメント | WhatsAppで共有
  • Tongyi DeepResearchは、OpenAI DeepResearchと同等の性能を示す初の完全オープンソースのウェブエージェントであり、複雑な情報探索ベンチマークで最高水準の結果を記録
    • Tongyi LabはAlibaba GroupのAI研究開発部門の一つで、大規模言語モデル(LLM)やマルチモーダルモデル、エージェント(Agent)技術などに注力し、QWENモデルを生み出した組織
  • Agentic Continual Pre-training(CPT)Supervised Fine-Tuning(SFT)Reinforcement Learning(RL) を統合したエンドツーエンド学習パイプラインを構築
  • 完全な合成データ基盤の大規模QA生成とIterResearchパラダイムを通じて、長期的な推論能力と計画能力を強化
  • ReActモードHeavyモードをサポートし、単純な推論から複雑な多段階リサーチまで対応、GRPOアルゴリズムベースの強化学習で安定した性能を確保
  • 実際にGaode MateTongyi FaRuiなどAlibabaの内外のサービスに適用され、オープンソースAIリサーチエージェントの実用性と拡張可能性を実証

チャットボットから自律エージェントへ

  • Tongyi DeepResearchは、OpenAI DeepResearch級の性能を達成した初の完全オープンソースのウェブエージェント
    • Humanity’s Last Exam(HLE) 32.9、BrowseComp 43.4、BrowseComp-ZH 46.7、xbench-DeepSearch 75点を記録
    • 既存のすべての商用およびオープンソースのDeep Researchエージェントを上回る
  • モデルだけでなく、データ合成ベースの学習手法全体も公開
    • Agentic CPT、SFT、RLを含む全工程の自動データ生成および強化学習インフラを提供
  • ReActフレームワークにより、プロンプトエンジニアリングなしでも強力な内在能力を発揮
    • Heavy Modeでは、複雑な計画・推論能力の限界値を実演

合成データベースの継続的事前学習と事後学習

  • Agentic CPTを導入し、エージェント型の基盤モデルを構築
    • AgentFounderシステムを通じて大規模データ合成と循環型データフライホイールを実現
  • データ再構成と質問生成の段階で、文書、クロールデータ、知識グラフ、ツール呼び出し記録などを統合
    • これをエンティティ中心のオープンワールド知識メモリとして再構成し、多様な形式の(質問、回答)ペアを生成
  • 行動合成(Action Synthesis) を通じて一次および高次の行動データを生成
    • 多段階の意思決定構造をモデル化し、意思決定能力を強化
  • 事後学習(Post-training)データ

    • 完全自動化された合成QA生成パイプラインを構築
      • WebWalker、WebSailor、WebShaperなど一連の研究を通じて、グラフベース合成と難易度制御型QAデータを生成
    • ランダムウォークベースの知識グラフ表データ融合により、現実的な情報構造を確保
      • エンティティ統合などの「原子演算」を通じて難易度を体系的に調整
    • 集合論ベースの問題形式化で、情報構造と推論構造の不一致を最小化
      • QA整合性検証の効率を向上
    • 自動データエンジンで博士レベルの研究課題を生成
      • 学際的な知識基盤から出発し、反復的に複雑性を高めるループを通じて高難度QAを生成
    • ReActIterResearchフレームワークを活用して多様な推論パターンを学習
      • IterResearchは各ラウンドごとにワークスペースを再構成し、長期計画能力を強化

ロールアウトモード

  • モデルはReActモードHeavyモードの2つの実行方式をサポート
  • Native ReAct Mode

    • Thought–Action–Observationの循環構造に従い、プロンプトエンジニアリングなしでも優れた性能を発揮
      • 128Kコンテキスト長で多数のインタラクションラウンドを処理可能
    • シンプルさと汎用性が、モデルの内在能力を評価する明確な基準を提供
    • 「The Bitter Lesson」の原則に従い、スケーラブルな一般手法を採用
  • Heavy Mode

    • IterResearchパラダイムベースで複雑な多段階リサーチ課題を実行
      • 各ラウンドごとに重要な結果だけを保持し、新たなワークスペースを再構成
      • 中央レポートを継続的に更新し、高品質な推論を維持
    • Research–Synthesisフレームワークを通じて、複数のリサーチエージェントの結果を並列探索してから統合
      • 制限されたコンテキスト内で、より広い探索経路を確保

エンドツーエンドのエージェント学習パイプライン

  • Agentic CPT → SFT → RLへと続く完全統合型学習ループを構築
  • On-policy強化学習(RL) 段階でGroup Relative Policy Optimization(GRPO) アルゴリズムを使用
    • トークン単位のポリシー勾配損失、leave-one-out戦略、負例サンプルフィルタリングなどで安定性を確保
    • 学習中の報酬上昇と高いポリシーエントロピー維持により探索を継続
  • 合成データがBrowseCompなどの人手アノテーションデータより一貫した分布を提供し、学習効率を向上
  • インフラ構成

    • 合成学習環境: オフラインWikipedia DBとカスタムツールセットを用いたシミュレーション環境を構築
    • 安定したツールサンドボックス: キャッシュ、リトライ、バックアップAPIでツール呼び出しエラーを防止
    • 自動データキュレーション: 学習ダイナミクスに応じたリアルタイムのデータ合成・フィルタリングで安定性と性能を向上
    • 非同期On-policyフレームワーク: rLLMベースのステップ単位非同期RLループを実装
    • この過程を通じて自己進化型AIエージェント学習ループを完成させ、複雑で動的な環境でも安定した問題解決が可能

実際の適用事例

  • Gaode Mate(地図・ナビゲーションエージェント)
    • Amapチームと協力して「Xiao Gao」AIコパイロットを開発
    • 多段階推論により、旅行日程、ペットフレンドリーな宿泊先を含む経路などの複合計画を実行
  • Tongyi FaRui(法務リサーチエージェント)
    • 判例検索、法令のクロスチェック、分析統合など、弁護士レベルの多段階リサーチを実行
    • すべての結論は検証可能な司法資料に基づき、正確な引用を含む

限界と今後の課題

  • 128Kコンテキストの限界により、超長期タスク処理に制約
  • 30B規模のMoEモデル以上への拡張性検証が必要
  • 強化学習効率の改善に向けて、部分ロールアウトおよびオフポリシー学習の研究を計画

シリーズ研究

  • WebWalker、WebDancer、WebSailor、WebShaper、WebWatcherなど、関連論文11本を公開
  • 直近6か月間は毎月技術レポートを発行し、今回はTongyi DeepResearch‑30B‑A3Bモデルとともに新規レポート6本を同時公開
  • 次世代エージェント型モデルの開発を継続予定

1件のコメント

 
GN⁺ 2025-11-04
Hacker Newsのコメント
  • 「ディープリサーチ」向けに公開された 30B MoEモデル は歓迎できる
    複数のエージェントを並列で動かし、探索・抽出は軽量モデルが、計画・ツールルーティング・検証は30Bモデルが担う構成が効率的だ
    MoEの 専門化された構造 は分散型エージェントAIによく合うが、リトライ・合意形成・多段階Webリサーチ評価のためのオーケストレーションが必要になる
  • 最近 特化型LLM が爆発的に増えるのか気になる
    大規模モデルが大きくなりすぎて事前学習の限界に達するなら、目的別モデルがさらに増えるかもしれない
    GPT‑3.5はチェスに強かったのに最近のモデルはそうではないのを見ると、学習データの トレードオフ があるようだ
    • 現時点では汎用の大規模モデルがほぼあらゆる面で優れている
      小型モデルを特定用途向けにファインチューニングするのはコストが高く、大規模モデルの進化速度が速すぎてすぐに置いていかれる
      ただし進化の速度が鈍れば 小型モデルの訓練 に再び意味が出てくるだろう
    • チェスに強いLLMの ベンチマーク を見てみたい
      以前からSvelteKitのような特定フレームワークだけに詳しい4B〜8Bモデルがあればいいと思っていた
      大規模モデルの品質が常に上とは限らず、小型モデルがGPU1枚で動くならはるかに実用的だと思う
      昔、兄にチェスLLM比較サイトのアイデアを提案したが、まだ実装されていない
    • GPT‑3.5がチェスに強かったという話には同意しない
      実際に試すと 幻覚の手 が多かった
    • seed‑tars.com/game‑tars のリンクを共有している
    • MoE構造の要点はまさにこれではないか?
      必要な部分だけを 個別に学習 して改善できる点が利点だ
  • こうした ディープリサーチツール が実際に役立つのか気になる
    自分の経験では検索エンジンの要約レベルを超えられず、平板なレポートを生成するだけだ
    • 英国で小さなウェブサイトを運営していて、法令順守のために使ってみたが、文脈を与えるとかなり カスタム化された結果 を返してくれる
      弁護士レベルではないが、予算のないプロジェクトには大きな助けになる
    • 自分も似たような経験だ
      実際に学ぼうとする人向けというより、「品質が高そうに見える」 コンサルティングレポート のような感じで、実質的な価値は低い
    • レポート自体は平板だが、資料の出典探し には有用だ
      「このテーマはすでに研究されているのか?」のような問いに対して、参考になる例を探す助けになる
    • ChatGPTをよく使っているが、質問を投げると関連する ソースの整理 をうまくやってくれる
      自分でのリサーチを完全に置き換えるわけではないが、初期の情報整理には大いに役立つ
    • 検索エンジン程度の要約でも、新しいアイデアや unknown unknowns を見つけるには十分使いものになる
  • 以前作った Qwen3 4B distillモデル と合成データセットを Hugging Face で公開した
    • ブラウザですぐ試せる Hugging Face Space を作ってほしい
      Qwen3 4Bは自分の Intel内蔵GPU でもよく動いて印象的だった
      以前「有害コンテンツ検知用の超低価格モデル」というアイデアを考えたことがあるが、こうした小型LLMがその役割を果たせそうだ
      また、ルーティング用にも使えそうだ
    • 自分のWeb検索MCPで回してみたが、これほど小さなモデルでこの ディープリサーチ品質 を見たのは初めてだ
  • 全体として興味深いシリーズだ
    ただしCSSプロパティ word-break: break-word; のせいで読みづらすぎる
    • 自分も読もうとしてみたが、単語のつながりが分からない感じ だった
  • 日曜の朝、エンジニアの趣味としてセルフホスト するにはどうすればいいのか気になる
    2080Tiで128GB VRAM(?) を使って、遅くてもいいから動かしてみたい
    制約があるほうがむしろ楽しいと思う
    • 安くVRAMを確保するなら AMD MI50 がよい
      32GB版をAliExpressで150〜250ドルで手に入れられ、複数枚まとめれば128GB VRAM構成も可能だ
      最新GPUほど速くはないが、十分実用になる
    • 手早くローカルで動かしたいなら Ollamaアプリ がいちばん簡単だ
      ollama.com からインストールできる
      ただ、2080Tiで128GB VRAMというのはどういう構成なのか気になる
    • 自分は MacBook Pro 128GBユニファイドメモリ でモデルを動かしている
      速度は遅いが、オフラインでもよく動くし、コーヒーショップでも使える
      Ollamaを使っているので、最新モデルは移植されるまで待つ必要がある
    • 予算を抑えて組んだ自分の構成はこうだ
      Ryzen 9 9950X, 96GB RAM, RTX 3090を2枚, 1600W PSU
      FP8量子化された30Bモデルを無理なく動かせる
    • おそらくVRAMではなくRAMのことだろう
      このモデルは30B MoEだがアクティブパラメータは3B程度で、Qwen3 MoE と似ている
      自分は11年前のi5‑6600とRadeon 6600(8GB)で4bit量子化モデルを動かしており、16kコンテキストで約12tpsほど出る
      実行スクリプト例 も共有している
  • Tongyiモデル はOpenRouterでも提供されており、無料版もある
    openrouter.ai/alibaba/tongyi-deepresearch-30b-a3b
  • 「Deep research」が「同意(Agree)」と訳されたのでは、という冗談を言っている
    • 実際には中国語名は 通义千问(Tongyi Qianwen) で、「あらゆる質問を知る」という意味だ
      「同意」と発音は同じだが意味は異なる
      Alibaba Qwen公式ページ 参照
  • このモデルは1か月前にすでに 重みが公開 されていたものだ
    • それでも誰もがリアルタイムで追っているわけではないので、1か月前のモデルでもまだ十分有用だ
    • それなら他のモデルとの 性能比較 はどうなのか気になる
  • OpenAIの「Deep research」は特定のモデルではなく、機能的パターン に近い
    GPT‑5, GPT‑4o, o3など、どのモデルを使うかによって結果は変わる
    • 今ではOpenAI、Perplexity、Google Gemini、Anthropic、Grokなど、ほぼどこも 似たようなリサーチパターン を提供している
      検索ベースの長時間実行タスクとして、5〜10分かけて資料を集め、引用付きレポート を生成する
      Tongyiモデルはこのようなループ型の検索・レポート作成に特化している