ML論文まとめ

(discuss.pytorch.kr)

10 ポイント投稿者 ninebow 2025-09-28 | まだコメントはありません。 | WhatsAppで共有

PyTorchKR🔥🇰🇷 🤔💭

1️⃣ マルチモーダルモデルの統合と最適化: 最近の論文では、統合マルチモーダルモデル（UMM）の性能向上に向けたさまざまなアプローチが提案されています。たとえば、「Reconstruction Alignment」は、画像とテキストの結合を通じてモデルの理解能力と生成能力を再調整する方法を紹介しており、「AToken」は画像、動画、3Dアセット向けの統合トークナイザーを開発し、多様な視覚入力を処理します。これらの研究は、マルチモーダルAIシステムの発展に向けた基盤を築いています。

2️⃣ エージェント中心のデータシステム設計: 「Supporting Our AI Overlords」と「Scaling Agents via Continual Pre-training」は、大規模言語モデル（LLM）エージェントがデータシステムで重要な役割を果たすようになると主張しています。これらの論文は、エージェントがデータ操作や分析を行うのに必要な能力を育てるために、さまざまな環境での相互作用を通じて学習すべきだと強調しています。これは、エージェント中心のデータシステムアーキテクチャ設計に関する新たな研究機会を示しています。

3️⃣ 自律学習と進化するモデル: 「R-Zero」は、自律的にデータを生成し学習するモデルの必要性を強調しています。従来の手法が人間によって整備されたタスクやラベルに依存しているのに対し、R-Zeroは自ら課題を提案し解決する2つのモデルを通じて、自己進化する学習カリキュラムを生成します。このアプローチは、AIシステムが人間の知能を超える能力へと発展するうえで重要な役割を果たすと期待されます。

Reconstruction Alignmentは統合マルチモーダルモデルを改善する / Reconstruction Alignment Improves Unified Multimodal Models

論文紹介

Unified Multimodal Models（UMMs）は、視覚理解と生成機能を統合し、さまざまなタスクを実行できる可能性をもたらす革新的なアプローチです。しかし、従来の学習手法は画像とテキストのペアに依存しており、そのためキャプションが詳細な視覚情報を取りこぼしやすく、性能低下を招きます。この限界を克服するために提案されたのが Reconstruction Alignment（RecA）です。RecAは、視覚理解エンコーダの埋め込みを高密度な「テキストプロンプト」として活用し、キャプションなしでも豊富な教師信号を提供する、リソース効率の高いポストトレーニング手法です。

RecAの中核は、UMMが自身の視覚理解埋め込みを条件として入力画像を再構成するよう最適化する過程にあります。この過程では、自己教師あり再構成損失を用いてモデルの理解能力と生成能力を整列させることで、視覚情報をより効果的に活用できるようになります。RecAは自己回帰、マスク付き自己回帰、拡散ベースのUMMなど多様なアーキテクチャに適用可能であり、生成および編集の忠実度を一貫して改善する成果を示しています。

実験結果では、RecA適用後に GenEval における画像生成性能が 0.73 から 0.90 に、DPGBench では 80.93 から 88.15 に向上しました。また、画像編集ベンチマークでも ImgEdit と GEdit でそれぞれ 3.38 から 3.75、6.94 から 7.25 へ上昇しました。これらの結果は、RecAが既存の大規模オープンソースモデルを上回る性能を発揮し、多様なUMMアーキテクチャに広く適用できる可能性を示しています。

RecAは、UMMの理解能力と生成能力を効果的に整列させる方法として、リソース効率の高いポストトレーニング戦略として定着しうる可能性を示しています。今後の研究では、RecAの適用範囲を広げ、ほかのマルチモーダルタスクに対する性能を評価することが重要です。こうした研究は、マルチモーダルモデルの発展に寄与すると期待されます。

論文要旨(Abstract)

統合マルチモーダルモデル（UMM）は、単一のアーキテクチャ内で視覚理解と生成を統合します。しかし、従来の学習方式は一般に、キャプションが疎で細かな視覚的ディテールを取りこぼしがちな画像-テキスト対（またはシーケンス）に依存しており、単純な画像を説明するために数百語を使っていても同様です。私たちは、視覚理解エンコーダ埋め込みを高密度な「テキストプロンプト」として活用し、キャプションなしで豊富な教師信号を提供する、リソース効率の高いポストトレーニング手法である Reconstruction Alignment（RecA）を紹介します。具体的には、RecAはUMMを自身の視覚理解埋め込みに条件付けし、自己教師あり再構成損失を通じて入力画像を再構成するよう最適化することで、理解と生成を再整列させます。その単純さにもかかわらず、RecAは自己回帰、マスク付き自己回帰、拡散ベースのUMM全般に広く適用でき、生成および編集の忠実度を一貫して向上させます。わずか27 GPU時間で、RecAによるポストトレーニングは GenEval における画像生成性能を大きく改善し（0.73$\rightarrow$0.90）、DPGBench（80.93$\rightarrow$88.15）でも性能を向上させ、編集ベンチマーク（ImgEdit 3.38$\rightarrow$3.75、GEdit 6.94$\rightarrow$7.25）も改善します。特に、RecAははるかに大規模なオープンソースモデルを上回り、多様なUMMアーキテクチャに広く適用できることから、UMMのための効率的かつ汎用的なポストトレーニング整列戦略として位置付けられます。

> Unified multimodal models (UMMs) unify visual understanding and generation within a single architecture. However, conventional training relies on image-text pairs (or sequences) whose captions are typically sparse and miss fine-grained visual details--even when they use hundreds of words to describe a simple image. We introduce Reconstruction Alignment (RecA), a resource-efficient post-training method that leverages visual understanding encoder embeddings as dense "text prompts," providing rich supervision without captions. Concretely, RecA conditions a UMM on its own visual understanding embeddings and optimizes it to reconstruct the input image with a self-supervised reconstruction loss, thereby realigning understanding and generation. Despite its simplicity, RecA is broadly applicable: across autoregressive, masked-autoregressive, and diffusion-based UMMs, it consistently improves generation and editing fidelity. With only 27 GPU-hours, post-training with RecA substantially improves image generation performance on GenEval (0.73$\rightarrow$0.90) and DPGBench (80.93$\rightarrow$88.15), while also boosting editing benchmarks (ImgEdit 3.38$\rightarrow$3.75, GEdit 6.94$\rightarrow$7.25). Notably, RecA surpasses much larger open-source models and applies broadly across diverse UMM architectures, establishing it as an efficient and general post-training alignment strategy for UMMs

論文リンク

https://arxiv.org/abs/2509.07295

私たちのAI君主を支援する: エージェント中心にデータシステムを再設計する / Supporting Our AI Overlords: Redesigning Data Systems to be Agent-First

論文紹介

大規模言語モデル（LLM）エージェントがデータの操作と分析を行う方法は、データシステムの未来に重大な変化をもたらすと予想される。こうしたエージェントは、ユーザーの要求に応じて高速に探索し解決策を提示する agentic speculation のプロセスを通じてタスクを実行する。しかし、agentic speculation の大量発生と非効率性は、現在のデータシステムにとって課題となりうる。そのため、データシステムはこのようなエージェント型ワークロードを本質的に支援できるよう進化する必要がある。

本研究では、agentic speculation の特性である規模、異質性、冗長性、操舵可能性を活用し、新しいエージェントファーストなデータシステムアーキテクチャに向けた研究機会を提示する。これにより、新しいクエリインターフェース、クエリ処理技術、agentic memory store のような革新的アプローチを探究する。特に、エージェントがデータと相互作用する主要なメカニズムとして定着した場合、データシステムの生産性向上の可能性を切り開くことができる。

ケーススタディを通じて agentic ワークロードの特性を分析し、それによって最適化の機会を特定した。最初の研究では BIRD データセットを活用し、LLM がリクエスト数を増やすことで精度を向上させる方法を探究した。2つ目の研究では、2つのデータベースの情報を組み合わせる複雑なタスクを実行した。これらの研究結果は、agentic speculation がデータシステムの効率を高めうる潜在力を持つことを示している。

最後に、agentic memory store と新しいトランザクションフレームワークを提案し、agentic speculation の探索段階で発生する冗長性と異質性を解決できる方法を模索した。こうしたアプローチは、データシステムをエージェント中心に再設計する必要性を強調するとともに、今後の研究に向けた新たなビジョンを提示する。

論文要旨(Abstract)

大規模言語モデル（LLM）エージェントは、ユーザーに代わってデータを操作・分析する役割を担い、将来のデータシステムにおいて支配的なワークロードになる可能性が高いです。データ作業時、エージェントは与えられたタスクに対する探索と解決策の導出を行う高スループットなプロセスを活用しており、私たちはこれを agentic speculation と呼びます。agentic speculation の膨大な量と非効率性は、現在のデータシステムに課題をもたらす可能性があります。私たちは、データシステムがエージェント型ワークロードをより本質的に支援できるよう適応すべきだと主張します。私たちは、agentic speculation の特性として特定した規模、異質性、冗長性、および操舵可能性を活用し、新しいクエリインターフェース、新しいクエリ処理技術、新しい agentic memory store に至るまで、新たなエージェント中心データシステムアーキテクチャに関するさまざまな研究機会を提示します。

Large Language Model (LLM) agents, acting on their users' behalf to manipulate and analyze data, are likely to become the dominant workload for data systems in the future. When working with data, agents employ a high-throughput process of exploration and solution formulation for the given task, one we call agentic speculation. The sheer volume and inefficiencies of agentic speculation can pose challenges for present-day data systems. We argue that data systems need to adapt to more natively support agentic workloads. We take advantage of the characteristics of agentic speculation that we identify, i.e., scale, heterogeneity, redundancy, and steerability - to outline a number of new research opportunities for a new agent-first data systems architecture, ranging from new query interfaces, to new query processing techniques, to new agentic memory stores.

論文リンク

https://arxiv.org/abs/2509.00997

AToken: ビジョンのための統合トークナイザー / AToken: A Unified Tokenizer for Vision

論文紹介

AToken は、画像、動画、3Dアセット全般にわたって高忠実度の再構成と意味理解を同時に実現する、初の統合視覚トークナイザーである。既存のトークナイザーは単一モダリティに対して再構成または理解に特化していた一方、AToken は多様な視覚入力を共有の4D潜在空間にエンコードすることで、2つのタスクと複数モダリティを1つのフレームワークに統合する。このシステムは、任意の解像度と時間長を持つ視覚入力を処理するため、4D回転位置埋め込みを備えた純粋な Transformer アーキテクチャを導入している。安定した学習を保証するため、AToken は知覚損失とグラム行列損失を組み合わせた adversarial-free な学習目標を提案し、最先端の再構成品質を達成する。段階的な学習カリキュラムを通じて、AToken は単一画像から動画および3Dへと徐々に拡張され、連続および離散の潜在トークンをサポートする。AToken は、画像で 0.21 rFID と 82.2% の ImageNet 精度、動画で 3.01 rFVD と 32.6% の MSRVTT 検索性能、3Dで 28.19 PSNR と 90.9% の分類精度を達成する。ダウンストリーム応用では、AToken は画像生成、テキスト-動画生成、画像-3D合成などの視覚生成タスクと、マルチモーダル大規模言語モデル（LLM）などの理解タスクを可能にし、すべてのベンチマークで競争力のある性能を示す。これらの結果は、統合視覚トークナイゼーションに基づく次世代マルチモーダルAIシステムの可能性を示している。

論文要旨(Abstract)

私たちは、画像、動画、3Dアセット全般にわたって高忠実度の再構成と意味理解の両方を達成する、初の統合視覚トークナイザーである AToken を紹介します。既存のトークナイザーが単一モダリティに対して再構成または理解に特化しているのとは異なり、AToken はこれらの多様な視覚入力を共有の4D潜在空間にエンコードすることで、単一フレームワーク内で両タスクと複数モダリティを統合します。具体的には、任意の解像度と時間長を持つ視覚入力を処理するため、4D回転位置埋め込みを備えた純粋な Transformer アーキテクチャを導入します。安定した学習を保証するため、私たちは知覚損失とグラム行列損失を組み合わせた adversarial-free な学習目標を導入し、最先端の再構成品質を達成します。段階的な学習カリキュラムを活用し、AToken は単一画像、動画、3Dへと徐々に拡張され、連続および離散の潜在トークンの両方をサポートします。AToken は、画像で 0.21 rFID と 82.2% の ImageNet 精度、動画で 3.01 rFVD と 32.6% の MSRVTT 検索率、3Dで 28.19 PSNR と 90.9% の分類精度を達成します。下流応用において、AToken は視覚生成タスク（例：連続・離散トークンを用いた画像生成、テキスト-動画生成、画像-3D合成）と理解タスク（例：マルチモーダル大規模言語モデル）の両方を可能にし、すべてのベンチマークで競争力のある性能を達成します。これらの結果は、統合視覚トークナイゼーションに基づいて構築される次世代マルチモーダルAIシステムへの洞察を提供します。

ATokenは、画像・動画・3Dアセットにまたがって高忠実度の再構成と意味理解の両方を実現する、初の統合ビジュアルトークナイザーです。既存のトークナイザーが単一モダリティにおける再構成または理解のいずれかに特化しているのに対し、ATokenはこれらの多様な視覚入力を共有の4D潜在空間へエンコードし、単一のフレームワークでタスクとモダリティの両方を統合します。具体的には、任意の解像度と時間長を持つ視覚入力を処理するために、4D rotary position embeddingsを備えたpure transformerアーキテクチャを導入します。安定した学習を確保するため、知覚損失とGram matrix lossを組み合わせたadversarial-freeな学習目的を導入し、最先端の再構成品質を達成します。さらに、段階的な学習カリキュラムを採用することで、ATokenは単一画像から動画、3Dへと徐々に拡張し、連続および離散の潜在トークンの両方をサポートします。ATokenは、画像では0.21のrFIDと82.2%のImageNet精度、動画では3.01のrFVDと32.6%のMSRVTTリトリーバル、3Dでは28.19のPSNRと90.9%の分類精度を達成しました。ダウンストリームアプリケーションでは、ATokenは視覚生成タスク（例: 連続・離散トークンを用いた画像生成、text-to-video生成、image-to-3D合成）と理解タスク（例: マルチモーダルLLM）の両方を可能にし、すべてのベンチマークで競争力のある性能を示します。これらの結果は、統合ビジュアルトークン化に基づく次世代マルチモーダルAIシステムへの道を示しています。

論文リンク

https://arxiv.org/abs/2509.14476

環境スケーリングによる汎用エージェント知能の向上 / Towards General Agentic Intelligence via Environment Scaling

論文紹介

高度なエージェント知能は、大規模言語モデル（LLM）を実世界のアプリケーションへ効果的に展開するための不可欠な要素となっている。多様な実世界APIは、正確で堅牢な関数呼び出し能力を必要とし、そのためエージェントはさまざまな環境での相互作用を通じてこうした能力を獲得しなければならない。本研究では、汎用エージェント知能を高めるためのステップとして環境をスケーリングする手法を提案し、2つの主要な課題の解決を目指す。第一に、環境を原則に基づいてどのようにスケーリングするか。第二に、こうした環境との相互作用を通じてエージェント能力をどのように効果的に学習させるか、である。

これらの問題を解決するため、研究チームは異種環境を自動構築するスケーラブルなフレームワークを設計した。このフレームワークは、完全にシミュレートされた環境を体系的に拡張し、関数呼び出しシナリオの空間を広げることに重点を置いている。さらに、2段階のエージェントファインチューニング戦略を導入し、第1段階ではエージェントに基本的なエージェント能力を付与し、第2段階ではそれをドメイン固有の文脈に合わせて特化させる。

本研究で提案する環境構築および拡張の方法論には、30,000件を超えるAPIを収集し、ツール依存グラフのモデリングを通じてドメイン分割と分布を導出する体系的なパイプラインが含まれる。これにより、エージェントは環境状態を初期化し、ドメイン固有のツールグラフから論理的に一貫したツールシーケンスをサンプリングして有効なシーケンスを生成できるようになる。このプロセスは、データベースレベルの状態整合性とツールシーケンスの正確な一致を保証し、エージェントの関数呼び出し能力を大幅に向上させる。

結果として、本研究で開発されたAgentScalerモデルはエージェントの関数呼び出し能力を飛躍的に改善しており、今後のエージェント知能の発展に重要な貢献をもたらすことが期待される。このアプローチは、エージェントが多様な環境で効果的に動作できるよう支援し、エージェント知能の実用的な応用可能性をさらに広げることに寄与するだろう。

論文要旨(Abstract)

高度なエージェント知能は、大規模言語モデルを実世界のアプリケーションに展開するための前提条件です。多様な実世界APIは、正確で堅牢な関数呼び出し能力を必要とし、そのためエージェントはさまざまな環境での相互作用を通じてこれらの能力を獲得しなければなりません。関数呼び出し能力の広さは、エージェントが訓練される環境の多様性と密接に関連しています。本研究では、汎用エージェント知能を高めるためのステップとして環境をスケーリングします。これにより、2つの主要な課題が生じます: (i) 環境を原則に基づいてどのようにスケーリングするか、(ii) こうした環境との相互作用を通じて得られた経験からエージェント能力をどのように効果的に訓練するか、です。これを解決するために、私たちは異種環境を自動構成するスケーラブルなフレームワークを設計し、関数呼び出しシナリオの空間を体系的に拡大します。さらに、エージェントに基本的なエージェント能力を付与した後、ドメイン固有の文脈に合わせて特化させる2段階のエージェントファインチューニング戦略を適用します。エージェントベンチマークであるtau-bench、tau2-Bench、AceBenchに関する広範な実験を通じて、私たちの学習済みモデルAgentScalerがモデルの関数呼び出し能力を大幅に向上させることを実証します。

Advanced agentic intelligence is a prerequisite for deploying Large Language Models in practical, real-world applications. Diverse real-world APIs demand precise, robust function-calling intelligence, which needs agents to develop these capabilities through interaction in varied environments. The breadth of function-calling competence is closely tied to the diversity of environments in which agents are trained. In this work, we scale up environments as a step towards advancing general agentic intelligence. This gives rise to two central challenges: (i) how to scale environments in a principled manner, and (ii) how to effectively train agentic capabilities from experiences derived through interactions with these environments. To address these, we design a scalable framework that automatically constructs heterogeneous environments that are fully simulated, systematically broadening the space of function-calling scenarios. We further adapt a two-phase agent fine-tuning strategy: first endowing agents with fundamental agentic capabilities, then specializing them for domain-specific contexts. Extensive experiments on agentic benchmarks, tau-bench, tau2-Bench, and ACEBench, demonstrate that our trained model, AgentScaler, significantly enhances the function-calling capability of models.

論文リンク

https://arxiv.org/abs/2509.13311

さらに読む

https://tongyi-agent.github.io/blog/introducing-tongyi-deep-research/

文脈内学習は学習なのか？ / Is In-Context Learning Learning?

論文紹介

In-Context Learning（ICL）は、自己回帰モデルが追加学習なしに次トークン予測を通じて多様なタスクを解ける能力を示す。このアプローチにより、モデルはわずかな例だけで未見のタスクを解けるという主張が生まれたが、ICLが実際に学習を行っているのかについては議論がある。本研究は、ICLは数学的には学習を構成すると主張しつつ、その特性を完全に理解するには実証的な分析が必要である点を強調する。

大規模な分析を通じてICLの性能を評価し、記憶化、事前学習、分布シフト、プロンプトのスタイルおよび構文への感度を考慮した。研究の結果、ICLは有効な学習パラダイムとして機能する一方で、未見タスクへの汎化能力には限界があることが分かった。特に、例の数が増えるにつれて正確性は例の分布やモデル、プロンプトスタイルに鈍感になり、その代わりにプロンプトの規則性からパターンを推論する傾向が見られた。これは特にChain-of-Thoughtのような特定のプロンプトスタイルで分布的な感度を引き起こした。

形式的に類似したタスク間での精度差は、自己回帰モデルのアドホックなエンコーディングが強力な学習メカニズムではなく、汎用的な一般化能力が限定的であることを示唆している。本研究は、ICLが学習メカニズムとして機能する一方で、その限界と振る舞いを明確に示し、LLM（大規模言語モデル）の性能がデータの分布に応じて変化しうることを示している。これらの結果は、ICLの可能性を探るうえで重要な貢献であり、今後の研究でICLの特性と限界をより深く理解することにつながると期待される。

論文抄録(Abstract)

文脈内学習（In-Context Learning, ICL）は、一部の自己回帰モデルが追加学習を必要とせず、次トークン予測によってタスクを解けるようにします。これにより、こうしたモデルはプロンプト内の少数の例（ショット）だけで未見のタスクを解決（学習）できるという主張につながってきました。しかし、推論が常に学習を意味するわけではありません。ICLは与えられた観測を明示的にエンコードしないからです。代わりに、モデルは事前知識と、あれば与えられた例に依存します。私たちは、数学的にはICLは学習を構成すると主張しますが、その完全な性質を明らかにするには実証的研究が必要だと考えます。そこで私たちは、記憶化、事前学習、分布シフト、プロンプトのスタイルや言い回しを排除または考慮したうえで、ICLの大規模分析を実施します。その結果、ICLは有効な学習パラダイムである一方、未見タスクを学習し一般化する能力には限界があることが分かりました。例が多くなる極限では、精度は例の分布、モデル、プロンプトスタイル、入力の言語的特徴に対して鈍感になることに注目します。その代わり、プロンプト内の規則性からパターンを推論し、特にChain-of-Thoughtのようなプロンプトスタイルにおいて分布的感度をもたらします。形式的に類似したタスクで精度がさまざまであることを踏まえると、自己回帰のアドホックなエンコーディングは堅牢なメカニズムではなく、汎用的な一般化能力が限定的であることを示唆すると結論づけます。

In-context learning (ICL) allows some autoregressive models to solve tasks via next-token prediction and without needing further training. This has led to claims about these model's ability to solve (learn) unseen tasks with only a few shots (exemplars) in the prompt. However, deduction does not always imply learning, as ICL does not explicitly encode a given observation. Instead, the models rely on their prior knowledge and the exemplars given, if any. We argue that, mathematically, ICL does constitute learning, but its full characterisation requires empirical work. We then carry out a large-scale analysis of ICL ablating out or accounting for memorisation, pretraining, distributional shifts, and prompting style and phrasing. We find that ICL is an effective learning paradigm, but limited in its ability to learn and generalise to unseen tasks. We note that, in the limit where exemplars become more numerous, accuracy is insensitive to exemplar distribution, model, prompt style, and the input's linguistic features. Instead, it deduces patterns from regularities in the prompt, which leads to distributional sensitivity, especially in prompting styles such as chain-of-thought. Given the varied accuracies on formally similar tasks, we conclude that autoregression's ad-hoc encoding is not a robust mechanism, and suggests limited all-purpose generalisability.

論文リンク

https://arxiv.org/abs/2509.10414

ディープダイブ: ナレッジグラフとマルチターン強化学習によるディープサーチエージェントの発展 / DeepDive: Advancing Deep Search Agents with Knowledge Graphs and Multi-Turn RL

論文紹介

DeepDiveは、大規模言語モデル（LLM）をディープサーチエージェントへと発展させるために、ナレッジグラフ（Knowledge Graph, KG）とマルチターン強化学習（Multi-Turn Reinforcement Learning, RL）を活用する革新的なアプローチを提案します。従来のLLMは、ブラウジングツールとの統合において長期的な推論能力が不足しており、複雑な質問を解決するための十分な教師データも欠けているため、性能が低いという課題を抱えています。これらの問題を解決するために、DeepDiveは2つの主要技術を導入します。

第一に、KGを活用して複雑で見つけにくい質問を自動合成する手法を開発しました。KGはエンティティとその関係を構造的に表現し、エージェントが長期的推論を行える環境を提供します。この過程では、ランダムウォークによって質問の複雑さと曖昧さを高め、LLMを用いて挑戦的な質問と回答のペアを生成します。このような自動化されたデータ合成は、ディープサーチエージェントの訓練に必要な高品質データを提供します。

第二に、DeepDiveはエンドツーエンドのマルチターンRLを適用し、LLMの長期的推論能力を向上させます。この手法には、エージェントがどのように検索するか、何を検索するか、いつ検索を終了するかを段階的に学習できる厳密な報酬構造が含まれます。マルチターンRLは、反復的な推論とツール呼び出しを通じて、エージェントが最終回答へ到達できるよう支援し、ディープサーチ能力の大幅な向上に寄与します。

DeepDiveの実験結果は、BrowseCompで新たなオープンソースの競争的結果を達成し、既存の複数モデルを上回る成果を示しました。この研究は、ディープサーチエージェントの性能改善に重要な貢献を果たしており、公開データセットとコードによって研究の再現性を高め、今後の研究に向けた基盤資料を提供します。DeepDiveは、複雑な情報検索問題を解決するための新たなアプローチを提示し、LLMの活用可能性をさらに広げることに貢献します。

論文抄録(Abstract)

大規模言語モデル（LLM）にブラウジングツールを追加することは、複雑な現実世界のタスクを解くディープサーチエージェントとしての可能性を大きく高めます。しかし、公開LLMは、ブラウジングツールと組み合わせた際の長いホライゾンでの推論能力が限られていること、また十分に難しい教師ありデータが不足していることから、このような環境では依然として性能が低いままです。これらの課題に対処するため、私たちはディープサーチエージェントを発展させるDeepDiveを提案します。第一に、公開ナレッジグラフから複雑で難しく、見つけにくい質問を自動合成する戦略を提案します。第二に、LLMのディープサーチによる長いホライゾンの推論を強化するため、エンドツーエンドのマルチターン強化学習（RL）を適用します。実験の結果、DeepDive-32BはBrowseCompで新たなオープンソースの競争的結果を達成し、WebSailor、DeepSeek-R1-Browse、Search-o1を上回りました。私たちは、マルチターンRL訓練がディープサーチ能力を向上させ、複数のベンチマークにおける性能改善に大きく寄与することを示します。さらに、DeepDiveがツール呼び出しのテスト時スケーリングと並列サンプリングを可能にすることも観察しました。すべてのデータセット、モデル、コードは https://github.com/THUDM/DeepDive で公開されています。

Augmenting large language models (LLMs) with browsing tools substantially improves their potential as deep search agents to solve complex, real-world tasks. Yet, open LLMs still perform poorly in such settings due to limited long-horizon reasoning capacity with browsing tools and the lack of sufficiently difficult supervised data. To address these challenges, we present DeepDive to advance deep search agents. First, we propose a strategy to automatically synthesize complex, difficult, and hard-to-find questions from open knowledge graphs. Second, we apply end-to-end multi-turn reinforcement learning (RL) to enhance LLMs' long-horizon reasoning with deep search. Experiments show that DeepDive-32B achieves a new open-source competitive result on BrowseComp, outperforming WebSailor, DeepSeek-R1-Browse, and Search-o1. We demonstrate that multi-turn RL training improves deep search ability and significantly contributes to the performance improvements across multiple benchmarks. We observe that DeepDive enables test-time scaling of tool calls and parallel sampling. All datasets, models, and code are publicly available at https://github.com/THUDM/DeepDive.

論文リンク

https://arxiv.org/abs/2509.10446

さらに読む

https://github.com/THUDM/DeepDive

マルチモーダル大規模言語モデルを活用した動画時間的グラウンディング調査 / A Survey on Video Temporal Grounding with Multimodal Large Language Model

論文紹介

動画時間的グラウンディング（Video Temporal Grounding, VTG）の分野は、動画内の特定の時間的事象を識別・理解するうえで重要な役割を果たしており、近年はマルチモーダル大規模言語モデル（Multimodal Large Language Models, MLLMs）の発展によってその性能が大きく向上しています。MLLMsは優れたマルチモーダル理解および推論能力を基盤として、VTGアプローチにおいて従来のファインチューニング手法を上回る成果を示しています。本研究は、VTG-MLLMsに関する包括的なレビューを通じて、この分野の現在の研究動向を体系的に分析し、3つの観点から説明します。すなわち、MLLMsの機能的役割、学習パラダイム、動画特徴処理技術です。

MLLMsはVTGにおいて2つの主要な役割を果たします。第一に、促進役として動画と言語の相互作用を支援し、第二に、実行役として実際のVTGタスクを遂行するモデルとして機能します。こうした役割を通じて、さまざまなモデルがVTGタスクにおける性能を最大化しています。学習パラダイムは、事前学習、ファインチューニング、学習なしに分けられ、それぞれがモデルの性能と汎化能力に重要な影響を与えます。特に、学習なしのパラダイムは、少ないデータでも効果的な性能を発揮できる可能性を示しています。

動画特徴処理技術もまた、VTG-MLLMsの性能に重大な影響を与えます。視覚特徴と時間特徴を効果的に処理する方法論は、動画の空間的・時間的表現を決定するうえで不可欠です。これに加えて、ベンチマークデータセットと評価プロトコルは、VTG-MLLMsの性能評価とモデルの汎化能力の検証において重要な役割を果たします。

最後に、本研究はVTG-MLLMsの現在の限界を特定し、今後の研究方向を提案します。データセットの多様性不足、モデルの複雑性、リアルタイム処理の難しさなどは、依然として解決すべき主要課題として残っています。これらの限界を克服するための研究は、新しいデータセットの開発とモデル最適化に重点を置いて進める必要があります。本論文は、VTG-MLLMsに関する包括的なレビューを提供し、この分野の研究者に有用な情報を提供します。

論文抄録(Abstract)

最近のビデオ時間的グラウンディング（Video Temporal Grounding, VTG）の進展は、主にマルチモーダル大規模言語モデル（Multimodal Large Language Models, MLLMs）によって牽引され、細粒度な動画理解を大きく向上させてきました。優れたマルチモーダル理解および推論能力を備えたMLLMベースのVTGアプローチ（VTG-MLLMs）は、従来のファインチューニング手法を徐々に上回りつつあります。これらは競争力のある性能を達成するだけでなく、ゼロショット（zero-shot）、マルチタスク（multi-task）、マルチドメイン（multi-domain）環境における汎化でも優れた成果を示します。一般的なビデオ・言語理解に関する広範なサーベイは存在する一方で、VTG-MLLMsを具体的に扱った包括的なレビューは依然として不足しています。このギャップを埋めるため、本サーベイはVTG-MLLMsに関する現在の研究を、1) MLLMsの機能的役割、すなわちそのアーキテクチャ上の重要性を強調する観点、2) 時間的推論およびタスク適応のための戦略を分析する学習パラダイム、3) 時空間表現の有効性を左右する動画特徴処理技術、という3次元の分類を通じて体系的に検討します。さらに、ベンチマークデータセットと評価プロトコルを議論し、実証的な知見を要約します。最後に、既存の限界を特定し、有望な研究方向を提案します。追加資料および詳細については、読者は https://github.com/ki-lw/Awesome-MLLMs-for-Video-Temporal-Grounding を参照してください。

> The recent advancement in video temporal grounding (VTG) has significantly enhanced fine-grained video understanding, primarily driven by multimodal large language models (MLLMs). With superior multimodal comprehension and reasoning abilities, VTG approaches based on MLLMs (VTG-MLLMs) are gradually surpassing traditional fine-tuned methods. They not only achieve competitive performance but also excel in generalization across zero-shot, multi-task, and multi-domain settings. Despite extensive surveys on general video-language understanding, comprehensive reviews specifically addressing VTG-MLLMs remain scarce. To fill this gap, this survey systematically examines current research on VTG-MLLMs through a three-dimensional taxonomy: 1) the functional roles of MLLMs, highlighting their architectural significance; 2) training paradigms, analyzing strategies for temporal reasoning and task adaptation; and 3) video feature processing techniques, which determine spatiotemporal representation effectiveness. We further discuss benchmark datasets, evaluation protocols, and summarize empirical findings. Finally, we identify existing limitations and propose promising research directions. For additional resources and details, readers are encouraged to visit our repository at https://github.com/ki-lw/Awesome-MLLMs-for-Video-Temporal-Grounding.

論文リンク

https://arxiv.org/abs/2508.10922

さらに読む

https://github.com/ki-lw/Awesome-MLLMs-for-Video-Temporal-Grounding

継続的事前学習によるエージェントのスケーリング / Scaling Agents via Continual Pre-training

論文紹介

大規模言語モデル（LLM）は、自律的なツール利用と複雑な問題解決のための多段階推論を実行できるエージェントシステムへと発展してきました。しかし、汎用目的の基盤モデルに基づく事後学習アプローチは、エージェントタスクにおいて一貫して低い性能を示しています。この問題の根本原因は、強力なエージェント基盤モデルの不在にあり、事後学習の過程で多様なエージェント行動を学習しながら専門家のデモンストレーションに合わせる必要があるため、最適化上の緊張が生じます。これを解決するため、私たちはエージェント継続的事前学習（Agentic Continual Pre-training, Agentic CPT）をディープリサーチエージェントの訓練パイプラインに統合する方法を初めて提案します。このアプローチに基づき、AgentFounderというディープリサーチエージェントモデルを開発しました。AgentFounder-30Bは10のベンチマークで評価され、最先端の性能を達成し、とりわけBrowseComp-enで39.9%、BrowseComp-zhで43.3%、HLEで31.5%のPass@1性能を維持し、強力なツール利用能力を示しました。

論文要旨(Abstract)

大規模言語モデル（LLM）は、自律的なツール利用および複雑な問題解決のための多段階推論が可能なエージェントシステムへと発展してきました。しかし、汎用目的の基盤モデルに基づく事後学習アプローチは、エージェントタスクで一貫して低い性能を示しており、とりわけオープンソース実装でその傾向が顕著です。私たちはその根本原因を特定しました。すなわち、強力なエージェント基盤モデルが存在しないため、事後学習の過程でモデルは多様なエージェント行動を同時に学習しつつ、それを専門家のデモンストレーションに合わせて調整しなければならず、根本的な最適化上の緊張が生じるということです。これを解決するため、私たちは強力なエージェント基盤モデルを構築するために、エージェント型継続的事前学習（Agentic CPT）をディープリサーチエージェントの訓練パイプラインに統合することを初めて提案します。このアプローチに基づいて、私たちはAgentFounderというディープリサーチエージェントモデルを開発しました。私たちはAgentFounder-30Bを10のベンチマークで評価し、強力なツール利用能力を維持しながら最先端性能を達成しました。特にBrowseComp-enで39.9%、BrowseComp-zhで43.3%、HLEでPass@1 31.5%を記録しました。

Large language models (LLMs) have evolved into agentic systems capable of autonomous tool use and multi-step reasoning for complex problem-solving. However, post-training approaches building upon general-purpose foundation models consistently underperform in agentic tasks, particularly in open-source implementations. We identify the root cause: the absence of robust agentic foundation models forces models during post-training to simultaneously learn diverse agentic behaviors while aligning them to expert demonstrations, thereby creating fundamental optimization tensions. To this end, we are the first to propose incorporating Agentic Continual Pre-training (Agentic CPT) into the deep research agents training pipeline to build powerful agentic foundational models. Based on this approach, we develop a deep research agent model named AgentFounder. We evaluate our AgentFounder-30B on 10 benchmarks and achieve state-of-the-art performance while retains strong tool-use ability, notably 39.9% on BrowseComp-en, 43.3% on BrowseComp-zh, and 31.5% Pass@1 on HLE.

論文リンク

https://arxiv.org/abs/2509.13310

さらに読む

https://tongyi-agent.github.io/blog/introducing-tongyi-deep-research/

差分プライバシー言語モデルのためのスケーリング則 / Scaling Laws for Differentially Private Language Models

論文紹介

差分プライバシー（Differential Privacy, DP）を適用した大規模言語モデル（Large Language Model, LLM）学習のスケーリング則に関する研究は、現代の人工知能（AI）分野における重要な進展を示している。本研究の主な目的は、DP LLM学習の複雑性を正確にモデル化するスケーリング則を確立し、計算資源・プライバシー・有用性の間のトレードオフを明確化するとともに、最適な学習構成を提示することである。従来のLLM学習においてスケーリング則は、性能向上の予測やハイパーパラメータ選択の指針を与える重要な役割を果たしてきたが、DP学習のダイナミクスはやや異なるため、そのスケーリング則はいまだ十分に理解されていない。

本研究では、損失を推定する関数 L(M,T,\\bar{\\sigma}) をフィッティングする過程を通じて、DP LLM学習のスケーリング則を確立した。ここで M はモデルのパラメータ数、T は学習反復回数、\\bar{\\sigma} はノイズバッチ比率を表し、この関数は線形補間によって適合される。Pythonの scipy.interpolate.RegularGridInterpolator を用いて実装されたこの関数は、対数空間で自然に変化するパラメータを考慮して定義される。このアプローチは、DP LLM学習の複雑な動態を理解するうえで役立ち、実験設定の範囲内で良好に定義された結果を導く。

さらに本研究は、適合した関数の数式および実装の詳細を通じて、評価点における滑らかなデータを正確に一致させ、その間の値も近似する方法を提示した。これにより、DP LLM学習のスケーリング則を理解するための重要な基礎資料を提供しており、今後の研究では提案されたスケーリング則を基盤として、多様なDP LLMアーキテクチャに対する実験を進め、理論モデルをさらに発展させる必要がある。

結果として本研究は、差分プライバシーを適用した大規模言語モデル学習のスケーリング則を確立することで、DP LLM学習の複雑性の理解を深め、今後のLLMの学習および最適化において重要な指針を提供するだろう。これらの発見は、DP LLMの実用性を高める方向への前進に寄与すると期待される。

論文要旨(Abstract)

スケーリング則は大規模言語モデル（LLM）学習の重要な要素として浮上しており、スケール拡大による性能向上を予測し、そうでなければ高コストとなる重要なハイパーパラメータ選択の指針を提供する。LLMはまた、（ときに機密性の高い）ユーザーデータに由来するような、大規模で高品質な学習データセットにも依存している。このような機密性の高いユーザーデータでモデルを学習するには、差分プライバシー（Differential Privacy, DP）のような慎重なプライバシー保護が必要である。しかし、DP学習のダイナミクスは大きく異なっており、その結果としてこれらのスケーリング則はいまだ完全には理解されていない。本研究では、DP LLM学習の複雑さを正確にモデル化するスケーリング則を確立し、多様な設定における計算資源・プライバシー・有用性のトレードオフと最適な学習構成の全体像を提示する。

Scaling laws have emerged as important components of large language model (LLM) training as they can predict performance gains through scale, and provide guidance on important hyper-parameter choices that would otherwise be expensive. LLMs also rely on large, high-quality training datasets, like those sourced from (sometimes sensitive) user data. Training models on this sensitive user data requires careful privacy protections like differential privacy (DP). However, the dynamics of DP training are significantly different, and consequently their scaling laws are not yet fully understood. In this work, we establish scaling laws that accurately model the intricacies of DP LLM training, providing a complete picture of the compute-privacy-utility tradeoffs and the optimal training configurations in many settings.

論文リンク

https://arxiv.org/abs/2501.18914

さらに読む

https://services.google.com/fh/files/blogs/vaultgemma_tech_report.pdf

https://huggingface.co/google/vaultgemma-1b

https://research.google/blog/…

https://discuss.pytorch.kr/t/vaultgemma-llm-feat-differential-privacy/…

R-Zero: ゼロデータから自己進化する推論LLM / R-Zero: Self-Evolving Reasoning LLM from Zero Data

論文紹介

自己進化する大規模言語モデル（LLM）は、自律的に経験を生成し学習することで、超知能へと向かうスケーラブルな道筋を提供します。既存の訓練手法は大規模な人手によるキュレーション作業やラベルに依存しており、AIシステムの発展に限界を課しています。これを克服するために、R-Zeroという完全自律フレームワークが提案されています。これはベースとなるLLMから出発し、ChallengerとSolverという2つの独立モデルを初期化します。これらのモデルは相互作用を通じて最適化され、R-Zeroは既存のタスクやラベルなしに目標指向の自己改善カリキュラムを生成して、多様なLLMの推論能力を大きく向上させます。

論文要旨（Abstract）

自己進化する大規模言語モデル（LLM）は、自律的に自らの経験を生成・洗練・学習することで、超知能へと向かうスケーラブルな道筋を提供します。しかし、そのようなモデルを学習させる既存手法は、依然として膨大な人手によるキュレーション済みタスクやラベルに強く依存しており、一般にはファインチューニング（fine-tuning）や強化学習（reinforcement learning）を通じて行われるため、AIシステムを人間の知能を超える能力へと進化させるうえで根本的なボトルネックとなっています。こうした制約を克服するために、私たちはR-Zeroを紹介します。R-Zeroは、ゼロから自ら学習データを生成する完全自律フレームワークです。単一のベースLLMから始め、R-Zeroは異なる役割を持つ2つの独立モデル、ChallengerとSolverを初期化します。これらのモデルは個別に最適化され、相互作用を通じて共進化します。ChallengerはSolverの能力限界付近のタスクを提案することで報酬を受け取り、SolverはChallengerが提示するますます困難なタスクを解くことで報酬を受け取ります。この過程により、既存のタスクやラベルを一切必要としない、目標指向かつ自己改善的なカリキュラムが生成されます。実証的には、R-ZeroはさまざまなバックボーンLLMにおいて推論能力を大幅に向上させ、たとえばQwen3-4B-Baseでは数学推論ベンチマークで+6.49、一般ドメイン推論ベンチマークで+7.54の改善を示します。

> Self-evolving Large Language Models (LLMs) offer a scalable path toward super-intelligence by autonomously generating, refining, and learning from their own experiences. However, existing methods for training such models still rely heavily on vast human-curated tasks and labels, typically via fine-tuning or reinforcement learning, which poses a fundamental bottleneck to advancing AI systems toward capabilities beyond human intelligence. To overcome this limitation, we introduce R-Zero, a fully autonomous framework that generates its own training data from scratch. Starting from a single base LLM, R-Zero initializes two independent models with distinct roles, a Challenger and a Solver. These models are optimized separately and co-evolve through interaction: the Challenger is rewarded for proposing tasks near the edge of the Solver capability, and the Solver is rewarded for solving increasingly challenging tasks posed by the Challenger. This process yields a targeted, self-improving curriculum without any pre-existing tasks and labels. Empirically, R-Zero substantially improves reasoning capability across different backbone LLMs, e.g., boosting the Qwen3-4B-Base by +6.49 on math-reasoning benchmarks and +7.54 on general-domain reasoning benchmarks.

論文リンク

https://arxiv.org/abs/2508.05004

🔥PyTorch Korea User Group🇰🇷がまとめたこの記事は役に立ちましたか？会員登録していただくと、主要な記事をメール💌でお届けします！（基本はWeeklyですが、Dailyへの変更も可能です。）

🎁 下↘️のいいね❤️を押していただけると、ニュース配信の励みになります~ 🤗

この記事はGPTモデルで整理した内容をもとにしているため、原文の内容や意図とは異なる形でまとめられている可能性があります。関心のある内容であれば、原文もあわせてご参照ください。お読みいただく中で不自然な点や誤りを見つけた場合は、コメントでお知らせいただけますと幸いです。 🤗

⚠️広告⚠️: 🔥PyTorch Korea User Group🇰🇷がまとめたこの記事は役に立ちましたか？会員登録していただくと、主要な記事をメール💌でお届けします！（基本はWeeklyですが、Dailyへの変更も可能です。）

[2025/09/15〜21] 今週チェックしておきたいAI/ML論文まとめ

PyTorchKR🔥🇰🇷 🤔💭

Reconstruction Alignmentは統合マルチモーダルモデルを改善する / Reconstruction Alignment Improves Unified Multimodal Models

論文紹介

論文要旨(Abstract)

論文リンク

私たちのAI君主を支援する: エージェント中心にデータシステムを再設計する / Supporting Our AI Overlords: Redesigning Data Systems to be Agent-First

論文紹介

論文要旨(Abstract)

論文リンク

AToken: ビジョンのための統合トークナイザー / AToken: A Unified Tokenizer for Vision

論文紹介

論文要旨(Abstract)

論文リンク

環境スケーリングによる汎用エージェント知能の向上 / Towards General Agentic Intelligence via Environment Scaling

論文紹介

論文要旨(Abstract)

論文リンク

さらに読む

文脈内学習は学習なのか？ / Is In-Context Learning Learning?

論文紹介

論文抄録(Abstract)

論文リンク

ディープダイブ: ナレッジグラフとマルチターン強化学習によるディープサーチエージェントの発展 / DeepDive: Advancing Deep Search Agents with Knowledge Graphs and Multi-Turn RL

論文紹介

論文抄録(Abstract)

論文リンク

さらに読む

マルチモーダル大規模言語モデルを活用した動画時間的グラウンディング調査 / A Survey on Video Temporal Grounding with Multimodal Large Language Model

論文紹介

論文抄録(Abstract)

論文リンク

さらに読む

継続的事前学習によるエージェントのスケーリング / Scaling Agents via Continual Pre-training

論文紹介

論文要旨(Abstract)

論文リンク

さらに読む

差分プライバシー言語モデルのためのスケーリング則 / Scaling Laws for Differentially Private Language Models

論文紹介

論文要旨(Abstract)

論文リンク

さらに読む

R-Zero: ゼロデータから自己進化する推論LLM / R-Zero: Self-Evolving Reasoning LLM from Zero Data

論文紹介

論文要旨（Abstract）

論文リンク

関連記事

まだコメントはありません。