ML論文まとめ

(discuss.pytorch.kr)

7 ポイント投稿者 ninebow 2025-12-24 | まだコメントはありません。 | WhatsAppで共有

[2025/12/15 ~ 21] 今週注目のAI/ML論文まとめ

PyTorchKR🔥🇰🇷 🤔💭

1️⃣ エージェント適応の重要性: 今週選ばれた論文は、エージェントベースAIシステムの性能と信頼性を高めるために、適応（adaptation）の必要性を強調しています。エージェントとツールの適応を統合した体系的なフレームワークが提案されており、これにより多様な適応戦略の設計空間を明確にし、実践的なガイドを提供します。

2️⃣ メモリシステムの進展: エージェントメモリはAIシステムの中核機能として定着しつつあり、多様な形態と機能を持つメモリシステムが研究されています。従来のメモリ分類方式では現代のエージェントメモリの多様性を捉えきれないという認識のもと、メモリの形態・機能・動態を統合的に分析し、新たな研究方向を提示しています。

3️⃣ 効率的なモデル変換と最適化: 最近の論文では、自己回帰言語モデル（AR）から拡散言語モデル（dLM）への移行を通じて、速度と精度を同時に向上させる方法が模索されています。特に、さまざまな注意パターンと学習戦略を比較し、効率的な移行のための原則と方法論を提案することで、モデル性能を最大化する方向で研究が進められています。

エージェント型AIの適応 / Adaptation of Agentic AI

論文紹介

最先端のエージェント型AIシステムは、ファウンデーションモデルを基盤として、ますます複雑で専門的なタスクを実行できる能力を備えつつある。こうしたシステムの性能、信頼性、汎化を向上させるために、適応は中核的なメカニズムとなっている。本研究では、エージェント適応とツール適応を包括する体系的なフレームワークを提示し、これを通じて多様な適応戦略の設計空間を明確化し、戦略間のトレードオフを明示する。フレームワークは、ツール実行シグナルおよびエージェント出力シグナルの形による適応へと細分化され、さらに批評エージェントおよび監督エージェントの形を取るツール適応にも分けられる。

この研究は、各カテゴリにおける代表的なアプローチを検討し、その強みと限界を分析するとともに、主要なオープン課題と今後の機会を強調する。特に、初期のA1タイプ手法は、教師ありファインチューニング（Supervised Fine-Tuning）および直接選好最適化（Direct Preference Optimization）に重点を置いており、これらの手法はツール使用に関するモデル応答を収集して学習信号を得る方式へと発展してきた。Toolformerのような初期モデルは、自己教師あり学習信号を活用してツール使用の改善を試みたが、実環境での適用には限界があった。

こうした限界を克服するため、TRICEやToolAlpacaのような後続モデルは、実行フィードバックを通じた強化学習を導入し、ツール使用能力を直接改善する方向へ進んだ。TP-LLaMAは、失敗した経路を活用してモデルが失敗から学べるようにする新しいアプローチを提示し、Gorillaは、大規模な機械学習API群の中で正しいAPI呼び出しを生成するための構造的正しさを重視する。CodeActは、実行可能なコード環境との直接的な相互作用を通じて学習するパラダイムを提案し、検証可能な結果に基づく学習目標の設定を可能にする。

最後に、RLVR（検証可能報酬）ベースの手法は、モデルがツールや環境とのオンライン相互作用を通じて直接学習するようにし、適応を動的かつコンテキスト認識可能なものにしている。これらの研究はエージェント型AIシステムの発展に貢献し、今後の研究および実務への応用可能性を示す重要な基盤を提供する。

論文要旨(Abstract)

最先端のエージェントAIシステムは、計画、推論、および外部ツールとの相互作用を通じて、ますます複雑で専門的なタスクを実行できるように適応可能なファウンデーションモデルに基づいています。こうしたシステムの能力と適用範囲が拡大するにつれて、適応は性能、信頼性、および汎化を改善するための中心的なメカニズムとなります。本論文では、急速に拡大している研究領域を、エージェント適応とツール適応の両方を包含する体系的なフレームワークへと統合します。さらにこれを、ツール実行シグナルに基づくエージェント適応とエージェント出力シグナルに基づくエージェント適応、そしてエージェント非依存型およびエージェント監督型のツール適応に細分化します。このフレームワークが、エージェントAIにおける適応戦略の設計空間を明確にし、そのトレードオフを可視化し、システム設計時に戦略を選択または切り替えるための実践的指針を提供することを示します。続いて各カテゴリの代表的アプローチをレビューし、その強みと限界を分析するとともに、主要なオープン課題と将来の機会を強調します。全体として本論文は、より高性能で、効率的で、信頼できるエージェントAIシステムを構築しようとする研究者および実務者に向けて、概念的基盤と実践的ロードマップを提供することを目的としています。
> Cutting-edge agentic AI systems are built on foundation models that can be adapted to plan, reason, and interact with external tools to perform increasingly complex and specialized tasks. As these systems grow in capability and scope, adaptation becomes a central mechanism for improving performance, reliability, and generalization. In this paper, we unify the rapidly expanding research landscape into a systematic framework that spans both agent adaptations and tool adaptations. We further decompose these into tool-execution-signaled and agent-output-signaled forms of agent adaptation, as well as agent-agnostic and agent-supervised forms of tool adaptation. We demonstrate that this framework helps clarify the design space of adaptation strategies in agentic AI, makes their trade-offs explicit, and provides practical guidance for selecting or switching among strategies during system design. We then review the representative approaches in each category, analyze their strengths and limitations, and highlight key open challenges and future opportunities. Overall, this paper aims to offer a conceptual foundation and practical roadmap for researchers and practitioners seeking to build more capable, efficient, and reliable agentic AI systems.

論文リンク

https://arxiv.org/abs/2512.16301

さらに読む

https://github.com/pat-jj/Awesome-Adaptation-of-Agentic-AI

AIエージェント時代の記憶 / Memory in the Age of AI Agents

論文紹介

エージェントメモリは、現代の人工知能（AI）システムにおいて不可欠な要素として定着しており、本研究はこうしたメモリの複雑性と多様性を体系的に整理・分析することを目的としている。既存研究は、エージェントメモリの動機、実装方式、評価プロトコルにおいて大きな違いがあり、その結果として概念的な明確性が欠けている。そこで本論文は、エージェントメモリの範囲を明確に定義し、大規模言語モデル（LLM）メモリ、検索拡張生成（RAG）、コンテキストエンジニアリングとの違いを強調する。

研究では、エージェントメモリを形態、機能、動態という3つの観点から分析する。形態的観点では、トークンレベル、パラメトリック、潜在メモリという3つの主要な形態を提示し、各形態の特性と動作方式を説明する。機能的観点では、事実的、経験的、作業メモリに区分し、それぞれのメモリが果たす役割を明確にする。動態的観点では、メモリが形成され、進化し、検索される過程を探究し、エージェントが環境と相互作用するあいだにメモリがどのように機能するかを分析する。

この研究はまた、実用的な開発を支援するために、メモリベンチマークとオープンソースフレームワークに関する包括的な要約を提供し、メモリ自動化、強化学習統合、マルチモーダルメモリ、マルチエージェントメモリなどの新たな研究フロンティアに対する展望を示している。こうしたアプローチは、エージェントメモリシステムの設計において、メモリを第一級のプリミティブ概念として再考できる基盤を築き、今後の研究の方向性を示している。

結果として、本論文はエージェントメモリ研究の現状を総合的に整理し、今後の研究への洞察を提供することで、AIエージェントのメモリシステムの発展に貢献することが期待される。

論文抄録(Abstract)

メモリは、ファウンデーションモデルベースのエージェントにおける中核的能力として台頭しており、今後も引き続き重要な役割を果たすだろう。エージェントメモリに関する研究が急速に拡大し、かつてない注目を集める中で、この分野はますます断片化している。エージェントメモリという傘下に入る既存研究は、動機、実装、評価プロトコルにおいて大きく異なることが多く、曖昧に定義されたメモリ用語の増殖が概念的明確さをさらに損なっている。長期／短期メモリのような従来の分類法は、現代のエージェントメモリシステムの多様性を捉えるには不十分であることが示されている。本研究は、現在のエージェントメモリ研究の最新の地図を提供することを目的とする。まず、エージェントメモリの範囲を明確に定義し、LLMメモリ、検索拡張生成(RAG)、コンテキストエンジニアリングといった関連概念と区別する。続いて、形態、機能、ダイナミクスという統一的な視点からエージェントメモリを検討する。形態の観点からは、エージェントメモリの三つの主要な実現形態として、トークンレベル、パラメトリック、潜在メモリを特定する。機能の観点からは、事実メモリ、経験メモリ、作業メモリを区別する、より細粒度な分類法を提案する。ダイナミクスの観点からは、メモリがどのように形成され、進化し、時間の経過とともにどのように検索されるかを分析する。実用的な開発を支援するために、メモリベンチマークとオープンソースフレームワークの包括的な要約をまとめる。統合にとどまらず、メモリ自動化、強化学習統合、マルチモーダルメモリ、マルチエージェントメモリ、信頼性の問題など、新たな研究フロンティアに対する将来志向の視点も提示する。本サーベイが既存研究の参考資料としてだけでなく、将来のエージェント的知能の設計においてメモリを第一級のプリミティブ概念として再考するために必要な概念的基盤としても機能することを願っている。
> Memory has emerged, and will continue to remain, a core capability of foundation model-based agents. As research on agent memory rapidly expands and attracts unprecedented attention, the field has also become increasingly fragmented. Existing works that fall under the umbrella of agent memory often differ substantially in their motivations, implementations, and evaluation protocols, while the proliferation of loosely defined memory terminologies has further obscured conceptual clarity. Traditional taxonomies such as long/short-term memory have proven insufficient to capture the diversity of contemporary agent memory systems. This work aims to provide an up-to-date landscape of current agent memory research. We begin by clearly delineating the scope of agent memory and distinguishing it from related concepts such as LLM memory, retrieval augmented generation (RAG), and context engineering. We then examine agent memory through the unified lenses of forms, functions, and dynamics. From the perspective of forms, we identify three dominant realizations of agent memory, namely token-level, parametric, and latent memory. From the perspective of functions, we propose a finer-grained taxonomy that distinguishes factual, experiential, and working memory. From the perspective of dynamics, we analyze how memory is formed, evolved, and retrieved over time. To support practical development, we compile a comprehensive summary of memory benchmarks and open-source frameworks. Beyond consolidation, we articulate a forward-looking perspective on emerging research frontiers, including memory automation, reinforcement learning integration, multimodal memory, multi-agent memory, and trustworthiness issues. We hope this survey serves not only as a reference for existing work, but also as a conceptual foundation for rethinking memory as a first-class primitive in the design of future agentic intelligence.

論文リンク

https://arxiv.org/abs/2512.13564

さらに読む

https://github.com/Shichun-Liu/Agent-Memory-Paper-List

大規模言語モデル駆動エージェントにおける詳細釣り合い / Detailed balance in large language model-driven agents

論文紹介

大規模言語モデル(LLM)ベースのエージェントは、複雑な問題を解決するうえで革新的なアプローチを提供しているが、こうしたシステムの経験的な成功にもかかわらず、理論的フレームワークは不足している。本研究は、最小作用の原理に基づいてLLMの生成方向性を推定する新たな方法論を提案する。この方法論は、LLMが生成した状態間の遷移確率を実験的に測定することで、LLM生成遷移において見いだされた詳細釣り合いを統計的に立証する。こうした発見は、LLMが特定の規則セットや戦略を学習しているのではなく、さまざまなLLMアーキテクチャやプロンプトテンプレートを超えて適用可能な潜在関数のクラスを暗黙的に学習している可能性を示唆している。

この研究は、LLM生成ダイナミクスにおける巨視的な物理法則を初めて発見した事例であり、複雑な人工知能(AI)システムの巨視的ダイナミクス理論を確立しようとする試みを含んでいる。これにより、AIエージェント研究を、単なるエンジニアリング実践の集合から、予測可能で定量化可能な科学へと発展させるための基盤を築くことを目指している。LLMの生成過程で生じる遷移のダイナミクスを理解することは、このようなシステムの動作原理を解明するうえで不可欠である。

本研究は、LLMの生成ダイナミクスを説明できる新しい理論的フレームワークを提案し、これを通じてAI研究の新たな方向性を示す。実験的アプローチによって収集されたデータは、LLMの動作原理を理解するうえで重要な貢献を果たし、今後の研究の基礎資料として活用できる。こうした研究成果は、LLMベースのエージェントの設計および活用において重要な洞察を提供し、AI技術の発展に貢献することが期待される。

論文抄録(Abstract)

大規模言語モデル（LLM）駆動エージェントは、複雑な問題を解くための強力な新しいパラダイムとして台頭しています。こうした実践の経験的成功にもかかわらず、その巨視的な動力学を理解し統一するための理論的フレームワークは依然として不足しています。本論文では、最小作用の原理に基づき、エージェント内に埋め込まれたLLMの基礎的な生成方向性を推定する手法を提案します。LLMが生成した状態間の遷移確率を実験的に測定することで、私たちはLLMが生成した遷移における詳細つり合いを統計的に発見しました。これは、LLMの生成が一般的にルール集合や戦略を学習することで達成されるのではなく、異なるLLMアーキテクチャやプロンプトテンプレートを超越しうる基礎的な潜在関数のクラスを暗黙的に学習することで実現されている可能性を示唆しています。私たちの知る限り、これは特定のモデル詳細に依存しないLLM生成動力学における巨視的な物理法則の初めての発見です。この研究は、複雑なAIシステムの巨視的動力学理論を確立しようとする試みであり、AIエージェント研究をエンジニアリング実践の寄せ集めから、予測可能かつ定量化可能な有効測定に基づく科学へと発展させることを目指しています。
> Large language model (LLM)-driven agents are emerging as a powerful new paradigm for solving complex problems. Despite the empirical success of these practices, a theoretical framework to understand and unify their macroscopic dynamics remains lacking. This Letter proposes a method based on the least action principle to estimate the underlying generative directionality of LLMs embedded within agents. By experimentally measuring the transition probabilities between LLM-generated states, we statistically discover a detailed balance in LLM-generated transitions, indicating that LLM generation may not be achieved by generally learning rule sets and strategies, but rather by implicitly learning a class of underlying potential functions that may transcend different LLM architectures and prompt templates. To our knowledge, this is the first discovery of a macroscopic physical law in LLM generative dynamics that does not depend on specific model details. This work is an attempt to establish a macroscopic dynamics theory of complex AI systems, aiming to elevate the study of AI agents from a collection of engineering practices to a science built on effective measurements that are predictable and quantifiable.

論文リンク

https://arxiv.org/abs/2512.10047

Efficient-DLM：自己回帰から拡散言語モデルへ、そして速度を超えて / Efficient-DLM: From Autoregressive to Diffusion Language Models, and Beyond in Speed

論文紹介

拡散言語モデル（Diffusion Language Models, dLM）は、並列な非自己回帰生成が可能な有望なパラダイムとして注目されている一方、自己回帰言語モデル（Autoregressive Language Models, AR）と比べて学習効率が低いという課題がある。この問題を解決するため、ARモデルを効率的なdLMへ変換する方法論が提案された。研究者らは既存のAR-to-dLM変換手法の限界を分析し、ARモデルの事前学習済み重みの分布を維持することが効果的な変換に不可欠であることを見いだした。

これを踏まえ、ブロック単位のアテンションパターンを維持する継続事前学習方式が導入された。この方式は各ブロック内で双方向モデリングを可能にし、ARモデルの重み分布をよりよく保持できるようにした。また、KVキャッシュを可能にすることで、精度と効率を同時に向上させる利点もある。学習時のマスクトークン分布の差を減らすため、位置依存のトークンマスキング戦略も提案されており、これは学習過程で後続トークンにより高いマスキング確率を与えることで、テスト時の挙動をよりよく模倣できるようにする。

これらの方法論を通じて、dLMのアテンションパターン、学習動力学、設計選択に関する広範な研究が行われ、ARからdLMへのスケーラブルな変換に向けた実行可能な洞察が提供された。最終的に、Efficient-DLMファミリーは最新のARモデルおよびdLMを上回る性能を示し、特にEfficient-DLM 8BはDream 7BおよびQwen3 4Bと比べて、それぞれ+5.4%および+2.7%高い精度と、4.5倍および2.7倍高いスループットを達成した。こうした研究は、ARモデルからdLMへの効果的な変換に向けた新たな方法論を提示し、学習効率とモデル性能の双方の向上に貢献している。

論文要旨（Abstract）

拡散言語モデル（dLM）は、並列な非自己回帰生成を可能にする有望なパラダイムとして台頭していますが、ゼロから学習する場合、自己回帰（AR）言語モデルと比べて学習効率が劣ります。これを解決するため、私たちは事前学習済みのARモデルを効率的なdLMへ変換するAR-to-dLM変換を研究し、高速化を実現しつつARモデルのタスク精度を維持します。私たちは既存のAR-to-dLM手法におけるアテンションパターンと目的関数の限界を特定し、より効果的なAR-to-dLM変換のための原則と方法論を提案します。具体的には、まずさまざまなアテンションパターンを体系的に比較し、事前学習済みARの重み分布を維持することが効果的なAR-to-dLM変換に重要であることを見いだしました。そこで、ブロック間では因果性を維持しつつ、各ブロック内では双方向モデリングを可能にする、ブロック単位のアテンションパターンを備えた継続事前学習方式を導入します。このアプローチは、完全な双方向モデリングよりも事前学習済みARモデルの重み分布をよりよく保持でき、さらにKVキャッシュを可能にする既知の利点と相まって、精度と効率の両面でウィンウィンの結果をもたらします。次に、マスクトークン分布における訓練時と推論時のギャップを緩和するため、訓練中に後続トークンへより高いマスキング確率を割り当て、推論時の挙動をよりよく模倣する位置依存トークンマスキング戦略を提案します。このフレームワークを活用し、私たちはdLMのアテンションパターン、学習ダイナミクス、その他の設計選択について広範な研究を行い、スケーラブルなAR-to-dLM変換に向けた実用的な洞察を提供します。これらの研究はEfficient-DLMファミリーへとつながり、最先端のARモデルおよびdLMを上回ります。たとえば、私たちのEfficient-DLM 8Bは、Dream 7BおよびQwen3 4Bと比較して、それぞれ+5.4%/+2.7%高い精度と4.5x/2.7x高いスループットを達成します。
> Diffusion language models (dLMs) have emerged as a promising paradigm that enables parallel, non-autoregressive generation, but their learning efficiency lags behind that of autoregressive (AR) language models when trained from scratch. To this end, we study AR-to-dLM conversion to transform pretrained AR models into efficient dLMs that excel in speed while preserving AR models' task accuracy. We achieve this by identifying limitations in the attention patterns and objectives of existing AR-to-dLM methods and then proposing principles and methodologies for more effective AR-to-dLM conversion. Specifically, we first systematically compare different attention patterns and find that maintaining pretrained AR weight distributions is critical for effective AR-to-dLM conversion. As such, we introduce a continuous pretraining scheme with a block-wise attention pattern, which remains causal across blocks while enabling bidirectional modeling within each block. We find that this approach can better preserve pretrained AR models' weight distributions than fully bidirectional modeling, in addition to its known benefit of enabling KV caching, and leads to a win-win in accuracy and efficiency. Second, to mitigate the training-test gap in mask token distributions (uniform vs. highly left-to-right), we propose a position-dependent token masking strategy that assigns higher masking probabilities to later tokens during training to better mimic test-time behavior. Leveraging this framework, we conduct extensive studies of dLMs' attention patterns, training dynamics, and other design choices, providing actionable insights into scalable AR-to-dLM conversion. These studies lead to the Efficient-DLM family, which outperforms state-of-the-art AR models and dLMs, e.g., our Efficient-DLM 8B achieves +5.4%/+2.7% higher accuracy with 4.5x/2.7x higher throughput compared to Dream 7B and Qwen3 4B, respectively.

論文リンク

https://arxiv.org/abs/2512.14067

すべてはコンテキストである：コンテキストエンジニアリングのためのエージェント型ファイルシステム抽象化 / Everything is Context: Agentic File System Abstraction for Context Engineering

論文紹介

Generative AI（GenAI）の発展は、ソフトウェアシステム設計に革新的な変化をもたらしており、とりわけファウンデーションモデルを通じてアーキテクチャと運用の再定義が進んでいます。現在の主要な課題は、モデルのファインチューニングを超えて、外部知識、メモリ、ツール、人間の入力を効果的に取り込み構造化する「コンテキストエンジニアリング」へと移行しています。既存のプロンプトエンジニアリングや検索拡張生成（RAG）のようなアプローチは断片的であり、その結果として生成されるコンテキストアーティファクトはしばしば一時的で検証不能という問題を引き起こします。

本研究は、Unixの「すべてはファイルである」という哲学に着想を得て、コンテキストエンジニアリングのためのファイルシステム抽象化を提案します。この抽象化は、異種のコンテキストアーティファクトを管理するための永続的かつ管理可能なインフラを提供し、一貫したマウント、メタデータ、アクセス制御を可能にします。AIGNEフレームワーク内で実装されたこのアーキテクチャは、コンテキスト生成器、ローダー、評価器から成る検証可能なコンテキストエンジニアリングパイプラインを通じて、トークン制約の下でコンテキストを組み立て、伝達し、検証する機能を担います。

GenAIが意思決定支援における能動的な協働者として位置づけられるにつれ、人間はキュレーター、検証者、共同推論者として中心的な役割を担うことになります。本研究は、メモリを備えたエージェントとMCPベースのGitHubアシスタントを通じて、提案アーキテクチャの実用性を実証し、開発者および産業環境での運用可能性を示しています。このアプローチは、責任ある人間中心のAI協働のための再利用可能な基盤を確立し、検証可能で保守しやすいGenAIシステムを支えることに貢献します。

結論として、本研究はGenAIシステム設計におけるコンテキストエンジニアリングの重要性を強調し、ファイルシステムベースの抽象化がいかにして永続的かつ透明なコンテキスト管理の土台を築けるかを示します。

論文要旨（Abstract）

生成AI（GenAI）は、事前学習済みのサブシステムとしてファウンデーションモデルを導入することで、ソフトウェアシステム設計を再構成しました。新たな課題はもはやモデルのファインチューニングではなく、信頼できる推論を可能にするために、システムが外部知識、記憶、ツール、人間の入力をどのように取り込み、構造化し、管理するかというコンテキストエンジニアリングです。プロンプトエンジニアリング、検索拡張生成（RAG）、ツール統合といった既存の実践は断片的なままであり、トレーサビリティと説明責任を制限する一時的な成果物を生み出しています。本論文は、「すべてはファイルである」というUnixの概念に着想を得て、コンテキストエンジニアリングのためのファイルシステム抽象化を提案します。この抽象化は、統一的なマウント、メタデータ、アクセス制御を通じて、異種のコンテキスト成果物を管理するための永続的で統制されたインフラを提供します。オープンソースのAIGNEフレームワーク内で実装されたこのアーキテクチャは、トークン制約下でコンテキストを組み立て、配信し、検証する Context Constructor、Loader、Evaluator から成る検証可能なコンテキストエンジニアリング・パイプラインを実現します。GenAIが意思決定支援における能動的な協働者となるにつれ、人間はキュレーター、検証者、共同推論者として中心的な役割を担います。提案されたアーキテクチャは、メモリを持つエージェントとMCPベースのGitHubアシスタントという2つの実例を通じて、説明責任があり人間中心のAI協働のための再利用可能な基盤を構築します。AIGNEフレームワーク内での実装は、このアーキテクチャが開発者環境および産業環境でどのように運用できるかを示しており、検証可能で保守可能、かつ産業利用に対応したGenAIシステムを支えます。
> Generative AI (GenAI) has reshaped software system design by introducing foundation models as pre-trained subsystems that redefine architectures and operations. The emerging challenge is no longer model fine-tuning but context engineering-how systems capture, structure, and govern external knowledge, memory, tools, and human input to enable trustworthy reasoning. Existing practices such as prompt engineering, retrieval-augmented generation (RAG), and tool integration remain fragmented, producing transient artefacts that limit traceability and accountability. This paper proposes a file-system abstraction for context engineering, inspired by the Unix notion that 'everything is a file'. The abstraction offers a persistent, governed infrastructure for managing heterogeneous context artefacts through uniform mounting, metadata, and access control. Implemented within the open-source AIGNE framework, the architecture realises a verifiable context-engineering pipeline, comprising the Context Constructor, Loader, and Evaluator, that assembles, delivers, and validates context under token constraints. As GenAI becomes an active collaborator in decision support, humans play a central role as curators, verifiers, and co-reasoners. The proposed architecture establishes a reusable foundation for accountable and human-centred AI co-work, demonstrated through two exemplars: an agent with memory and an MCP-based GitHub assistant. The implementation within the AIGNE framework demonstrates how the architecture can be operationalised in developer and industrial settings, supporting verifiable, maintainable, and industry-ready GenAI systems.

論文リンク

https://arxiv.org/abs/2512.05470

エージェントシステムのスケーリング科学に向けて / Towards a Science of Scaling Agent Systems

論文紹介

エージェントおよび言語モデルベースのシステムは、実世界のAIアプリケーションにおいてますます重要な役割を担っていますが、これらのシステムの性能を決定する原則は、まだ十分に探究されていません。本研究は、エージェントシステムの定量的なスケーリング原則を導き出すことで、このようなギャップを埋めることを目指しており、実務家が経験則ではなく原則に基づいた設計判断を行えるよう支援します。研究は、Finance-Agent、BrowseComp-Plus、PlanCraft、Workbench という4つの異なるベンチマークを通じて実施され、5つの典型的なアーキテクチャ（単一、独立型、中央集権型、分散型、ハイブリッド）を3つの言語モデル系列に適用し、180構成に対する統制された評価を行います。

この研究の中核は、経験的な調整メトリクスを用いて予測モデルを導出することです。このモデルは、効率性、オーバーヘッド、誤りの増幅、冗長性といったさまざまな要素を考慮し、交差検証済みのR²値 0.513 を達成します。研究により、3つの主要な効果が確認されました。第一に、ツール-調整トレードオフとして、固定された計算予算の下では、ツール中心のタスクがマルチエージェントのオーバーヘッドによって不均衡に大きな影響を受けることが示されます。第二に、能力飽和現象として、単一エージェントの性能が約45%を超えると、調整による利益が減少するか、負のリターンをもたらすことが示されます。第三に、トポロジー依存の誤り増幅現象として、独立エージェントは誤りを17.2倍に増幅する一方で、中央集権型の調整はこれを4.4倍に抑制します。

中央集権型の調整は、財務推論のような並列化可能なタスクにおいて性能を80.9%向上させ、分散型の調整は動的なWeb探索において相対的に優れた性能を示します。しかし、逐次推論タスクでは、すべてのマルチエージェント変種が性能を39〜70%低下させる結果となりました。これらの発見は、エージェントシステムの性能予測と最適な調整戦略の提示に重要な貢献を果たし、エージェント的タスクの特性に基づく予測原則を提供します。本研究は、エージェントシステムのスケーリング原則を定量的に導出することで、実務家がより効果的にシステムを設計・最適化できるための基盤を築きます。

論文要旨（Abstract）

エージェント、言語モデル（LM）ベースのシステムは、推論・計画・行動が可能なシステムとして、実世界のAIアプリケーションにおける支配的なパラダイムになりつつあります。こうした広範な採用にもかかわらず、その性能を決定する原理は十分に探究されておらず、実務者は原理に基づく設計選択ではなくヒューリスティックに頼らざるを得ない状況です。私たちはこのギャップを埋めるため、エージェントシステムのための定量的なスケーリング原則を導出します。これを Finance-Agent、BrowseComp-Plus、PlanCraft、Workbench という4つの多様なベンチマークで評価します。3つのLLMファミリーにまたがって、5つの代表的なアーキテクチャ（Single、Independent、Centralized、Decentralized、Hybrid）を実装し、標準化されたツールとトークン予算を用いて、180の構成にわたる統制評価を実施します。効率性、オーバーヘッド、エラー増幅、冗長性を含む経験的な協調メトリクスを用いて予測モデルを導出し、これは交差検証で $R^2=0.513$ を達成します。私たちは3つの主要な効果を特定します。(1) ツール協調のトレードオフ：固定された計算予算の下では、ツール中心のタスクはマルチエージェントのオーバーヘッドによって不均衡に大きな影響を受けます。(2) 能力飽和：単一エージェントのベースラインが約45%を超えると、協調による効果は逓減するか、あるいは負の結果をもたらします(beta=-0.408, p<0.001)。(3) トポロジー依存のエラー増幅：独立エージェントは制御されない伝播を通じてエラーを17.2倍に増幅する一方、中央集権的な協調はこれを4.4倍に抑えます。中央集権的な協調は、財務推論のような並列化可能なタスクで性能を80.9%向上させ、分散型の協調は動的なWebナビゲーションで優れた性能を示します（+9.2% 対 +0.2%）。しかし逐次的な推論タスクでは、すべてのマルチエージェント変種が性能を39〜70%低下させました。このフレームワークは、保留した構成の87%について最適な協調戦略を予測し、測定可能なタスク特性に基づくエージェント的スケーリングの予測原則を提供します。
> Agents, language model (LM)-based systems that are capable of reasoning, planning, and acting are becoming the dominant paradigm for real-world AI applications. Despite this widespread adoption, the principles that determine their performance remain underexplored, leaving practitioners to rely on heuristics rather than principled design choices. We address this gap by deriving quantitative scaling principles for agent systems. We evaluate this across four diverse benchmarks: Finance-Agent, BrowseComp-Plus, PlanCraft, and Workbench. Using five canonical architectures (Single, Independent, Centralized, Decentralized, Hybrid) instantiated across three LLM families, we perform a controlled evaluation spanning 180 configurations with standardized tools and token budgets. We derive a predictive model using empirical coordination metrics, including efficiency, overhead, error amplification, and redundancy, that achieves cross-validated $R^2=0.513$. We identify three dominant effects: (1) a tool-coordination trade-off: under fixed computational budgets, tool-heavy tasks suffer disproportionately from multi-agent overhead. (2) a capability saturation: coordination yields diminishing or negative returns (beta=-0.408, p<0.001) once single-agent baselines exceed ~45%. (3) topology-dependent error amplification: independent agents amplify errors 17.2x through unchecked propagation, while centralized coordination contains this to 4.4x. Centralized coordination improves performance by 80.9% on parallelizable tasks like financial reasoning, while decentralized coordination excels on dynamic web navigation (+9.2% vs. +0.2%). Yet for sequential reasoning tasks, all multi-agent variants degraded performance by 39-70%. The framework predicts the optimal coordination strategy for 87% of held-out configurations, providing a predictive principle of agentic scaling based on measurable task properties.

論文リンク

https://arxiv.org/abs/2512.08296

LMCache: エンタープライズ規模のLLM推論のための効率的なKVキャッシュレイヤー / LMCache: An Efficient KV Cache Layer for Enterprise-Scale LLM Inference

論文紹介

大規模言語モデル（LLM）推論の効率を高める新しいアプローチとして、LMCache が提案された。従来、KVキャッシュはGPUメモリに保存され、LLMのデコーディング段階を高速化するために利用されてきたが、近年はユーザーが保存するKVキャッシュの量がGPUメモリ容量を超える状況になっている。こうした背景のもと、LMCacheはKVキャッシュをGPU外部へ移動し、異なるクエリや推論エンジン間での再利用を可能にする初のオープンソースソリューションとして位置づけられている。

LMCacheの中核機能は、キャッシュオフロードとプリフィル・デコード（PD）分散をサポートすることにある。これにより、クエリ間でのプレフィックス再利用が可能になり、異なるGPU間でのキャッシュ転送も容易になる。LMCacheは3つの主要な貢献によって性能を最大化する。第一に、バッチデータ移動処理と計算および入出力（I/O）パイプライニングを通じて、KVキャッシュのデータ移動を最適化した。第二に、モジュール型のKVキャッシュコネクタを導入し、さまざまな推論エンジンの進化に柔軟に対応できるようにした。第三に、GPU、CPU、ストレージ、ネットワーク層の間でキャッシュを調整するためのファーストクラス制御APIを提供し、ユーザーに柔軟性を与える。

LMCacheの性能は、vLLMと組み合わせることで、多ラウンド質問応答や文書分析などさまざまなタスクにおいて最大15倍のスループット向上を示した。実際のユースケースを通じて、リモートストレージからKVキャッシュを取得することがプリフィル遅延の削減に有効であることを確認し、業界で広く使われているコンテキスト切り詰め手法がプレフィックスキャッシュヒット率を半減させうるという重要な洞察も示した。

結論として、LMCacheはLLM推論の効率を大幅に向上させる革新的なソリューションであり、企業環境での大規模採用を通じて多様な産業に貢献すると期待される。これはLLMエンジンを分散コンピューティングおよびストレージのエコシステムへと変貌させ、今後AIネイティブデータがLLM推論の基盤として定着する可能性を示唆している。

論文要旨（Abstract）

KVキャッシュは従来、大規模言語モデル（LLM）推論のデコーディング段階を高速化するためにGPUメモリに保存されてきました。しかし、異なるクエリや推論エンジン間でキャッシュの再利用を可能にするため、KVキャッシュをGPUデバイスの外部へ移す必要性がますます高まっています。実運用での利用統計もこの傾向を裏付けています。時間の経過とともに、ユーザーが保存したKVキャッシュの総量は急速に増加し、GPUメモリ容量をはるかに超えるようになりました。この必要性があるにもかかわらず、KVキャッシュをオフロードして転送する効率的な解決策は不足しています。私たちはLMCACHEを提案します。これは、現代のLLMエンジン（vLLMおよびSGLang）で生成されたKVキャッシュをGPUメモリ外に抽出・保存し、エンジン間およびクエリ間で共有する、初かつ現時点で最も効率的なオープンソースのKVキャッシングソリューションです。LMCACHEは、キャッシュのオフロード（クエリ間でのプレフィックス再利用）と、prefill-decode（PD）分離（エンジン間/GPU間でのキャッシュ転送）の両方をサポートします。LMCACHEの高性能と広範な採用は、次の貢献に由来します。(1) バッチ化されたデータ移動操作、計算およびI/Oパイプライニングによって支えられる、高度に最適化されたKVキャッシュのデータ移動、(2) 推論エンジンの急速な進化からLMCACHEを切り離すモジュール式KVキャッシュコネクタコンポーネント、(3) GPU、CPU、ストレージ、ネットワーク層にまたがる柔軟なキャッシュオーケストレーションのためのファーストクラスの制御APIです。評価の結果、LMCACHEとvLLMを組み合わせることで、複数ラウンドの質問応答や文書解析などのワークロードにおいて、最大15倍のスループット向上を達成できることが示されました。企業環境でのLMCACHEの大規模な採用からは、リモートストレージからKVキャッシュを取得することが予想どおりprefill遅延に有益であること、また業界で広く用いられているコンテキスト切り詰めがプレフィックスキャッシュのヒット率を半分にまで大きく低下させうることなど、有益な知見が得られています。LMCACHEのソースコードは次のリンクで確認できます: https://github.com/LMCache/LMCache.
> KV cache has traditionally been stored in GPU memory to accelerate the decoding phase of large language model (LLM) inference. However, it is increasingly necessary to move KV caches outside GPU devices, to enable cache reuse across different queries and inference engines. Our real-world usage statistics confirm this trend: over time, the total KV cache stored by users has grown rapidly, far exceeding the capacity of GPU memory. Despite this need, there lacks an efficient solution for offloading and transferring KV caches. We present LMCACHE, the first and so far the most efficient open-source KV caching solution, which extracts and stores KV caches generated by modern LLM engines (vLLM and SGLang) out of the GPU memory and shares them across engines and queries. LMCACHE supports both cache offloading (prefix reuse across queries) and prefill-decode (PD) disaggregation (cross-engine/GPU cache transfer). LMCACHE's high performance and wide adoption stem from the following contributions: (1) highly optimized KV cache data movement powered by batched data movement operations, compute and I/O pipelining; (2) a modular KV cache connector component, decoupling LMCACHE from the rapid evolution of inference engines; (3) a first-class control API for flexible cache orchestration across GPU, CPU, storage, and network layers. Our evaluation shows that combining LMCACHE with vLLM achieves up to 15x improvement in throughput across workloads such as multi-round question answering and document analysis. Large-scale adoption of LMCACHE in enterprise settings provides us valuable insights, for example, fetching KV cache from remote storage has unsurprisingly benefits to prefill delay, and that context truncation, which is a widely applied technique in industry, can greatly reduce prefix cache hit ratio by half. The source code of LMCACHE is at: https://github.com/LMCache/LMCache.

論文リンク

https://arxiv.org/abs/2510.09665

さらに読む

https://github.com/LMCache/LMCache

https://discuss.pytorch.kr/t/lmcache-llm/7179

ReFusion: 並列自己回帰デコーディングを備えた拡散大規模言語モデル / ReFusion: A Diffusion Large Language Model with Parallel Autoregressive Decoding

論文紹介

ReFusionは、並列自己回帰デコーディングを活用した革新的なマスク拡散モデルであり、既存の自己回帰モデル（ARM）とマスク拡散モデル（MDM）の限界を克服するために設計されています。従来のARMは逐次デコーディング方式のため推論速度が遅く、MDMは条件付き独立性を仮定するものの、アーキテクチャ上のボトルネックや生成の一貫性の欠如によって効率が低下します。ReFusionはこれらの問題を解決するため、並列デコーディングをスロットレベルへと拡張します。ここでのスロットとは、固定長の連続した部分系列を指します。

ReFusionの中核は「計画と穴埋め（plan-and-infill）」デコーディングプロセスです。この過程では、第一段階で依存性の弱いスロットを識別し、第二段階でそれらのスロットを並列にデコードします。このスロットベースの設計により、Key-Value（KV）キャッシュの再利用が可能となり、毎回コンテキスト全体のKV状態を再計算する必要がなくなります。その結果、学習複雑性はトークンの組み合わせ空間からスロットレベルの順列空間へと縮小され、効率が大幅に向上します。

実験の結果、ReFusionは従来のMDMと比べて34%の性能向上と平均18倍の高速化を記録し、強力なARMとの性能差を縮めつつ平均2.33倍の速度向上も達成しました。これらの成果は、ReFusionが既存モデルの限界を克服し、新たな拡散モデルの可能性を示していることを意味します。

ReFusionは、KVキャッシュの再利用と学習複雑性の低減を通じて、性能と速度の両面で革新的な貢献を果たしており、今後の研究方向に対する重要な洞察を提供します。このモデルは拡散モデルと自己回帰モデルの長所を組み合わせることで、大規模言語モデルの発展に寄与すると期待されています。

論文要旨（Abstract）

自己回帰モデル（ARMs）は、逐次的な推論が遅いため制約を受けます。マスク拡散モデル（MDMs）は並列な代替手段を提供しますが、重大な欠点があります。すなわち、キー・バリュー（KV）キャッシュを利用できないことによる高い計算オーバーヘッドと、扱いきれないトークン組み合わせ空間上で依存関係を学習することに起因する一貫性のない生成です。これらの限界に対処するため、私たちは ReFusion という新しいマスク拡散モデルを紹介します。ReFusion は、各スロットを固定長の連続した部分系列とする、より高いスロットレベルへと並列デコーディングを引き上げることで、優れた性能と効率を実現します。これは反復的な「計画と補完（plan-and-infill）」デコーディング過程によって達成されます。まず拡散ベースの計画段階で弱く依存するスロット集合を特定し、その後、自己回帰的な補完段階で選択されたスロットを並列にデコードします。スロットベースの設計により、統一的な因果フレームワークのもとで KV キャッシュの完全な再利用が可能になると同時に、学習の複雑性をトークン組み合わせ空間から扱いやすいスロットレベルの順列空間へと削減します。7つの多様なベンチマークにおける広範な実験の結果、ReFusion は従来の MDMs を性能で 34% 向上、平均 18 倍超の高速化で大幅に上回っただけでなく、強力な ARMs との性能差も埋めつつ、平均 2.33 倍の高速化を維持しました。
> Autoregressive models (ARMs) are hindered by slow sequential inference. While masked diffusion models (MDMs) offer a parallel alternative, they suffer from critical drawbacks: high computational overhead from precluding Key-Value (KV) caching, and incoherent generation arising from learning dependencies over an intractable space of token combinations. To address these limitations, we introduce ReFusion, a novel masked diffusion model that achieves superior performance and efficiency by elevating parallel decoding from the token level to a higher slot level, where each slot is a fixed-length, contiguous sub-sequence. This is achieved through an iterative ``plan-and-infill'' decoding process: a diffusion-based planning step first identifies a set of weakly dependent slots, and an autoregressive infilling step then decodes these selected slots in parallel. The slot-based design simultaneously unlocks full KV cache reuse with a unified causal framework and reduces the learning complexity from the token combination space to a manageable slot-level permutation space. Extensive experiments on seven diverse benchmarks show that ReFusion not only overwhelmingly surpasses prior MDMs with 34% performance gains and an over 18$\times$ speedup on average, but also bridges the performance gap to strong ARMs while maintaining a 2.33$\times$ average speedup.

論文リンク

https://arxiv.org/abs/2512.13586

さらに読む

https://github.com/ML-GSAI/ReFusion

https://huggingface.co/GSAI-ML/ReFusion

視覚トークナイザー生成のためのスケーラブルな事前学習アプローチ / Towards Scalable Pre-training of Visual Tokenizers for Generation

論文紹介

ビジュアルトークナイザーの潜在空間の品質は、現代の生成モデルの性能に重大な影響を与えます。しかし、既存の再構成ベースの学習方式は低レベル情報に偏った潜在空間を生成し、より高いピクセルレベルの精度が必ずしも高品質な生成を保証しないという問題を引き起こします。この現象は「事前学習スケーリング問題」として定義され、効果的な生成モデルのためには、潜在空間が高レベルの意味を簡潔に表現する必要があることを示しています。

本研究では、VTP（Visual Tokenizer Pre-training）という新しい統合型ビジュアルトークナイザー事前学習フレームワークを提案します。VTP は、画像・テキストコントラスト学習、自己教師あり学習、再構成損失を共同最適化する革新的なアプローチを採用し、生成性能の向上に貢献します。大規模な研究を通じて、2つの主要な発見が得られました。第一に、意味的理解が生成の主要な原動力であることを確認し、第二に、VTP は計算資源、モデルパラメータ、データ規模に応じて生成性能が効果的に向上する優れたスケーリング特性を示します。

VTP は ImageNet で 78.2% のゼロショット精度と 0.36 の rFID を達成し、既存の高度な蒸留手法と比べて 4.1 倍速く収束しました。さらに、VTP は標準的な DiT 学習仕様を変更せずに、事前学習へより多くの FLOPS を投入することで、ダウンストリーム生成において 65.8% の FID 改善を実現しました。これらの結果は、VTP が従来のオートエンコーダ方式より優れた性能を発揮し、スケーラブルなモデルとして位置づけられることを示しています。

結論として、VTP はビジュアルトークナイザーの事前学習スケーリング問題を解決し、潜在空間の理解能力と生成能力の間に強い相関があることを明らかにしました。この研究は、生成モデルの性能向上に向けた新たな方向性を提示し、今後の研究にとって重要な基盤資料となる可能性があります。

論文要旨（Abstract）

ビジュアルトークナイザ（例: VAE）における潜在空間の品質は、現代の生成モデルにとって非常に重要です。しかし、標準的な再構成ベースの学習パラダイムは、低レベル情報に偏った潜在空間を生成し、根本的な欠陥を引き起こします。すなわち、ピクセルレベルの精度が向上しても、より高品質な生成にはつながりません。これは、ビジュアルトークナイザの事前学習に大量の計算資源を投入しても、生成性能の向上には結びつきにくいことを意味します。私たちはこれを「事前学習スケーリング問題」と定義し、効果的な生成のためには、潜在空間が高レベルの意味情報を簡潔に表現する必要があると提案します。私たちは、画像-テキスト対照学習、自己教師あり学習、および再構成損失の共同最適化を先導する、統合型ビジュアルトークナイザ事前学習フレームワーク VTP を提示します。大規模な研究により、2つの主要な発見が明らかになりました。(1) 理解は生成の主要な駆動力であり、(2) ビジュアルトークナイザの事前学習に割り当てられた計算量、パラメータ、データに応じて生成性能が効果的にスケールする、はるかに優れたスケーリング特性を持つことです。大規模事前学習後、私たちのトークナイザは競争力のあるプロファイル（ImageNet で 78.2 のゼロショット精度および 0.36 rFID）を示し、高度な蒸留手法と比べて生成において 4.1 倍高速な収束を実現しました。さらに重要なのは、効果的にスケールすることです。標準的な DiT の学習仕様を変更することなく、VTP の事前学習により多くの FLOPS を投入するだけで、下流の生成において 65.8% の FID 改善を達成し、従来のオートエンコーダは 1/10 の FLOPS で非常に早い段階で頭打ちになります。私たちの事前学習済みモデルは https://github.com/MiniMax-AI/VTP で利用できます。

The quality of the latent space in visual tokenizers (e.g., VAEs) is crucial for modern generative models. However, the standard reconstruction-based training paradigm produces a latent space that is biased towards low-level information, leading to a foundation flaw: better pixel-level accuracy does not lead to higher-quality generation. This implies that pouring extensive compute into visual tokenizer pre-training translates poorly to improved performance in generation. We identify this as the pre-training scaling problem and suggest a necessary shift: to be effective for generation, a latent space must concisely represent high-level semantics. We present VTP, a unified visual tokenizer pre-training framework, pioneering the joint optimization of image-text contrastive, self-supervised, and reconstruction losses. Our large-scale study reveals two principal findings: (1) understanding is a key driver of generation, and (2) much better scaling properties, where generative performance scales effectively with compute, parameters, and data allocated to the pretraining of the visual tokenizer. After large-scale pre-training, our tokenizer delivers a competitive profile (78.2 zero-shot accuracy and 0.36 rFID on ImageNet) and 4.1 times faster convergence on generation compared to advanced distillation methods. More importantly, it scales effectively: without modifying standard DiT training specs, solely investing more FLOPS in pretraining VTP achieves 65.8% FID improvement in downstream generation, while conventional autoencoder stagnates very early at 1/10 FLOPS. Our pre-trained models are available at https://github.com/MiniMax-AI/VTP.

論文リンク

https://arxiv.org/abs/2512.13687

さらに読む

https://github.com/MiniMax-AI/VTP

CLaRa: 連続潜在推論による検索と生成の統合 / CLaRa: Bridging Retrieval and Generation with Continuous Latent Reasoning

論文紹介

CLaRa（Continuous Latent Reasoning）は、検索拡張生成（Retrieval-augmented generation, RAG）システムの限界を克服するために開発された革新的なフレームワークである。従来の RAG アプローチは長いコンテキストを処理するのが難しく、検索と生成の最適化が分離されているため、効率が低下するという問題を抱えている。これらの問題を解決するため、CLaRa は埋め込みベースの圧縮と共有された連続空間での共同最適化を通じて、検索と生成を統合する新しい方法論を提案する。

CLaRa の中核コンポーネントの1つである SCP（キー保持データ合成）は、質問応答（QA）およびパラフレーズ supervision を活用して、意味的に豊かで検索可能な圧縮ベクトルを生成する。この過程は、データの多様性と品質を維持しながら検索精度を高めることに寄与する。その後、CLaRa はリランカーと生成器を単一の言語モデリング損失によってエンドツーエンドで学習し、これにより両モジュール間の勾配フローが最適化される。このような統合最適化アプローチは、検索の関連性と生成された回答の品質を一致させる上で重要な役割を果たす。

実験の結果、CLaRa は複数の質問応答（QA）ベンチマークにおいて、既存のテキストベース手法を上回る最先端の圧縮およびリランキング性能を示した。特に、CLaRa は長いコンテキストを効果的に処理する上で有利な結果を示しており、これは CLaRa の統合最適化方式が実際に有効であることを証明している。こうした成果は、CLaRa が RAG システムの性能を大幅に向上させる潜在力を持つことを示唆している。

CLaRa のアプローチは既存の RAG 研究と差別化されており、検索と生成を直接最適化する最初の手法として、今後さまざまな応用分野に適用できる可能性を示している。この研究は RAG システムの新たな可能性を提示しており、今後の研究にとって重要な基礎資料として活用されることが期待される。

論文要旨(Abstract)

検索拡張生成（RAG）は大規模言語モデル（LLM）に外部知識を補強しますが、依然として長いコンテキストと、分離された検索・生成最適化の問題に悩まされています。本研究では、CLaRa（Continuous Latent Reasoning）を提案します。CLaRaは、埋め込みベースの圧縮と、共有された連続空間における共同最適化を行う統合フレームワークです。意味的に豊かで検索可能な圧縮ベクトルを得るために、QAとパラフレーズの監督を用いる、キー保持型データ合成フレームワークであるSCPを導入します。その後CLaRaは、単一の言語モデリング損失を通じてリランカーと生成器をエンドツーエンドで学習し、勾配は微分可能なtop-k推定器を使って両モジュールを流れます。理論的には、この統合最適化は検索関連性と回答品質を一致させます。複数のQAベンチマークでの実験結果から、CLaRaは最先端の圧縮およびリランキング性能を達成し、多くの場合、テキストベースのファインチューニング基準を上回ります。
> Retrieval-augmented generation (RAG) enhances large language models (LLMs) with external knowledge but still suffers from long contexts and disjoint retrieval-generation optimization. In this work, we propose CLaRa (Continuous Latent Reasoning), a unified framework that performs embedding-based compression and joint optimization in a shared continuous space. To obtain semantically rich and retrievable compressed vectors, we introduce SCP, a key-preserving data synthesis framework using QA and paraphrase supervision. CLaRa then trains the reranker and generator end-to-end via a single language modeling loss, with gradients flowing through both modules using a differentiable top-k estimator. Theoretically, this unified optimization aligns retrieval relevance with answer quality. Experiments across multiple QA benchmarks show that CLaRa achieves state-of-the-art compression and reranking performance, often surpassing text-based fine-tuned baselines.

論文リンク

https://arxiv.org/abs/2511.18659

さらに読む

https://github.com/apple/ml-clara

⚠️広告⚠️: 🔥PyTorch韓国ユーザー会🇰🇷がまとめたこの記事は役に立ちましたか？会員登録すると主要な記事をメール💌でお届けします！（基本はWeeklyですが、Dailyへの変更も可能です。）

[2025/12/15 ~ 21] 今週注目のAI/ML論文まとめ