[2025/09/29 ~ 10/05] 今週チェックしておきたいAI/ML論文まとめ
(discuss.pytorch.kr)[2025/09/29 ~ 10/05] 今週チェックしておきたいAI/ML論文まとめ
PyTorchKR🔥🇰🇷 🤔💭
1️⃣ 情報の真実性および信頼性の向上: 複数の論文で、情報の正確性と信頼性を高めるためのさまざまなアプローチが提案されています。たとえば、"Incentive-Aligned Multi-Source LLM Summaries" では Truthful Text Summarization (TTS) フレームワークを通じて情報の真実性を担保し、"AgentMaster" ではマルチエージェントシステムを活用して信頼できる情報検索と分析を支援しています。
2️⃣ マルチエージェントシステムの発展: 複数の研究でマルチエージェントシステム(MAS, Multi-Agent System)の活用が増えており、これは複雑なタスクを解決するうえで大きな助けとなっています。"TUMIX" と "AgentMaster" の論文では、さまざまなツールを活用したエージェント間の協業と相互作用を通じて性能を向上させる方法が示されています。
3️⃣ 知識注入と継続学習: "How to inject knowledge efficiently?" と "Continual Learning for VLMs" の論文では、ドメイン知識を効果的に注入し、異常なデータから継続的に学習する方法について研究が進められています。これらの研究は、モデルの性能を向上させ、既存の知識を失わないようにすることに重点を置いています。
ARE: エージェント環境と評価のスケールアップ / ARE: Scaling Up Agent Environments and Evaluations
論文紹介
Meta Superintelligence Lab が公開した Meta Agents Research Environments (ARE) は、エージェント環境のスケーラブルな構築を可能にし、合成または実際のアプリケーションの統合を支援し、エージェントオーケストレーションを実行できる革新的な研究プラットフォームです。ARE は、複雑で多様な環境を構築するためのシンプルな抽象化を提供し、各環境が固有のルール、ツール、コンテンツ、検証器を持てるようにすることで、モデル開発と実運用の間のギャップを埋めることに貢献します。
ARE の主要な革新の 1 つは、Gaia2 というベンチマークの導入です。Gaia2 はエージェントの汎用的な能力を測定するために設計されており、単純な検索と実行を超えて、エージェントが曖昧さやノイズを処理し、動的環境に適応し、他のエージェントと協調し、時間制約の下でタスクを遂行しなければならないという複雑な要件を含んでいます。特に Gaia2 は非同期で実行されるため、静的環境では見つからない新たな失敗モードを明らかにし、エージェントの性能をより精緻に評価できるようにします。
実験結果は、どのシステムも知能スペクトラム全体にわたって優位を占めておらず、強力な推論能力はしばしば効率性を犠牲にすることを示しています。予算スケーリング曲線が頭打ちになる現象は、新しいアーキテクチャと適応的な計算戦略の必要性を強調しています。これらの発見は AI 研究の方向性を示し、ARE と Gaia2 の重要性を浮き彫りにしています。
ARE の抽象化は、Gaia2 を他の環境へ継続的に拡張できるようにし、研究コミュニティが自分たちのドメインに合わせた新しいベンチマークを迅速に生成できるようにします。AI の発展は、意味のあるタスクと堅牢な評価を定義することにますます依存するようになるでしょう。そしてそれは、ARE の機能を通じて可能になります。この文脈において、ARE はエージェント開発と評価に必要なツールを提供し、AI 研究の最前線で重要な役割を果たすことになるでしょう。
論文要旨(Abstract)
私たちは Meta Agents Research Environments (ARE) を紹介します。ARE は、環境のスケーラブルな生成、合成または実際のアプリケーションの統合、そしてエージェントオーケストレーションの実行のための研究プラットフォームです。ARE は、それぞれ異なるルール、ツール、コンテンツ、検証器を備えた複雑で多様な環境を構築するためのシンプルな抽象化を提供し、モデル開発と実運用の間のギャップを埋めるのに役立ちます。また私たちは、ARE 上に構築されたベンチマークである Gaia2 を提案します。これは汎用エージェント能力を測定するよう設計されています。Gaia2 は、検索と実行を超えて、エージェントが曖昧さとノイズを処理し、動的環境に適応し、他のエージェントと協調し、時間制約の下で動作することを求めます。従来のベンチマークとは異なり、Gaia2 は非同期で実行されるため、静的環境では見えない新しい失敗モードを顕在化させます。私たちの実験結果は、どのシステムも知能スペクトラム全体にわたって優位を占めていないことを示しています。より強力な推論はしばしば効率性を犠牲にし、予算スケーリング曲線は頭打ちとなり、新しいアーキテクチャと適応的な計算戦略の必要性を浮き彫りにします。おそらくさらに重要なのは、ARE の抽象化によって Gaia2 を他の環境へ継続的に拡張できるようになり、コミュニティが各自のドメインに合わせた新しいベンチマークを迅速に作成できるようになる点です。AI の後半戦において、進歩はますます意味のあるタスクと堅牢な評価を定義することに依存し、それによって最先端能力の前進が促されるでしょう。
We introduce Meta Agents Research Environments (ARE), a research platform for scalable creation of environments, integration of synthetic or real applications, and execution of agentic orchestrations. ARE provides simple abstractions to build complex and diverse environments, each with their own rules, tools, content, and verifiers, helping to bridge the gap between model development and real-world deployment. We also propose Gaia2, a benchmark built in ARE and designed to measure general agent capabilities. Beyond search and execution, Gaia2 requires agents to handle ambiguities and noise, adapt to dynamic environments, collaborate with other agents, and operate under temporal constraints. Unlike prior benchmarks, Gaia2 runs asynchronously, surfacing new failure modes that are invisible in static settings. Our experiments show that no system dominates across the intelligence spectrum: stronger reasoning often comes at the cost of efficiency, and budget scaling curves plateau, highlighting the need for new architectures and adaptive compute strategies. Perhaps more importantly, ARE abstractions enable continuous extension of Gaia2 to other environments, empowering the community to rapidly create new benchmarks tailored to their domains. In AI's second half, progress increasingly depends on defining meaningful tasks and robust evaluations to drive frontier capabilities forward.
論文リンク
https://arxiv.org/abs/2509.17158
インセンティブ整合型マルチソースLLM要約 / Incentive-Aligned Multi-Source LLM Summaries
論文紹介
大規模言語モデル(LLM)は、現代の情報検索および応答システムにおいて、複数の情報源のテキストを統合して単一の応答を生成するために広く利用されている。しかし、既存のシステムには情報源の正確性を保証するうえで限界があり、敵対的なコンテンツに脆弱だという問題がある。こうした課題を解決するために提案された Truthful Text Summarization(TTS)フレームワークは、事実面での頑健性を高めつつ、正解ラベルなしでも機能する革新的なアプローチを提供する。TTS は、ドラフト要約を原子的な主張に分解し、各情報源の主張を評価したうえで、情報の一致を報酬とする適応型マルチタスク・ピア予測メカニズムによって情報源をスコアリングする。信頼できない情報源をフィルタリングした後に再要約を行うこのプロセスは、情報源のインセンティブを情報の誠実性と整合させ、真実に基づく報告が効用最大化の戦略となるようにする。
TTS の方法論は、情報の真実性を確保するための新たなアプローチを提示し、従来の情報要約および LLM 関連研究との差別化を際立たせている。実験の結果、TTS は流暢さを維持しながら事実の正確性と頑健性を改善することに成功しており、これは情報の検証と整合を通じて操作を抑制することに寄与する。こうした研究は、情報要約システムの信頼性を大幅に向上させうる可能性を示しており、今後さまざまな分野への適用可能性を探るうえで重要な基盤となる。TTS は、情報の真実性を高めると同時に情報源のインセンティブを整合させることで、情報要約システムの信頼性を大きく高められる可能性を示している。
論文要旨(Abstract)
大規模言語モデル(LLM)は、現代の検索および回答システムにおいて、複数の、ときに相反するテキストを単一の応答へと統合するためにますます利用されているが、現在のパイプラインは情報源が正確であるよう促すインセンティブが弱く、敵対的コンテンツに脆弱である。私たちは Truthful Text Summarization(TTS)を紹介する。TTS は、正解ラベルなしで事実面での頑健性を向上させる、インセンティブ整合型のフレームワークである。TTS は、(i) ドラフト統合を原子的な主張に分解し、(ii) 各主張に対する各情報源の立場を引き出し、(iii) 有益な一致に報酬を与える適応型マルチタスク・ピア予測メカニズムで情報源をスコアリングし、(iv) 再要約の前に信頼できない情報源をフィルタリングする。私たちは、情報源のインセンティブを有益な誠実さと整合させ、真実に基づく報告が効用最大化戦略となることを保証する形式的な保証を確立した。実験では、TTS が流暢さを保ちながら事実の正確性と頑健性を向上させ、有益な裏付けと露出を整合させることで操作を抑制することが示された。
> Large language models (LLMs) are increasingly used in modern search and answer systems to synthesize multiple, sometimes conflicting, texts into a single response, yet current pipelines offer weak incentives for sources to be accurate and are vulnerable to adversarial content. We introduce Truthful Text Summarization (TTS), an incentive-aligned framework that improves factual robustness without ground-truth labels. TTS (i) decomposes a draft synthesis into atomic claims, (ii) elicits each source's stance on every claim, (iii) scores sources with an adapted multi-task peer-prediction mechanism that rewards informative agreement, and (iv) filters unreliable sources before re-summarizing. We establish formal guarantees that align a source's incentives with informative honesty, making truthful reporting the utility-maximizing strategy. Experiments show that TTS improves factual accuracy and robustness while preserving fluency, aligning exposure with informative corroboration and disincentivizing manipulation.
論文リンク
https://arxiv.org/abs/2509.25184
TUMIX: ツール使用の混合によるマルチエージェントのテスト時スケーリング / TUMIX: Multi-Agent Test-Time Scaling with Tool-Use Mixture
論文紹介
Tool-Use Mixture(TUMIX)は、複数のエージェントを並列実行し、それぞれ異なるツール使用戦略と回答経路を採用するアンサンブル・フレームワークである。この手法は、テキストベース推論・コーディング・検索の統合を通じて、多様な質問に対する効果的な解決策を提供することに重点を置いている。TUMIX のエージェントは、質問とそれまでの回答をもとに、反復的に応答を共有して磨き上げることで、より深い統合と多様な推論経路の探索を可能にする。
TUMIX は、既存のツール強化およびテスト時スケーリング手法と比べて平均 3.55% の精度向上を達成し、Gemini-2.5-Pro および Gemini-2.5-Flash モデルで主要な推論ベンチマークにおいて優れた性能を示した。これらの成果は、エージェントの多様性と品質が重要な要素であることを示しており、LLM(大規模言語モデル)を活用してエージェント設計を自動最適化する方法も提案している。これにより、TUMIX は平均 1.2% の追加精度向上を実現した。
TUMIX は、十分な信頼度に到達した時点でリファインを停止できるため、性能を維持しながら推論コストを 49% に削減できる革新的なアプローチを提供する。追加のスケーリングによってさらに高い性能を達成できるが、その場合はコストが増加する点が今後の研究で考慮すべき重要な要素である。
この研究は、LLM のツール使用および推論能力を最大化する方法を提示し、多様な質問に対する効果的な解決策の提供に貢献している。TUMIX は、既存手法とは異なるアプローチを通じて、実際のアプリケーションへより一般化できる可能性を示している。
論文要旨(Abstract)
さまざまなツールであるCode InterpreterとSearchを統合することは、ChatGPT AgentやGemini-Proのようなモデルにおいて大規模言語モデル(LLM)の推論能力を大きく向上させてきたが、最適なツール利用に関する実践的な指針は不足している。中核的な課題は、多様な質問に対してテキスト推論、コーディング、検索を効果的に組み合わせることである。本論文では、Tool-Use Mixture(TUMIX)を提案する。これは、異なるツール利用戦略と回答経路を用いる複数のエージェントを並列実行するアンサンブルフレームワークである。TUMIXのエージェントは、質問と過去の回答に基づいて応答を反復的に共有し、洗練させる。実験の結果、TUMIXは最先端のツール拡張およびテスト時スケーリング手法と比べて大幅な成果を達成し、主要な推論ベンチマークにおいてGemini-2.5-ProおよびGemini-2.5-Flashで最良のベースラインを平均3.55%上回る精度向上を、ほぼ同等の推論コストを維持しながら実現した。私たちは、エージェントの多様性と品質が重要であり、LLMを用いてエージェント設計を自動最適化することで改善できることを見いだした。さらに、TUMIXは十分な信頼度に達すると洗練化を停止できるため、推論コストの49%だけで性能を維持できる。追加のスケーリングによってさらに高い性能を達成できるが、それに伴ってコストは増加する。
> While integrating tools like Code Interpreter and Search has significantly enhanced Large Language Model (LLM) reasoning in models like ChatGPT Agent and Gemini-Pro, practical guidance on optimal tool use is lacking. The core challenge is effectively combining textual reasoning, coding, and search for diverse questions. In this paper, we propose Tool-Use Mixture (TUMIX), an ensemble framework that runs multiple agents in parallel, each employing distinct tool-use strategies and answer paths. Agents in TUMIX iteratively share and refine responses based on the question and previous answers. In experiments, TUMIX achieves significant gains over state-of-the-art tool-augmented and test-time scaling methods, delivering an average accuracy improvement of up to 3.55% over the best baseline on Gemini-2.5-Pro and Gemini-2.5-Flash across key reasoning benchmarks, with near-equal inference costs. We find that agent diversity and quality are crucial and can be enhanced by using LLMs to auto-optimize agent designs. Furthermore, TUMIX can halt refinement upon reaching sufficient confidence, preserving performance at only 49% of the inference cost. Further scaling can achieve higher performance, albeit at a greater cost.
論文リンク
https://arxiv.org/abs/2510.01279
自分たちの言葉で:小型モデル向けに最適化された推論トレースは、より優れた推論能力をもたらす / In Their Own Words: Reasoning Traces Tailored for Small Models Make Them Better Reasoners
論文紹介
大規模言語モデルから小規模モデルへの推論能力の移転は、しばしば期待に反して性能低下を招くという問題を抱えている。この現象は、教師ありファインチューニング(Supervised Fine-Tuning, SFT)の過程で生じる分布のミスアラインメント(Distributional Misalignment)に起因しており、大規模モデルの推論トレースに小規模モデルの確率分布と一致しない低確率トークンが含まれているためである。その結果、小規模モデルは大規模モデルの高度な推論パターンを効果的に学習できず、むしろ学習の障壁に突き当たる。
この問題を解決するために提案された手法であるReverse Speculative Decoding(RSD)は、教師モデルが候補トークンを提案し、生徒モデルが自身の確率分布に基づいて受け入れるかどうかを決定する方式で動作する。この過程で低確率トークンはフィルタリングされ、小規模モデルが処理可能な範囲内で有用な推論ステップを維持できるようになる。RSDはQwen3-0.6Bモデルに適用され、従来の直接蒸留方式で生成された推論トレースデータが平均性能を20.5%低下させた一方で、RSDで生成された推論トレースを学習した場合には4.9%の有意な性能向上を示した。
RSDの効果はさまざまな推論ベンチマークで一貫して確認され、低確率トークンが効果的な推論移転の主要なボトルネックであることを強調している。また、RSDはモデルごとに最適化される必要があり、各生徒モデル固有の内部表現に合わせた分布整列が必要であることも示唆している。これらの研究結果は、小規模モデルの性能改善に寄与しうる重要な方法論として評価されており、今後の研究における応用可能性を示している。
結論として、RSDは大規模モデルの推論能力を小規模モデルへ効果的に移転できる革新的なアプローチであり、低確率トークンのフィルタリングを通じて小規模モデルの推論能力向上に貢献する。この研究は、小規模モデルの性能改善に向けた新たな方向性を提示するものであり、今後のAIおよび機械学習分野での応用可能性を広げる重要な基礎資料となるだろう。
論文要旨(Abstract)
より大きな言語モデルからより小さなモデルへの推論能力の転移は、教師ありファインチューニングを通じてもしばしば直感に反して失敗し、高品質な教師デモにアクセスできるにもかかわらず性能が低下します。私たちは、この失敗が分布のミスマッチに起因することを確認しました。すなわち、大きなモデルの推論トレースには、学生モデルの分布の下で確率が低いトークンが含まれており、それが小規模アーキテクチャの内部表現容量を超えて、有益なガイダンスではなく学習の障壁となります。私たちは、教師モデルが候補トークンを提案し、学生モデルが自身の確率分布に基づいて受理可否を決定することで低確率トークンをフィルタリングし、学生に適した推論トレースを生成する仕組みである逆投機的デコーディング(Reverse Speculative Decoding, RSD)を提案します。Qwen3-0.6Bに適用した場合、s1K-1.1推論トレースデータの直接蒸留は主要な推論ベンチマーク全体で平均性能を20.5%低下させる一方、RSDで生成した推論トレースで学習した同一モデルは4.9%の有意な改善を達成します。私たちの分析は、低確率トークンが推論能力転移における主要なボトルネックであることを示しています。しかし、クロスモデル実験は、RSDトレースが普遍的に適用可能ではなくモデル固有であることを実証しており、分布整合は各学生アーキテクチャの固有の内部表現に合わせて調整されなければならないことを示しています。
> Transferring reasoning capabilities from larger language models to smaller ones through supervised fine-tuning often fails counterintuitively, with performance degrading despite access to high-quality teacher demonstrations. We identify that this failure stems from distributional misalignment: reasoning traces from larger models contain tokens that are low probability under the student's distribution, exceeding the internal representation capacity of smaller architectures and creating learning barriers rather than helpful guidance. We propose Reverse Speculative Decoding (RSD), a mechanism for generating student-friendly reasoning traces in which the teacher model proposes candidate tokens but the student model determines acceptance based on its own probability distributions, filtering low probability tokens. When applied to Qwen3-0.6B, direct distillation of s1K-1.1 reasoning trace data degrades average performance across major reasoning benchmarks by 20.5%, while the same model trained on RSD-generated reasoning traces achieves meaningful improvements of 4.9%. Our analysis reveals that low probability tokens constitute the critical bottleneck in reasoning ability transfer. However, cross-model experiments demonstrate that RSD traces are model-specific rather than universally applicable, indicating that distributional alignment must be tailored for each student architecture's unique internal representation.
論文リンク
https://arxiv.org/abs/2509.22230
AgentMaster: マルチモーダル情報検索および分析のためのA2AおよびMCPプロトコルを活用したマルチエージェント対話フレームワーク / AgentMaster: A Multi-Agent Conversational Framework Using A2A and MCP Protocols for Multimodal Information Retrieval and Analysis
論文紹介
人工知能(AI)分野における Multi-Agent Systems (MAS) の発展は、複数の知的エージェントが協力して複雑な問題を解決するうえで重要な役割を果たしている。しかし、現在のMASは、エージェント間の円滑な通信、調整、そして多様なツールやリソースとの相互作用において、さまざまな課題に直面している。こうした問題を解決するため、本研究では AgentMaster という新しいモジュール型MASフレームワークを提案する。このフレームワークは、Agent-to-Agent (A2A) 通信プロトコルと Model Context Protocol (MCP) を統合し、動的な調整と柔軟なコミュニケーションを可能にする。
AgentMasterは、ユーザーが技術的な専門知識なしに自然言語でシステムと対話できるよう設計された統合型対話インターフェースを提供する。これにより、情報検索、質問応答、画像分析など、多様なマルチモーダルクエリへの応答を支援する。本研究の中核的な貢献は、A2AとMCPを活用してエージェント間の効果的な調整と、専門化された検索エージェント間のシームレスな通信を可能にする点にある。さらに、AgentMasterはユーザークエリを専門化されたワークフローへ分解し、これを通じて自動化されたクエリ分解、タスク割り当て、動的ルーティングを支援する。
実験の結果、AgentMasterはBERTScore F1で96.3%、LLM-as-a-Judge G-Evalで87.1%という高い成果を記録した。これらの結果は、エージェント間の強力な自動調整とドメイン特化型の関連性の高い応答を実証しており、MASの可能性を拡張することに貢献する。本研究は、A2AとMCPを統合したMASフレームワークの革新性を示しており、協調的かつスケーラブルな対話型AIの発展に重要な貢献を果たすことが期待される。
論文抄録(Abstract)
マルチエージェントシステム(MAS)の台頭は、大規模言語モデル(LLM)と統合されることで、複雑なタスクの解決を大幅に容易にしました。しかし、現在のシステムは依然として、エージェント間の通信、調整、そして異種のツールやリソースとの相互作用において課題に直面しています。近年、AnthropicのModel Context Protocol(MCP)とGoogleのAgent-to-Agent(A2A)通信プロトコルが導入されましたが、私たちの知る限り、両プロトコルが単一のMASフレームワーク内で同時に使用される事例は非常にまれです。私たちは、動的調整、柔軟な通信、迅速な反復を可能にする、独自実装のA2AおよびMCPを備えた新しいモジュール型マルチプロトコルMASフレームワーク「AgentMaster」のパイロット研究を提示します。統合された対話インターフェースを通じて、このシステムは事前の技術的専門知識なしに自然言語でのやり取りをサポートし、情報検索、質問応答、画像解析を含むタスクに対するマルチモーダルクエリに応答します。実験は、人手評価と、BERTScore F1(96.3%)およびLLM-as-a-Judge G-Eval(87.1%)を含む定量指標の両方によって検証されました。これらの結果は、堅牢な自動エージェント間調整、クエリ分解、タスク割り当て、動的ルーティング、およびドメイン固有で関連性の高い応答を示しています。全体として、私たちの提案するフレームワークは、MASによって駆動されるドメイン特化型で協調的かつスケーラブルな対話型AIの潜在能力に貢献します。
> The rise of Multi-Agent Systems (MAS) in Artificial Intelligence (AI), especially integrated with Large Language Models (LLMs), has greatly facilitated the resolution of complex tasks. However, current systems are still facing challenges of inter-agent communication, coordination, and interaction with heterogeneous tools and resources. Most recently, the Model Context Protocol (MCP) by Anthropic and Agent-to-Agent (A2A) communication protocol by Google have been introduced, and to the best of our knowledge, very few applications exist where both protocols are employed within a single MAS framework. We present a pilot study of AgentMaster, a novel modular multi-protocol MAS framework with self-implemented A2A and MCP, enabling dynamic coordination, flexible communication, and rapid development with faster iteration. Through a unified conversational interface, the system supports natural language interaction without prior technical expertise and responds to multimodal queries for tasks including information retrieval, question answering, and image analysis. The experiments are validated through both human evaluation and quantitative metrics, including BERTScore F1 (96.3%) and LLM-as-a-Judge G-Eval (87.1%). These results demonstrate robust automated inter-agent coordination, query decomposition, task allocation, dynamic routing, and domain-specific relevant responses. Overall, our proposed framework contributes to the potential capabilities of domain-specific, cooperative, and scalable conversational AI powered by MAS.
論文リンク
https://arxiv.org/abs/2507.21105
効率的な知識注入方法: 大規模言語モデル事前学習のための知識注入スケーリング則 / How to inject knowledge efficiently? Knowledge Infusion Scaling Law for Pre-training Large Language Models
論文紹介
大規模言語モデル(LLM)はさまざまなタスクで優れた性能を発揮する一方、ドメイン特化の最適化が不足している場合、専門知識ベンチマークで低い性能を示し、ハルシネーションを引き起こすことがあります。本研究では、事前学習(pre-training)過程においてドメイン知識を戦略的に注入する方法論を提案し、この過程で発生するメモリ崩壊(memory collapse)現象に着目しました。メモリ崩壊は過度な知識注入によって発生し、モデルの知識保持能力を急激に低下させます。研究チームは2つの主要な観察結果を導き出しました。第一に、各モデルには知識保持能力が急激に低下する臨界点が存在し、第二に、こうした崩壊点はモデルサイズに応じて一貫してスケーリングされます。
これらの知見に基づき、研究では知識注入スケーリング則(knowledge infusion scaling law)を提案しました。この法則は、大規模LLMに注入すべき最適なドメイン知識量の予測に役立ち、さまざまなモデルサイズとそれに対応するトークン予算に関する実験を通じて、その有効性と汎用性を検証しました。特に、メモリ崩壊現象が過度な知識注入によって発生することを示し、これは疎なトークンレベルの知識注入でも大規模データセットにおいて十分であることを示唆しています。
研究ではさらに、さまざまな訓練データセット規模と注入頻度に応じた記憶保持性能を評価し、大規模モデルは少量の知識でも飽和状態に到達しうることを発見しました。これらの結果は、LLMのドメイン特化および最適化に関する重要な洞察を提供し、今後の研究における知識注入戦略の設計に貢献すると期待されます。本研究は、大規模言語モデルにおける知識注入の効果を評価し、記憶保持能力および崩壊点予測のための方法論を提示するとともに、さまざまなテンプレートの影響を分析することに重点を置いています。
論文要旨(Abstract)
大規模言語モデル(LLM)は、多様な下流タスクにおける印象的な汎用能力によって大きな注目を集めています。しかし、ドメイン特化の最適化がない場合、専門知識ベンチマークではしばしば性能が低下し、さらにはハルシネーションを生じることもあります。近年の研究では、事前学習中に戦略的にドメイン知識を注入することで、下流タスクの性能を大幅に改善できることが示されています。重要な課題は、この注入のバランスを取ることです。ドメイン特化データの注入が少なすぎると十分な特化が進まず、逆に過度な注入は以前に獲得した知識の破滅的忘却を引き起こします。本研究では、過剰な注入によって誘発されるメモリ崩壊現象に焦点を当てます。体系的な実験を通じて、2つの主要な観察結果を得ました。第一に、臨界崩壊点です。各モデルには、知識保持能力が急激に低下する閾値が存在します。第二に、スケール相関です。これらの崩壊点はモデルのサイズに一貫して比例します。これらの知見に基づき、より小さなモデルを分析することで、大規模LLMに注入すべき最適なドメイン知識量を予測する知識注入スケーリング則を提案します。さまざまなモデルサイズとそれに対応するトークン予算にわたる広範な実験を通じて、私たちのスケーリング則の有効性と一般性を検証しました。
> Large language models (LLMs) have attracted significant attention due to their impressive general capabilities across diverse downstream tasks. However, without domain-specific optimization, they often underperform on specialized knowledge benchmarks and even produce hallucination. Recent studies show that strategically infusing domain knowledge during pretraining can substantially improve downstream performance. A critical challenge lies in balancing this infusion trade-off: injecting too little domain-specific data yields insufficient specialization, whereas excessive infusion triggers catastrophic forgetting of previously acquired knowledge. In this work, we focus on the phenomenon of memory collapse induced by over-infusion. Through systematic experiments, we make two key observations, i.e. 1) Critical collapse point: each model exhibits a threshold beyond which its knowledge retention capabilities sharply degrade. 2) Scale correlation: these collapse points scale consistently with the model's size. Building on these insights, we propose a knowledge infusion scaling law that predicts the optimal amount of domain knowledge to inject into large LLMs by analyzing their smaller counterparts. Extensive experiments across different model sizes and pertaining token budgets validate both the effectiveness and generalizability of our scaling law.
論文リンク
https://arxiv.org/abs/2509.19371
Bifrost-1: パッチレベルCLIP潜在変数によるマルチモーダルLLMと拡散モデルの橋渡し / Bifrost-1: Bridging Multimodal LLMs and Diffusion Models with Patch-level CLIP Latents
論文紹介
Bifrost-1は、事前学習済みのマルチモーダル大規模言語モデル(MLLM)と拡散モデルを、パッチレベルのCLIP(Contrastive Language-Image Pretraining)画像埋め込みを通じて接続する革新的なフレームワークを提案します。従来のアプローチは、LLMが画像表現を事前学習時に経験していないため、高い学習コストと効率性の問題を抱えていました。Bifrost-1はこの問題を解決するため、MLLMのCLIP視覚エンコーダと自然に整合したパッチレベル画像埋め込みを活用し、それを拡散モデルに統合します。この過程では、ControlNetの軽量な適応を通じて、MLLM本来のマルチモーダル推論能力を維持しつつ、パッチレベル画像埋め込みを予測する視覚生成ブランチを追加します。
Bifrost-1の主な革新は、パッチレベルCLIP潜在変数を用いることで、MLLMと拡散モデルの間の効率的な接続を可能にする点です。これにより、高忠実度で制御可能な画像生成を実現し、学習効率を大幅に向上させます。実験結果では、Bifrost-1は視覚的忠実度とマルチモーダル理解の両面で従来手法と同等またはそれ以上の性能を示し、学習中の計算コストを著しく削減することに成功しました。
さらに、包括的なアブレーション研究を通じて、Bifrost-1の設計上の選択が有効であることを実証しました。これらの研究は、マルチモーダル情報処理の重要性を強調するとともに、LLMと拡散モデルの統合を通じて、より高度なAIシステムの構築に寄与するものです。Bifrost-1は、マルチモーダル生成と理解のための新たな基準を提示し、今後の研究における重要なマイルストーンになることが期待されます。
論文要旨(Abstract)
高忠実度の視覚合成機能を大規模言語モデル(LLM)に統合し、その強力な推論能力を損なわない形で実現しようとする関心が高まっています。既存手法では、LLMを直接学習させたり、LLMと拡散モデル(diffusion model)を橋渡ししたりしますが、バックボーンLLMは事前学習(pretraining)の段階で画像表現に触れていないため、高コストな学習という問題を抱えています。私たちはBifrost-1を提案します。これは、事前学習済みのマルチモーダルLLM(MLLM)と拡散モデルを、パッチレベルのCLIP画像埋め込みを潜在変数として用いて接続する統一フレームワークです。このパッチレベルの画像埋め込みは、MLLMのCLIP視覚エンコーダと本質的に整合しています。これらのパッチレベル画像埋め込みは、ControlNetの軽量な適応を通じて拡散モデルに統合されます。MLLM本来のマルチモーダル推論能力を維持するため、私たちはパッチレベル画像埋め込みを予測する際に、元のMLLMパラメータから初期化された視覚生成ブランチをMLLMに搭載します。事前学習済みMLLMとパッチレベルのCLIP潜在変数を用いて拡散モデルをシームレスに統合することで、私たちのフレームワークは高忠実度で制御可能な画像生成を可能にし、学習効率を大幅に向上させます。実験の結果、Bifrost-1は視覚的忠実度とマルチモーダル理解の両面で、従来手法と比べて同等またはそれ以上の性能を達成しつつ、学習時の計算コストを大きく削減しました。さらに、私たちの設計選択の有効性を示す包括的なアブレーションスタディも提供しています。
> There is growing interest in integrating high-fidelity visual synthesis capabilities into large language models (LLMs) without compromising their strong reasoning capabilities. Existing methods that directly train LLMs or bridge LLMs and diffusion models usually suffer from costly training since the backbone LLMs have not seen image representations during pretraining. We present Bifrost-1, a unified framework that bridges pretrained multimodal LLMs (MLLMs) and diffusion models using patch-level CLIP image embeddings as latent variables, which are natively aligned with the MLLM's CLIP visual encoder. These patch-level image embeddings are integrated into the diffusion model with a lightweight adaptation of its ControlNet. To retain the original multimodal reasoning capabilities of MLLMs, we equip the MLLM with a visual generation branch initialized from the original MLLM parameters when predicting the patch-level image embeddings. By seamlessly integrating pretrained MLLMs and diffusion models with patch-level CLIP latents, our framework enables high-fidelity controllable image generation with significant training efficiency. Our experiments demonstrate that Bifrost-1 achieves comparable or better performance than previous methods in terms of visual fidelity and multimodal understanding, with substantially lower compute during training. We also provide comprehensive ablation studies showing the effectiveness of our design choices.
論文リンク
https://arxiv.org/abs/2508.05954
さらに読む
VLMのための継続学習:忘却を超えたサーベイと分類 / Continual Learning for VLMs: A Survey and Taxonomy Beyond Forgetting
論文紹介
ビジョン・ランゲージ・モデル(Vision-Language Models、VLM)は、大規模事前学習によって多様なマルチモーダルタスクで優れた性能を示していますが、非定常データから継続的に学習するうえでは複数の課題が存在します。これらの問題は、特にクロスモーダルな整合性と汎化能力が破滅的忘却に脆弱であるため、いっそう顕著です。VLMの継続学習(VLM-CL)は、従来の単一モーダル継続学習とは異なる固有の問題を抱えており、本論文ではVLM-CLの3つの主要な失敗モードを特定し、それに対処するための課題ベースの分類体系を提案しています。
提案された分類体系は、(1)マルチモーダル・リプレイ戦略、(2)クロスモーダル正則化、(3)パラメータ効率の高い適応、で構成されています。マルチモーダル・リプレイ戦略は、過去タスクの情報を再生することでクロスモーダル特徴ドリフトの緩和に寄与し、クロスモーダル正則化は更新中のモダリティ整合を維持することに重点を置きます。パラメータ効率の高い適応は、共有モジュール干渉の問題を解決するため、主要な事前学習モデルを固定し、ごく少数の新規パラメータのみを更新する方法論です。
本論文は、VLM-CLに関する包括的なレビューを提供するとともに、現在の評価プロトコル、データセット、指標を分析し、VLM特有の忘却と合成的汎化を捉えられる、より優れたベンチマークの必要性を強調しています。また、継続的事前学習や合成的ゼロショット学習を含む今後の研究方向も提示しており、研究者が生涯型ビジョン・ランゲージ・システムを開発するうえで有用な参考資料となることを目指しています。このような体系的かつ診断的なアプローチは、VLMの継続学習分野における革新を促進し、真の生涯学習マルチモーダルAIシステム構築の基盤づくりに貢献するでしょう。
論文要旨(Abstract)
ビジョン言語モデル(VLM)は、大規模な事前学習を活用することで、多様なマルチモーダルタスクにおいて印象的な性能を達成してきました。しかし、非定常データから継続的に学習できるようにすることは依然として大きな課題であり、特にクロスモーダルなアラインメント能力と汎化能力は破滅的忘却の影響を受けやすいという問題があります。従来の単一モーダル継続学習(CL)とは異なり、VLMはクロスモーダル特徴ドリフト、共有アーキテクチャによるパラメータ干渉、ゼロショット能力の劣化といった固有の課題に直面しています。本サーベイ論文は、VLMのための継続学習(VLM-CL)に関する初の集中的かつ体系的なレビューを提供します。まず、VLM-CLにおいて性能低下を引き起こす3つの中核的な失敗モードを特定します。これに基づき、問題解決のための課題駆動型分類法を提案します。(1) \textit{マルチモーダル再生戦略}は、明示的または暗黙的な記憶メカニズムを通じてクロスモーダルドリフトに対処します。(2) \textit{クロスモーダル正則化}は、更新中のモダリティ間アラインメントを維持します。(3) \textit{パラメータ効率的適応}は、モジュール型または低ランク更新によってパラメータ干渉を緩和します。さらに、現在の評価プロトコル、データセット、メトリクスを分析し、VLM特有の忘却や構成的汎化を捉えられる、より優れたベンチマークの必要性を強調します。最後に、継続的事前学習や構成的ゼロショット学習を含む未解決問題と今後の方向性を示します。本サーベイ論文は、生涯にわたるビジョン言語システムを開発する研究者にとって、包括的かつ診断的な参考資料となることを目指しています。すべてのリソースは次のリンクで確認できます: https://github.com/YuyangSunshine/….
> Vision-language models (VLMs) have achieved impressive performance across diverse multimodal tasks by leveraging large-scale pre-training. However, enabling them to learn continually from non-stationary data remains a major challenge, as their cross-modal alignment and generalization capabilities are particularly vulnerable to catastrophic forgetting. Unlike traditional unimodal continual learning (CL), VLMs face unique challenges such as cross-modal feature drift, parameter interference due to shared architectures, and zero-shot capability erosion. This survey offers the first focused and systematic review of continual learning for VLMs (VLM-CL). We begin by identifying the three core failure modes that degrade performance in VLM-CL. Based on these, we propose a challenge-driven taxonomy that maps solutions to their target problems: (1) \textit{Multi-Modal Replay Strategies} address cross-modal drift through explicit or implicit memory mechanisms; (2) \textit{Cross-Modal Regularization} preserves modality alignment during updates; and (3) \textit{Parameter-Efficient Adaptation} mitigates parameter interference with modular or low-rank updates. We further analyze current evaluation protocols, datasets, and metrics, highlighting the need for better benchmarks that capture VLM-specific forgetting and compositional generalization. Finally, we outline open problems and future directions, including continual pre-training and compositional zero-shot learning. This survey aims to serve as a comprehensive and diagnostic reference for researchers developing lifelong vision-language systems. All resources are available at: https://github.com/YuyangSunshine/….
論文リンク
https://arxiv.org/abs/2508.04227
さらに読む
https://github.com/YuyangSunshine/…
エージェント連合: 大規模エージェント型AIのための意味認識型通信ファブリック / Federation of Agents: A Semantics-Aware Communication Fabric for Large-Scale Agentic AI
論文紹介
Federation of Agents(FoA)は、静的なマルチエージェント協調を、動的で能力中心の協業へと変換する革新的な分散オーケストレーションフレームワークです。このシステムは、エージェントの能力を機械可読なプロファイルへ変換する、バージョン管理された能力ベクトル(Versioned Capability Vectors, VCVs)を導入し、エージェントが自身の能力、コスト、制約を効果的にアピールできるようにします。FoAのアーキテクチャには3つの主要な革新が含まれます。第一に、意味ルーティング(semantic routing)によってタスクをエージェントにマッチングし、そのためにシャーディングされたHNSWインデックスを活用しつつ、運用上の制約を満たすコストバイアス最適化を行います。第二に、動的タスク分解(dynamic task decomposition)技術により、互換性のあるエージェントが複雑なタスクをDAG(Directed Acyclic Graph)形式のサブタスクへ分解し、合意ベースのマージを通じて協調的に作業を実行します。第三に、スマートクラスタリング(smart clustering)技術によって、類似したサブタスクを実行するエージェントを協力チャネルへグループ化し、kラウンド精緻化を通じてタスクをさらに洗練させます.
FoAは、MQTTのパブリッシュ/サブスクライブ意味論に基づいてスケーラブルなメッセージ伝達をサポートし、階層的な能力マッチングと効率的なインデックス維持管理によってサブ線形の計算量を実現します。HealthBenchでの評価結果では、FoAは単一モデルのベースラインと比べて13倍の性能向上を示し、特にクラスタリング強化型協調が、複数の視点を必要とする複雑な推論タスクで効果的であることを実証しています。このシステムは水平方向にスケール可能でありながら一貫した性能を維持し、構造化された協調を通じて、意味論的オーケストレーションが異種AIエージェント連合の集合知を効果的に活用できることを示しています。こうした研究は、マルチエージェントシステムの効率を最大化し、複雑なタスクをより効果的に処理できる方法論を提示することで、AI分野の発展に寄与することが期待されます。
論文要旨(Abstract)
以下はAI/ML分野の論文要旨です。私たちはFederation of Agents(FoA)を提案します。FoAは、静的なマルチエージェント調整を動的な能力駆動型コラボレーションへと変換する分散オーケストレーションフレームワークです。FoAはVersioned Capability Vectors(VCVs)を導入します。これは、エージェントの能力を意味埋め込みによって検索可能にする機械可読なプロファイルであり、エージェントが自身の能力、コスト、制約を公開できるようにします。私たちのアーキテクチャは、3つの主要な革新を組み合わせています。(1) コストバイアス最適化によって運用制約を満たしつつ、シャーディングされたHNSWインデックスを介してタスクをエージェントにマッチングするセマンティックルーティング、(2) 互換性のあるエージェントが合意ベースのマージを通じて複雑なタスクをサブタスクのDAGへ共同分解する動的タスク分解、(3) 類似したサブタスクに取り組むエージェントを協調チャネルにグループ化し、統合前にkラウンドの精緻化を行うスマートクラスタリングです。MQTTのパブリッシュ・サブスクライブセマンティクスの上に構築されたFoAは、階層的な能力マッチングと効率的なインデックス維持管理を通じてサブリニア複雑性を達成します。HealthBenchでの評価結果は、単一モデルのベースラインと比べて13倍の改善を示しており、クラスタリングで強化された協調が、複数の視点を必要とする複雑な推論タスクに特に効果的であることを実証しています。このシステムは水平方向にスケールしながら一貫した性能を維持し、構造化された協調を伴うセマンティックオーケストレーションが、異種AIエージェント連合の集合知を引き出せることを示しています。
> We present Federation of Agents (FoA), a distributed orchestration framework that transforms static multi-agent coordination into dynamic, capability-driven collaboration. FoA introduces Versioned Capability Vectors (VCVs): machine-readable profiles that make agent capabilities searchable through semantic embeddings, enabling agents to advertise their capabilities, cost, and limitations. Our aarchitecturecombines three key innovations: (1) semantic routing that matches tasks to agents over sharded HNSW indices while enforcing operational constraints through cost-biased optimization, (2) dynamic task decomposition where compatible agents collaboratively break down complex tasks into DAGs of subtasks through consensus-based merging, and (3) smart clustering that groups agents working on similar subtasks into collaborative channels for k-round refinement before synthesis. Built on top of MQTT,s publish-subscribe semantics for scalable message passing, FoA achieves sub-linear complexity through hierarchical capability matching and efficient index maintenance. Evaluation on HealthBench shows 13x improvements over single-model baselines, with clustering-enhanced laboration particularly effective for complex reasoning tasks requiring multiple perspectives. The system scales horizontally while maintaining consistent performance, demonstrating that semantic orchestration with structured collaboration can unlock the collective intelligence of heterogeneous federations of AI agents.
論文リンク
https://arxiv.org/abs/2509.20175
大規模言語モデルのための効率的アテンション機構サーベイ / Efficient Attention Mechanisms for Large Language Models: A Survey
論文紹介
Transformerベースのアーキテクチャは大規模言語モデルの中核ですが、self-attentionの二次的な時間・メモリ複雑性が長文脈処理における大きな制約となっています。これを解決するため、近年の研究では、カーネル近似・再帰構造・fast weight dynamicsを活用したlinear attentionと、固定パターン・ブロック単位ルーティング・クラスタリングによるsparse attentionという、2つの主要な効率的アテンション手法が提案されています。本サーベイ論文では、アルゴリズム的革新とハードウェア観点の両方を統合して、これらの手法を体系的に整理し、効率的アテンションを適用した大規模事前学習言語モデルの多様な設計方式を分析します。これにより、スケーラブルで効率的な言語モデル設計に関する理論と実務上の戦略を結び付ける基礎資料を提供します。
論文要旨(Abstract)
Transformerベースのアーキテクチャは、大規模言語モデルの主流バックボーンとなっています。しかし、自己注意(self-attention)の二次的な時間・メモリ計算量は、効率的な長文脈モデリングにおける根本的な障害であり続けています。この制約に対処するため、近年の研究では効率的なアテンション機構として大きく2つの主要カテゴリが提案されています。線形アテンション(linear attention)手法は、カーネル近似、再帰的定式化、あるいは fastweight dynamics を通じて線形計算量を達成し、計算コストを抑えつつスケーラブルな推論を可能にします。一方、疎アテンション(sparse attention)手法は、固定パターン、ブロック単位のルーティング、またはクラスタリング戦略に基づいて、選択されたトークン部分集合にのみアテンション計算を制限することで、文脈カバレッジを維持しながら効率を高めます。本サーベイ論文は、アルゴリズム上の革新とハードウェアレベルの考慮事項を統合し、これらの進展を体系的かつ包括的に概観します。さらに、完全に効率的アテンションに基づくアーキテクチャと、ローカル(local)およびグローバル(global)な構成要素を組み合わせたハイブリッド設計の両方を含めて、大規模事前学習言語モデルに効率的アテンションが統合された事例を分析します。理論的基盤と実運用上の展開戦略を結び付けることで、本研究はスケーラブルで効率的な言語モデル設計の発展に向けた基礎的な参考資料となることを目指しています。
> Transformer-based architectures have become the prevailing backbone of large language models. However, the quadratic time and memory complexity of self-attention remains a fundamental obstacle to efficient long-context modeling. To address this limitation, recent research has introduced two principal categories of efficient attention mechanisms. Linear attention methods achieve linear complexity through kernel approximations, recurrent formulations, or fastweight dynamics, thereby enabling scalable inference with reduced computational overhead. Sparse attention techniques, in contrast, limit attention computation to selected subsets of tokens based on fixed patterns, block-wise routing, or clustering strategies, enhancing efficiency while preserving contextual coverage. This survey provides a systematic and comprehensive overview of these developments, integrating both algorithmic innovations and hardware-level considerations. In addition, we analyze the incorporation of efficient attention into largescale pre-trained language models, including both architectures built entirely on efficient attention and hybrid designs that combine local and global components. By aligning theoretical foundations with practical deployment strategies, this work aims to serve as a foundational reference for advancing the design of scalable and efficient language models.
論文リンク
https://arxiv.org/abs/2507.19595
⚠️広告⚠️: 🔥PyTorch韓国ユーザーコミュニティ🇰🇷がまとめたこの記事は役に立ちましたか? 会員登録していただくと、主要な記事をメール💌でお届けします! (デフォルトは Weekly ですが、Daily に変更することもできます。)
まだコメントはありません。