[2026/06/01 ~ 07] 今週注目のAI/ML論文まとめ

PyTorchKR🔥🇰🇷 🤔💭

今週選定された10本の論文を見てみると、大規模言語モデル（LLM）ベースのエージェントにおける状態管理、推論の効率化、そして実環境での安全性と検証可能性を中心に、研究の方向性が急速に収束しつつあります。特に、エージェントの効率性を最大化する構造的変化から、トランスフォーマーアーキテクチャの根本的な再設計、さらに現実世界の動的環境へ適応する堅牢性の確保まで、興味深い研究の流れが確認できました。

:one: エージェントワークフローの革新: 状態の外部化と推論ロジックの内在化（Internalization） 今週の論文では、エージェントが複雑で長いタスクを実行する際に生じるコストとコンテキストのボトルネックを解決するための、相反しつつも相互補完的な2つのアプローチが際立っていました。Harness-1 と AdaCoM は、エージェントが記憶すべき状態やコンテキスト管理の負担を外部環境や別個の管理モデルに委ねることで、長期タスクの安定性を高めています。一方、Latent Agents と エージェント的ワークフローの内在化（Subterranean Agents）研究 は、外部オーケストレーターやマルチエージェント間の複雑な通信過程そのものを、単一モデルの重み（Weights）内部へコンパイルする事後学習を提案しました。これにより、モデルはプロンプトや外部調整に依存せずとも自律的に議論したり手続き的推論を行えるようになり、フロンティアモデル級の性能を維持しながら、推論コストとトークン使用量を革新的に削減する方向性を示しています。

:two: 基盤アーキテクチャの再設計: アテンション機構の融合とパラメータ最適化 トランスフォーマーの根本的な計算非効率を克服し、メモリ使用量を減らそうとする基礎研究も強いトレンドです。SISA（Forget Attention） 論文は、状態空間モデル（SSM）の逐次的な重要度シグナルをアテンションスコア計算へ直接注入する「スコアレベル融合」によって、グローバル検索能力と逐次的な優先順位判断を同時に達成しました。またQKV変種研究（Do Transformers Need Three Projections?）は、クエリ・キー・バリューをすべて分離する従来の当然視されてきた標準に疑問を投げかけ、キーとバリューを共有する射影方式（Q-K=V）が、性能低下を最小限に抑えつつKVキャッシュを大幅に削減できることを実証的に示しました。こうしたアーキテクチャレベルの構造的改善は、単なる性能向上にとどまらず、限られたメモリしか持たないエッジデバイスやオンデバイスAI環境での実用的なデプロイ可能性を大きく広げています。

:three: 動的環境におけるリアルタイム適応とシステムレベルの堅牢性確保 単に正解を生成するだけでなく、変化する状況や脅威に能動的に対処し、システム自体を進化させる研究も注目を集めています。MOSS は、従来プロンプト修正にとどまっていた自己進化をソースコードレベルの書き換えへ拡張し、エージェントシステムの構造的欠陥を自ら修復できるようにしました。FuzzingBrain V2 は、マルチエージェントを活用して100%再現可能な形で実際のソフトウェア脆弱性を検出・修正しました。また、AdvGame は言語モデルの安全性アラインメントを攻撃者と防御者の間のリアルタイムな非協力ゲームとして捉え直し、動的な防御力を高めました。Plan, Watch, Recover 研究は、ユーザーが定められた手順から外れた際にリアルタイムで介入し、コーチングする能動型アシスタントモデルを提示しました。これは、AIが統制された実験室を離れ、予測不可能な現実世界のエラーやセキュリティ脅威の中でも信頼できる能動的システムとして定着しつつあることを示しています。

論文別の要点まとめ

Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses: 検索エージェントの記憶負担をポリシーではなくハーネスが担うよう分離した、強化学習ベースの検索エージェントです。8つのベンチマークで平均 curated recall 0.730 を記録し、特に転移性能が高く評価されました。
Forget Attention: Importance-Aware Attention Is All You Need: 状態空間モデル（SSM）の重要度シグナルをアテンションスコアへ直接注入するSISAを提案します。単一のSDPA呼び出しで実装可能でありながら、検索性能と長距離依存の復元が大きく改善されます。
Do Transformers Need Three Projections? Systematic Study of QKV Variants: QKV射影をどこまで共有できるかを体系的に分析した研究です。Q-K=Vは性能をほぼ維持したままKVキャッシュを大きく削減し、GQA/MQAと組み合わせるとメモリ削減効果はさらに高まりました。
Compiling Agentic Workflows into LLM Weights: 外部オーケストレーションの代わりに、タスク手順そのものをモデルの重みにコンパイルするアプローチを扱います。反復呼び出しと長いコンテキスト消費を減らしつつ、near-frontier水準の品質を達成します。
Learning Agent-Compatible Context Management for Long-Horizon Tasks: 固定されたエージェントのために、外部LLMがコンテキストを動的に編集するAdaCoMを提案します。長期のWeb検索やリサーチ課題において、不要な過去情報を減らしつつタスク制約は保持します。
Latent Agents: A Post-Training Procedure for Internalized Multi-Agent Debate: マルチエージェント討論を単一LLM内部へ蒸留する事後学習手法です。最大93%少ないトークンでも、explicit debateと同等またはそれ以上の性能を示しました。
MOSS: Self-Evolution through Source-Level Rewriting in Autonomous Agent Systems: プロンプトではなくソースコードレベルで自己進化を行うエージェントシステムです。実際の失敗証拠に基づいてコード構造を書き換え、検証後にロールバック可能な形でデプロイします。
Safety Alignment of LMs via Non-cooperative Games: 安全性アラインメントを、攻撃者LMと防御者LMが相互適応する非協力ゲームとして再定義します。選好ベース強化学習を通じて、安全性と有用性のPareto frontierを同時に押し広げます。
Plan, Watch, Recover: A Benchmark and Architectures for Proactive Procedural Assistance: ユーザーが手順から逸脱したとき、いつ介入し、どのように復帰させるかを学習する先回り型マルチモーダル支援システムです。EgoProactiveとPro²Benchを通じて、実際の復帰コーチング性能を評価します。
FuzzingBrain V2: A Multi-Agent LLM System for Automated Vulnerability Discovery and Reproduction: マルチエージェントLLMによって脆弱性の発見と再現を自動化したセキュリティシステムです。OSS-Fuzzベースの検証、精密な脆弱性位置特定、階層的ファジングを組み合わせ、高い検出率と実際の脆弱性発見実績を示しました。

Harness-1: 状態外部化ハーネスを適用した検索エージェントのための強化学習 / Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses

論文紹介

検索エージェントはしばしば、増大し続けるトランスクリプト上のポリシーとして学習されますが、モデルは検索方法を決定するだけでなく、自分が見た内容、どの証拠が有用か、どの制約がまだ未解決か、そしてどの主張が実際に検証済みかまで記憶しなければなりません。著者らは、この設定ではポリシー内部に過剰な状態管理負担が課されており、強化学習が意味のある検索意思決定と、環境のほうがより安定して処理できる回復可能な記録管理の両方を同時に最適化することになっていると見ています。

これを解決するために、状態外部化ハーネス（state-externalizing harness）内で強化学習によって学習した20B検索エージェント Harness-1 を提案します。このハーネスは、候補プール、重要度タグ付きの精選集合、圧縮された証拠リンク、検証記録、圧縮・重複排除された観測、予算を考慮したコンテキストレンダリングなど、環境側の作業記憶を管理します。

一方でポリシーは、何を検索するか、どの文書を保持または破棄するか、何を検証するか、いつ終了するかを含む意味的な判断を担います。Web、金融、特許、マルチホップ質問応答を含む8つの検索ベンチマークで、Harness-1は平均 curated recall 0.730 を達成し、次点の有力なオープンソース検索サブエージェントを11.4ポイント上回りました。特に学習ドメイン外の転移ベンチマークで性能向上が顕著であり、明示的な検索状態に対する強化学習が、よりよく一般化する検索行動を生み出せることを示唆しています。

要旨(Abstract)

検索エージェントはしばしば、増え続けるトランスクリプト上のポリシーとして学習される。つまりモデルは、何を検索するかを決めると同時に、自分が何を見たか、どの証拠が有用か、どの制約がまだ未解決か、そしてどの主張が実際に検証されたかを記憶しなければならない。

本論文は、この定式化がポリシーの内部に日常的な状態管理を過剰に押し込んでいると主張する。つまり、強化学習(RL)は意味的な検索判断だけでなく、環境側がより安定して維持できる回復可能な記録管理まで同時に最適化することを強いられているということだ。

状態を持つ検索ハーネス(stateful search harness)の中で強化学習により学習された20B検索エージェント(検索サブエージェント) Harness-1 を紹介する。このハーネスは、候補プール、重要度タグ付きの選別集合、簡潔な証拠リンク、検証記録、圧縮・重複排除された観測、そして予算認識型のコンテキストレンダリングを含む環境側のワーキングメモリを維持する。ポリシーは、何を検索するか、どの文書を保持または破棄するか、何を検証するか、そしていつ停止するかといった意味的判断を担う。

Web、金融、特許、マルチホップQAにまたがる8つの検索ベンチマーク全体で、Harness-1は平均 0.730 の curated recall を達成し、次点のオープン検索サブエージェントを +11.4 ポイント上回り、はるかに大規模なフロンティアモデル検索器とも競争可能な性能を示した。特に未見の転移ベンチマークでその改善が顕著であり、これは明示的な検索状態上での強化学習が、学習ドメインを超えて一般化する検索行動を生み出せることを示唆している。コード: https://github.com/pat-jj/harness-1

Search agents are often trained as policies over growing transcripts: the model must decide how to search while also remembering what it has seen, which evidence is useful, which constraints remain open, and which claims have actually been checked. We argue that this formulation puts too much routine state management inside the policy: reinforcement learning is forced to optimize both semantic search decisions and recoverable bookkeeping that the environment can maintain more reliably. We introduce Harness-1, a 20B search agent (retrieval subagent) trained with reinforcement learning inside a stateful search harness. The harness maintains environment-side working memory, including a candidate pool, an importance-tagged curated set, compact evidence links, verification records, compressed and deduplicated observations, and budget-aware context rendering. The policy retains the semantic decisions: what to search, which documents to keep or discard, what to verify, and when to stop. Across eight retrieval benchmarks spanning web, finance, patents, and multi-hop QA, Harness-1 achieves 0.730 average curated recall, outperforming the next strongest open search subagent by +11.4 points and remaining competitive with much larger frontier-model searchers. Its gains are especially strong on held-out transfer benchmarks, suggesting that reinforcement learning over explicit search state can produce retrieval behaviors that generalize beyond the training domains. Our code is available at https://github.com/pat-jj/harness-1.

論文リンク

https://arxiv.org/abs/2606.02373

さらに読む

https://github.com/pat-jj/harness-1

https://huggingface.co/pat-jj/harness-1

アテンションは忘れよう: 必要なのは重要度認識アテンションだけ / Forget Attention: Importance-Aware Attention Is All You Need

論文紹介

Transformer と状態空間モデル(State Space Model, SSM)を組み合わせたハイブリッド言語モデリングでは、グローバルに情報を探索する能力と、系列上で何が重要かを見極める能力をいかに両立させるかが中核課題となります。従来の Transformer はどこでも参照できますが優先順位付けには限界があり、SSM は重要な信号を蓄積できる一方で、過去の情報を再び精密に参照することは難しいという点で、両者は相補的です。しかし既存のハイブリッド方式は主にブロック単位やヘッド単位で2つのメカニズムを並列配置するにとどまり、実際にアテンションスコアを計算する瞬間には SSM の重要度信号が直接反映されていませんでした。こうした問題意識のもとで、著者らは SSM-Informed Softmax Attention(SISA) を提案し、SSM が提供する逐次的な重要度信号をアテンション出力ではなくスコアそのものに注入する新たな結合方式を設計します。核心となるアイデアは、内容の類似性を表す標準的な内積項に加えて、SSM から導出した重要度ベクトルの内積項をともに加えることで、トークン間の関係を単なるコンテンツ一致ではなく「何が今重要か」まで反映する形へ拡張することにあります。

特にこの方法の重要な点は、追加の再帰状態やカスタムカーネル(custom kernel)なしに、拡張された query と key を構成し、単一の Scaled Dot-Product Attention(SDPA) 呼び出しだけで実装できるという事実です。言い換えれば、SISA は数学的には SSM の逐次情報を活用しながらも、実装の観点では標準的な Transformer の演算フローと自然に噛み合うよう設計されており、FlashAttention 系の最適化との互換性も維持します。また SSM チャネルは入力から decay と rotation の成分を計算して重要度信号を構成し、この信号がアテンションの score level で作用するようにすることで、retrieval 性能を直接的に引き上げます。実験結果でもこの設計の効果は明確に現れており、152M規模・5Bトークン条件で SISA は LAMBADA-greedy で 17.3% を記録して標準 Transformer と Mamba-3 を上回り、NIAH(Needle-in-a-Haystack) では学習 1K step 時点から 100% を達成して、非常に高速な検索収束を示しました。

さらにSISAは、369M規模でも完全に優勢な指標だけを示しているわけではないものの、少なくとも重要な検索タスクでは安定して高い性能を維持しつつ、stock SDPAの実行可能性を失わないという点で、実用上の意義が大きいです。著者らはこれにより、ブロックレベルやヘッドレベルを超える第三の設計軸、すなわちscore-level fusionがハイブリッド言語モデルの有効な代替案であることを示しています。結局のところ、この論文の貢献は単に二つのモデル系列を混ぜることにあるのではなく、SSMが提供する重要度シグナルをアテンションスコア形成の中心へと引き込み、グローバル検索と逐次的な優先順位判断を単一の演算の中で統合した点にあります。このようなアプローチは、長距離依存の復元と重要情報の追跡が重要な言語モデリング課題において、ハイブリッド構造がどのようにより精緻に進化できるかを示す重要な事例と見ることができます。

要旨(Abstract)

アテンションのグローバル検索能力と状態空間モデル(SSM)の逐次的な重要度シグナルを結び付けることは、ハイブリッド言語モデリングにおける未解決課題です。トランスフォーマーはすべてを見ることはできますが優先順位を付けられず、SSMは何が重要かは分かっていても再訪することはできません。既存のハイブリッドであるJamba(ブロックレベル)とHymba(ヘッドレベル)は、二つのメカニズムを互いに分離された領域に配置しているため、アテンション計算そのものにおいては、どちらも相手に情報を提供できません。私たちはSISA(SSM-Informed Softmax Attention)を提案します。これは、SSMから導出した重要度項をアテンションスコア内部に直接追加し、拡張されたクエリ/キーベクトルに対する単一のSDPA呼び出しとして全演算を実装するものです。再帰状態もカスタムカーネルも必要ありません。152M / 50億トークンでは、SISAはLAMBADA-greedy 17.3%を達成し(Transformer 13.9、Mamba-3 15.5と比較)、1KステップからNIAH 100%を記録し、トランスフォーマーの検索収束より7倍高速です。369MではMamba-3がLAMBADAで先行しますが、SISAは完全なNIAHとstock-SDPA実行を維持します。したがってSISAは、この分野を支配してきたブロックレベルおよびヘッドレベルのパラダイムを超えて、SSM-アテンションハイブリッドのための第三の設計軸であるスコアレベル融合(score-level fusion)を提示します。

Combining attention's global retrieval with the sequential importance signal of state space models (SSMs) is the open challenge of hybrid language modeling. Transformers see everywhere but cannot prioritize; SSMs know what matters but cannot revisit. Existing hybrids -- Jamba (block level) and Hymba (head level) -- place the two in separate compartments, so neither informs the other during the attention computation itself. We propose SISA (SSM-Informed Softmax Attention), which adds an SSM-derived importance term directly inside the attention score and realizes the full operation as a single SDPA call on augmented query/key vectors -- no recurrent state, no custom kernel. At 152M / 5B tokens, SISA reaches LAMBADA-greedy 17.3% (vs. Transformer 13.9 and Mamba-3 15.5) and attains NIAH 100% from step 1K, 7x faster than Transformer's retrieval convergence; at 369M, Mamba-3 leads LAMBADA while SISA preserves perfect NIAH and stock-SDPA execution. SISA thus defines a third design axis for SSM-attention hybrids -- score-level fusion -- beyond the block-level and head-level paradigms that have dominated the field.

論文リンク

https://arxiv.org/abs/2606.02332

トランスフォーマーに3つのプロジェクションは必要か？ QKV変種の体系的研究 / Do Transformers Need Three Projections? Systematic Study of QKV Variants

論文紹介

トランスフォーマー(Transformer)の性能を支えてきた中核構成要素は、クエリ(query)、キー(key)、バリュー(value)から成るQKV(query-key-value)アテンションですが、各射影が実際にどれほど独立して必要なのかについては、十分に体系的な検討が行われてきませんでした。この研究はまさにその空白を狙い、Q-K=V、Q=K-V、Q=K=Vという三つの射影共有制約を中心に、アテンション内部での重み共有(weight tying)が表現力と推論効率にどのような影響を与えるかを精密に分析します。特に後者二つの変種がアテンションマップを対称的にしやすい点に注目し、二次元位置エンコーディング(two-dimensional positional encoding)を導入して方向性を補う設計まで併せて検討することで、単純なパラメータ削減ではなく、表現空間の構造そのものを変える問題へと議論を拡張しています。このアプローチは、射影共有が性能低下を招くかどうかを問うだけにとどまらず、どの条件で品質が維持され、どの条件でアテンションの方向性と選択性が損なわれるのかを切り分けて説明している点で大きな意味があります。

実験は、合成タスク、ビジョン、言語モデリングという異なる領域を網羅するよう構成されており、これによって射影共有の効果が特定のデータドメインに限られた現象ではないことを検証しています。合成タスクでは、順序反転、整列、置換、交換、コピーといった操作問題を用いて、モデルが構造的関係をどれだけうまく学習できるかを調べます。ビジョン実験では、MNIST、CIFAR、TinyImageNet、異常検知(anomaly detection)を通じて、空間的位置情報が重要な環境における汎化性能を評価します。言語モデリングでは、3億(300M)および12億(1.2B)パラメータ規模のモデルを100億(10B)トークンで学習し、大規模設定でも同じ傾向が維持されるかを確認します。その結果、Q-K=V方式は基本的なQKVトランスフォーマーと概ね同等、あるいは場合によってはより良い性能を示し、言語モデリングではキー-バリュー(key-value, KV)キャッシュを50%削減しながらも、パープレキシティ(perplexity)の悪化は3.1%にとどまりました。

さらに重要なのは、この削減効果がグループ化クエリアテンション(grouped query attention, GQA)やマルチクエリアテンション(multi-query attention, MQA)と相補的に組み合わせられるという事実です。Q-K=VをGQA-4と併用するとKVキャッシュを87.5%まで削減でき、MQAと組み合わせると96.9%まで削減できるため、オンデバイス推論(on-device inference)に実質的な利点をもたらします。著者らはこれらの結果を通じて、キーとバリューは実際には類似した表現空間を共有でき、アテンションが低ランク(low-rank)構造で動作するため、完全なQKV分離は必須ではないことを示しています。逆にQ=K-Vはクエリとキーを過度に結び付け、アテンションの方向性を弱めてしまうため、性能と安定性の面でより不利であることが分かりました。

総合すると、この研究はトランスフォーマーのQKV構造を自明な標準ではなく、再検討可能な設計空間として捉え直させるものであり、どの射影を共有し、どの役割を分離すべきかについての実証的な基準を提示しています。特に、性能をほぼ維持したままメモリ使用量を大きく下げられる点で、この結果はエッジデバイス(edge device)のような制約の大きい環境での効率的なデプロイに向けた重要な設計指針として読めます。

要旨(Abstract)

TransformerはさまざまなAIタスクにおける標準的な解法となっており、クエリ(query)、キー(key)、バリュー(value)（QKV）アテンション定式化が中核的な役割を果たしています。しかし、この3つの射影それぞれの寄与や、一部を省略した場合の影響は、いまだ十分に理解されていません。私たちは3つの射影共有制約を体系的に評価しました。a) Q-K=V（キー・バリュー共有）、b) Q=K-V（クエリ・キー共有）、c) Q=K=V（単一射影）です。後者2つの変種は対称的なアテンションマップを生成するため、これに対処する目的で、2次元位置エンコーディングによる非対称アテンションもあわせて検討しました。合成課題、ビジョン（MNIST、CIFAR、TinyImageNet、異常検知）、そして言語モデリング（10Bトークン上の3億および12億パラメータモデル）にまたがる実験を通じて、提案するTransformerはQKV Transformerと同等、あるいは場合によってはそれ以上の性能を示すことを見いだしました。言語モデリングでは、Q-K=Vの射影共有により、パープレキシティの悪化を3.1%に抑えつつ、KVキャッシュを50%削減しました。重要なのは、射影共有がヘッド共有（GQA/MQA）と相補的である点です。Q-K=VとGQA-4を組み合わせるとキャッシュを87.5%削減でき、Q-K=VとMQAを組み合わせると96.9%まで削減できるため、実用的なオンデバイス推論が可能になります。私たちは、Q-K=Vが品質を維持できる理由として、キーとバリューが類似した表現空間を占有でき、アテンションが低ランク領域で動作することを示しました。一方で、Q=K-Vはアテンションの方向性を損ないます。私たちの結果は、アテンションにおける十分に探究されてこなかった重み共有（weight tying）の一例として射影共有を体系的に特徴づけるものであり、特にエッジ配備で有用な、直接的かつ定量化可能な推論メモリ上の利点を示しています。コードは https://github.com/Brainchip-Inc/Do-Transformers-Need-3-Projections で公開されています。

Transformers have become the standard solution for various AI tasks, with the query, key, and value (QKV) attention formulation playing a central role. However, the individual contribution of these three projections and the impact of omitting some remain poorly understood. We systematically evaluate three projection sharing constraints: a) Q-K=V (shared key-value), b) Q=K-V (shared query-key), and c) Q=K=V (single projection). The last two variants produce symmetric attention maps; to address this, we also explore asymmetric attention via 2D positional encodings. Through experiments spanning synthetic tasks, vision (MNIST, CIFAR, TinyImageNet, anomaly), and language modeling (300M and 1.2B parameter models on 10B tokens), we discovered that our transformers perform on par or occasionally better than the QKV transformer. In language modeling, Q-K=V projection sharing achieves 50% KV cache reduction with only 3.1% perplexity degradation. Crucially, projection sharing is complementary to head sharing (GQA/MQA): combining Q-K=V with GQA-4 yields 87.5% cache reduction, while Q-K=V + MQA achieves 96.9%, enabling practical on-device inference. We show that Q-K=V preserves quality because keys and values can occupy similar representational spaces and attention operates in a low-rank regime, whereas Q=K-V breaks attention directionality. Our results systematically characterize projection sharing as an underexplored instance of weight tying in attention, with direct, quantifiable inference memory benefits, particularly valuable for edge deployment. The code is publicly available at https://github.com/Brainchip-Inc/Do-Transformers-Need-3-Projections

論文リンク

https://arxiv.org/abs/2606.04032

さらに読む

https://github.com/Brainchip-Inc/Do-Transformers-Need-3-Projections

エージェント型ワークフローをLLMの重みにコンパイルする: 100分の1のコストでフロンティア級に近い品質 / Compiling Agentic Workflows into LLM Weights: Near-Frontier Quality at Two Orders of Magnitude Less Cost

論文紹介

近年のエージェントオーケストレーションフレームワークの普及は、複雑な業務を大規模言語モデル（Large Language Model, LLM）の上で外部オーケストレーターが制御する方式が、事実上の標準として受け入れられつつあることを示しています。しかし本論文は、手続き的な作業においては、そのような構造が必ずしも最善ではないと問題提起します。外部オーケストレーターが各ターンで指示やルーティング判断を注入する方式は、制御やデバッグが容易である一方、コンテキストウィンドウ(context window)を継続的に消費し、会話のたびにフロンティアモデル(frontier model)を呼び出す必要があり、さらに手順そのものがサードパーティの提供事業者に露出し得るという限界を抱えています。これに対し著者らは、作業手順をプロンプトに置くのではなく、小規模なファインチューニングモデルの重み(weights)の中に直接コンパイルし、実行時には追加のオーケストレーションなしでも手順が内在化されたエージェントを作るアプローチを提案します。この方式では、外部から手順を継続的に注入する必要がないためコストを大きく下げられ、長い文脈を占有せず、機密性の高い業務フローを外部サービスにさらさないという構造的な利点があります。著者らは、このように手順がモデル内部に潜んで動作するエージェントを subterranean agent と呼び、既存のオーケストレーション中心設計と明確に区別しています。

中核となる方法論は、単なる概念提示ではなく、開発者がこのアプローチをためらう3つの認識上の障壁を、実際の業務環境で検証する点にあります。第一に、小規模モデルでフロンティア級の品質を実現できるのかという性能面の懸念を扱い、第二に、製品特化知識のように頻繁に変化する情報を重みに埋め込めるのかという知識内在化の問題を点検し、第三に、分岐やハブが多い複雑で大規模なワークフローにもこの方式が拡張可能かを検証します。そのため研究チームは、旅行予約、Zoomサポート、保険請求という性質の異なる3つの領域を選び、手続き的な深さとドメイン知識の要求水準が異なる条件で、コンパイル方式の有効性を比較します。旅行予約は14ノードから成る標準的な手続きフローを通じて、状態遷移と段階的意思決定の安定性を試験し、Zoomサポートは同規模のワークフローであっても製品ごとのポリシーや機能知識があわせて必要である点を強調します。保険請求は55ノードと6つの意思決定ハブを持つ、より複雑な構造であり、条件分岐とポリシー計算を同時に求める実践的なストレステストの役割を果たします.

実験結果の含意は明確です。手順を重みに内在化した小型モデルが、near-frontier quality、すなわちフロンティアモデルに近い品質を維持しながら、コストを二桁倍率レベルで削減できることが確認されており、これは性能と効率の伝統的なトレードオフを見直させるものです。特に保険請求の事例で示されているように、モデルは単に回答を生成するだけでなく、確認、分岐、補償額の計算、支払い案内まで含む手続き的推論を一貫して実行できることを示しています。こうした結果は、反復可能で構造が比較的安定した業務であれば、毎回外部調整を経るオーケストレーションよりも、手順そのものを学習したコンパイル方式のほうが適している可能性を示唆しています。同時に、手順変更時には再学習が必要になる可能性があり、プロンプトベース方式より即時の修正や解釈可能性で不利になりうる点も残りますが、この研究の貢献はエージェント設計の選択肢を広げたことにあります。結局のところ、この論文はエージェントワークフローを常に外部で組み立てるべきだという通念に挑戦し、手順をモデル内部へ移す方式が実務レベルでも十分有効な代替案となりうることを実証的に示しています。

要旨(Abstract)

エージェントオーケストレーションフレームワークは急速に普及しており、LangGraph、CrewAI、Google ADK、OpenAI Agents SDK、Semantic Kernel、Strands、LlamaIndexを合わせたGitHubスター数は29万を超えています。これらはすべて同じパターンに従っています。つまり、LLMの上に外部オーケストレーターを置き、毎ターン指示とルーティング判断を注入する方式です。最近の研究では、このアーキテクチャは手続き的タスクにおいて、Frontierモデルのシステムプロンプトに手順をそのまま与えるだけの方法に劣ることが示されました [Dennis et al., 2026a]。ただし、その代償としてコンテキストウィンドウを消費し、すべての会話でFrontierモデルが必要になり、独自手順がサードパーティプロバイダーに露出します。手順を小型のファインチューニング済みモデルの重みにコンパイルして地下型エージェント(subterranean agent)を作る方法は、こうした問題をすべて解消できるはずであり、先行研究(SimpleTOD, FireAct, SynTOD, WorkflowLLM, Agent Lumos)でもこの手法が有効であることが示されていました。それにもかかわらず、開発者の採用は圧倒的にオーケストレーション側へ偏っています。私たちは認識されている3つの障壁を特定し、それぞれを旅行予約(14ノード)、Zoomサポート(14ノード、製品特化知識)、保険請求(55ノード、6つの意思決定ハブ)という3領域で実証的に扱います。

Agent orchestration frameworks have proliferated, collectively exceeding 290,000 GitHub stars across LangGraph, CrewAI, Google ADK, OpenAI Agents SDK, Semantic Kernel, Strands, and LlamaIndex. All follow the same pattern: an external orchestrator above the LLM, injecting instructions and routing decisions every turn. Recent work has shown this architecture is dominated for procedural tasks by simply providing the procedure in a frontier model's system prompt [Dennis et al., 2026a], at the cost of consuming the context window, requiring a frontier model for every conversation, and exposing proprietary procedures to third-party providers. Compiling the procedure into the weights of a small fine-tuned model -- creating a subterranean agent -- should resolve all of these concerns, and prior work (SimpleTOD, FireAct, SynTOD, WorkflowLLM, Agent Lumos) has shown the technique works. Yet developer adoption has overwhelmingly favored orchestration. We identify three perceived barriers and address each empirically across travel booking (14 nodes), Zoom support (14 nodes, product-specific knowledge), and insurance claims (55 nodes, 6 decision hubs).

論文リンク

https://arxiv.org/abs/2605.22502

さらに読む

https://discuss.pytorch.kr/t/llm-subterranean-agent/10501

長期範囲課題のためのエージェント互換コンテキスト管理の学習 / Learning Agent-Compatible Context Management for Long-Horizon Tasks

論文紹介

大規模言語モデル(LLM)ベースのエージェントが、Web検索や深掘り調査のように段階が長く中間判断が累積する長期タスク(long-horizon tasks)を実行する際、最大の障害の一つは、対話が長くなるほど有効な手がかりと不要な過去情報が混在し、推論が不安定になる点です。従来のコンテキスト管理手法は、エージェント内部の方策を一緒に学習したり、要約のような固定戦略に依存したりする場合が多く、こうした方式はクローズドソース(closed-source)エージェントに適用しにくく、エージェントごとに求められる管理方法が異なりうるという現実を十分に反映していません。これを解決するために提案されたAdaptive Context Management(AdaCoM)は、固定されたエージェント(frozen agent)はそのまま維持しつつ、外部の別のLLMがコンテキストを動的に編集するよう学習させるアプローチを採ります。ここでの核心は、単に長い対話を圧縮することではなく、メッセージ単位で削除、書き換え、統合を行いながら、現在のタスクに必要な制約条件と進行状況を保持し、古いノイズを取り除く柔軟な修正行動を学習することにあります。この設計は、コンテキスト管理を静的な前処理ではなく、エージェントの成功率を直接改善する方策学習問題として再定義する点で重要です。

AdaCoMはまず、コンテキスト管理者を構造化出力形式に慣れさせる教師ありファインチューニング(supervised fine-tuning, SFT)から始め、その後、実際のタスク成果を報酬としてグループ相対方策最適化(Group Relative Policy Optimization, GRPO)で方策を洗練します。この過程で管理者は現在のコンテキストをプロンプトへ変換して入力として受け取り、マルコフ決定過程(Markov decision process, MDP)の観点から各段階でどのメッセージを保持または修正するかを選択します。また、最終的な正答だけを見るのではなく、コンテキスト長の超過、反復的なツール呼び出し、形式エラー、中間段階のタスク信号などを反映したプロセス報酬(process reward)も設計し、長期タスクで重要な局所的編集品質まで学習できるようにしています。これによりAdaCoMは単なる要約器ではなく、エージェントが安定して思考を継続できるよう支援する適応型編集方策として機能します。

実験では、Web検索と深掘り調査のベンチマークでさまざまなエージェントに適用した際の性能向上が確認されました。特に、もともとReAct(Reasoning and Acting)方式の基本性能が高いエージェントほど、高い忠実度でのコンテキスト保持が有利であり、逆に比較的弱いエージェントは、より攻撃的な圧縮によって安定した推論領域に留まるほうが効果的であることが明らかになりました。著者らはこれをfidelity-reliability trade-offと解釈し、コンテキスト管理はエージェントの能力水準に応じて変わるべきであることを示しています。さらに転移実験では、類似した能力特性を持つエージェント同士の間でAdaCoMの戦略がよりよく転移する傾向が観察され、単一の普遍的な要約ルールよりも、再利用可能な外部コンテキスト管理者という方向性のほうが実用的である可能性を示唆しています。結局、この研究は長期タスクにおける失敗原因をエージェントの推論能力だけに求めるのではなく、その推論を支えるコンテキスト管理自体を学習可能な中核構成要素として扱う点で、重要な方法論的進展を提示しています。

要旨(Abstract)

大規模言語モデル（LLM）エージェントは、Web検索やディープリサーチのような長期的タスクにますます直面しており、実際のアプリケーションでは蓄積されたコンテキストによって長文コンテキストでの性能劣化や推論失敗が発生し得ます。従来研究では、エージェント側のコンテキスト制御や要約のような固定戦略によるコンテキスト管理でこれを緩和してきましたが、これらの方法は適応のためにエージェント自体を学習させる必要があるためクローズドソースのエージェントには実用的でなく、さらに異なるエージェントが異なる戦略を必要とし得る点も見落としています。

私たちはAdaptive Context Management（AdaCoM）を提案します。これは、柔軟な修正アクションとエンドツーエンドの強化学習を通じて、固定されたエージェントのコンテキストを管理する外部LLMを学習させるものです。Web検索およびディープリサーチのベンチマークにおける多様なエージェントで、AdaCoMは古くなった内容を削除しつつ、タスクの制約と進捗を保持することで性能を大幅に向上させます。学習された戦略は、忠実度-信頼性トレードオフ（Fidelity-Reliability Trade-off）を示します。つまり、通常のReAct性能が高いエージェントはより高い忠実度でのコンテキスト保持から恩恵を受ける一方、性能が低いエージェントは信頼できる推論領域に留まるため、より積極的な圧縮を必要とします。転移実験では、AdaCoMが通常のReAct性能で測定した能力が類似するエージェント間で最も効果的に一般化することが示されており、これはエージェントシステム向けの再利用可能なコンテキストマネージャーへと進む実用的な道筋を示唆しています。

LLM agents increasingly face long-horizon tasks such as web search and deep research in real-world applications, where accumulated context can cause long-context degradation and reasoning failures. Prior work mitigates this through context management with agent-side context control or fixed strategies such as summarization, which require training the agent itself for adaptation - making it impractical for closed-source agents and ignoring that different agents may require different strategies. We introduce Adaptive Context Management (AdaCoM), which trains an external LLM to manage the context of a frozen agent through flexible modification actions and end-to-end reinforcement learning. Across diverse agents on web search and deep research benchmarks, AdaCoM substantially improves performance by preserving task constraints and progress while pruning stale content. The learned strategies reveal a Fidelity-Reliability Trade-off: agents with higher vanilla ReAct performance benefit from higher-fidelity context preservation, whereas lower-performing agents require more aggressive compression to stay within a reliable reasoning regime. Transfer experiments show that AdaCoM generalizes most effectively across agents with similar capability (measured by vanilla ReAct performance), suggesting a practical path toward reusable context managers for agent systems.

論文リンク

https://arxiv.org/abs/2605.30785

潜在エージェント：内在化されたマルチエージェント討論のための事後学習手順 / Latent Agents: A Post-Training Procedure for Internalized Multi-Agent Debate

論文紹介

大規模言語モデル（Large Language Models, LLMs）の推論性能を高めるためのマルチエージェント討論（Multi-Agent Debate）は強力な手法ですが、複数のエージェントが長い討論履歴をやり取りしなければならないため、計算コストが非常に大きいという限界があります。Latent Agentsはこの非効率を解決するため、外部で行われていたマルチエージェント討論を単一の言語モデル内部へ蒸留する事後学習（post-training）手順を提案します。中核となるアイデアは、討論の結果だけを圧縮するにとどまらず、討論の構造そのものをまずモデルに学習させ、その後、強化学習（Reinforcement Learning, RL）を通じてその構造を内部化させることにあります。そのため著者らはまず、3エージェント・2ラウンドで構成された討論データを構築し、最終的な合意が形成された算術問題の討論記録に構造タグを付与して一貫した形式を作りました。続いて、教師ありファインチューニング（Supervised Fine-Tuning, SFT）段階では、討論全体のtraceをそのまま学習させることで、モデルが討論の展開方式と合意形成パターンを模倣するようにしました。

その後の強化学習段階は、単なる形式模倣を超えて、実際に討論を内部化する過程に相当します。ここではGroup Relative Policy Optimization（GRPO）を用いて複数の候補出力を比較し、正答がより早い時点で現れるよう圧力をかけるlength clipping報酬を組み合わせます。また、<|Agent 1|>、<|Round 1|>、<|endofdebate|>のような構造タグの維持を助ける形式報酬を徐々に弱めることで、モデルがもはや長い外部討論に依存せず、内部表現だけで結論に到達できるよう設計されています。このような動的報酬スケジューリングと長さの縮小は、討論の計算的な外形を減らしつつも、エージェント間相互作用が生み出す推論上の利点を保つうえで重要な役割を果たします。実験の結果、提案モデルはGSM8K、MMLU-Pro、Big-Bench Hard（BBH）でexplicit multi-agent debateと同等またはそれ以上の性能を示し、使用トークン数は最大93%まで削減され、推論効率が大きく向上しました。特に一部の設定では、SFTだけでもすでに既存の討論方式を上回る結果が得られ、さらにRLを加えることで正確度とトークン削減効果の両方が強化され、内部化手順の有効性が明確に示されました。

この研究のもう一つの重要な貢献は、内部化された討論がモデルの表現空間をどのように変えるかを機械的に分析した点です。activation steering実験を通じて、著者らは内在化されたモデル内部にエージェント別部分空間（agent-specific subspaces）が形成され、異なるエージェント視点に対応する解釈可能な方向が存在することを示しました。これは、マルチエージェント討論の利点が単なる出力テキストの平均化から来るのではなく、異なる推論視点が潜在空間で構造的に分離され、組み合わされる過程と関係していることを示唆します。さらに、悪性エージェントを内部化した後にnegative steeringでこれを抑制する実験は、蒸留後のモデルでは有害な振る舞いがより局所化され、制御しやすくなる可能性を示しています。結果としてLatent Agentsは、マルチエージェント推論をコスト効率よく圧縮する方法を提示すると同時に、内部化された推論の構造と制御可能性をあわせて明らかにしている点で意義が大きいです。

要旨（Abstract）

マルチエージェント・ディベートは、大規模言語モデル（LLM）の推論性能を向上させることが示されている。しかし、計算コストが高く、質問に答える前に長い対話記録を生成する必要がある。こうした非効率性に対処するため、私たちはディベート構造学習と、動的報酬スケジューリングおよび長さクリッピングによる内在化を組み合わせた2段階のファインチューニング・パイプラインを通じて、マルチエージェント・ディベートを単一のLLMへ蒸留するフレームワークを開発する。複数のモデルとベンチマークにわたり、私たちの内在化モデルは、最大93%少ないトークン数で、明示的なマルチエージェント・ディベートと同等またはそれを上回る性能を示す。続いてactivation steeringを通じてこの能力の機械論的基盤を調査した結果、内在化がエージェント固有の部分空間、すなわち異なるエージェントの視点に対応する活性化空間内の解釈可能な方向を生成することを確認した。さらに私たちは実用的な適用例も示した。内在化されたディベートを通じて悪意あるエージェントをLLMに注入した後、negative steeringを適用してこれを抑制することで、蒸留によって有害な挙動をより局所化しやすく、制御しやすくなり、ベースモデルにsteeringを適用する場合と比べて全体的な性能低下も小さいことを示した。私たちの研究結果は、蒸留モデルにおけるマルチエージェント能力を理解するための新たな視点を提示し、内在化された推論挙動を制御するための実用的な指針を提供する。コードは次のURLで公開されている: https://github.com/johnsk95/latent_agents

Multi-agent debate has been shown to improve reasoning in large language models (LLMs). However, it is compute-intensive, requiring generation of long transcripts before answering questions. To address this inefficiency, we develop a framework that distills multi-agent debate into a single LLM through a two-stage fine-tuning pipeline combining debate structure learning with internalization via dynamic reward scheduling and length clipping. Across multiple models and benchmarks, our internalized models match or exceed explicit multi-agent debate performance using up to 93% fewer tokens. We then investigate the mechanistic basis of this capability through activation steering, finding that internalization creates agent-specific subspaces: interpretable directions in activation space corresponding to different agent perspectives. We further demonstrate a practical application: by instilling malicious agents into the LLM through internalized debate, then applying negative steering to suppress them, we show that distillation makes harmful behaviors easier to localize and control with smaller reductions in general performance compared to steering base models. Our findings offer a new perspective for understanding multi-agent capabilities in distilled models and provide practical guidelines for controlling internalized reasoning behaviors. Code available at https://github.com/johnsk95/latent_agents

論文リンク

https://arxiv.org/abs/2604.24881

さらに読む

https://github.com/johnsk95/latent_agents

MOSS: 自律エージェントシステムにおけるソースレベル書き換えによる自己進化 / MOSS: Self-Evolution through Source-Level Rewriting in Autonomous Agent Systems

論文紹介

デプロイ後も自ら学習し、反復的な失敗を減らせる自律エージェントシステムは、以前から重要な目標とされてきたが、実際にはほとんどのシステムがテキストで修正可能な設定やプロンプトの水準にとどまり、構造的欠陥を根本的に扱えていなかった。こうした限界を超えるために提案されたMOSSは、ソースレベル適応（source-level adaptation）を自己進化の媒体とし、エージェントの中核実行構造そのものを書き換えられるよう設計されたシステムである。著者らは、ルーティング、フック順序、状態不変条件、ディスパッチのように実際の動作を決定する要素がコードの中に存在するため、skillファイルやプロンプト構成だけを変える方式では到達できない失敗が必然的に残ると指摘する。一方でソースコードはチューリング完全性（Turing-complete）を持ち、テキストベースのアーティファクトの上位集合に当たり、モデルの指示追従性に依存せず決定論的に動作するという点で、はるかに一般的で安定した適応手段として提示されている。

MOSSの方法論は、自動的に収集した本番障害証拠（production-failure evidence）を出発点とし、それを基準に多段階の進化パイプラインを固定的に実行することに核心がある。コード修正自体は外部のコーディングエージェントCLI（command-line interface）に委ねるが、MOSSは段階の順序と最終判定を直接統制することで、生成と検証の責任を分離する。このようにして作られた候補バージョンは、一時的な試験ワーカー（ephemeral trial workers）で障害バッチを再度リプレイして検証され、単純な静的解析ではなく、実際の障害状況に対する再現ベースの評価を行う点で意義が大きい。検証を通過した候補だけが、ユーザー同意を前提としたインプレース・コンテナ・スワップ（in-place container swap）によって昇格され、その後はヘルスプローブ（health probe）の条件を満たせなければ自動でロールバックされるよう設計されており、運用安全性まであわせて保証する。

このアプローチは、既存の自己進化エージェントが主にプロンプト、メモリスキーマ、ワークフローグラフのようなテキストで表現可能な領域だけで改善を試みていたのとは異なり、実際の実行ハーネス（harness）まで含めたシステム全体を進化対象とする点で差別化される。したがってMOSSは、単により良い応答を生成するモデルではなく、運用中のエージェントシステムの構造的欠陥を直接修正する適応プラットフォームとして理解できる。特に、決定論的なパイプラインと検証・昇格・ロールバック手順を組み合わせることで、長期コンテキストドリフト（long-context drift）に弱いテキスト中心の方式よりも、堅牢な自己改善経路を提示している。こうした設計は、自律エージェントが実サービス環境で安全に進化するには、学習能力だけでなく、デプロイ、検証、ロールバックまで含むシステム工学的メカニズムがあわせて必要であることを明確に示している。

実験的にMOSSは、OpenClawにおける4つのタスクの平均grader scoreを、1回の進化サイクルだけで0.25から0.61へ引き上げ、人間の介入なしにこの改善を達成した。この結果は、ソースレベル書き換えというアプローチが、単に理論的により一般的であるにとどまらず、実際の本番エージェントシステムでも有意な性能改善につながりうることを示している。結局のところ、この論文は自己進化エージェントの範囲をテキスト調整からコードレベル再構成へと拡張することで、自律システムが反復的失敗を自ら是正する新たな可能性を提示する。

要旨(Abstract)

デプロイ後の自律エージェント型システムは、概して静的である。つまり、ユーザーとの相互作用から学習せず、繰り返し発生する失敗は、次の人手主導のアップデートで修正が配布されるまで残り続ける。これに対応して自己進化エージェントが登場したが、それらも進化の対象をテキストとして編集可能なアーティファクト、すなわちスキルファイル、プロンプト設定、メモリスキーマ、ワークフローグラフに限定し、エージェントハーネス自体には手を付けない。ルーティング、フック順序、状態不変条件、ディスパッチはテキストアーティファクトではなくコード内に存在するため、構造的失敗の一群全体はテキスト層からは物理的に到達できない。私たちは、ソースレベル適応こそが根本的により一般的な媒体であると主張する。これはチューリング完全であり、テキストとして編集可能なあらゆる範囲を厳密に包含する上位集合であり、基盤モデルの追従性に依存するのではなく決定論的に効果を発揮し、長文コンテキストドリフトによって劣化することもない。私たちは、プロダクションのエージェント型基盤上でソースレベルの自己書き換え（self-rewriting）を実行するシステムMOSSを提示する。各進化は、自動的にキュレーションされたプロダクション失敗証拠のバッチに基づき、決定論的な多段階パイプラインを通じて進行する。コード修正はプラグイン可能な外部コーディングエージェントCLIに委任され、MOSSはステージ順序と判定を保持する。候補は、一時的な試験ワーカーで候補イメージに対してバッチを再生して検証された後、ユーザー同意を要するインプレースのコンテナスワップと、ヘルスプローブに基づくロールバックを通じて昇格される。OpenClawにおいて、MOSSは人間の介入なしに、1回のサイクルだけで4タスク平均採点スコアを0.25から0.61へ引き上げる。

Autonomous agentic systems are largely static after deployment: they do not learn from user interactions, and recurring failures persist until the next human-driven update ships a fix. Self-evolving agents have emerged in response, but all confine evolution to text-mutable artifacts -- skill files, prompt configurations, memory schemas, workflow graphs -- and leave the agent harness untouched. Since routing, hook ordering, state invariants, and dispatch live in code rather than in any text artifact, an entire class of structural failure is physically unreachable from the text layer. We argue that source-level adaptation is a fundamentally more general medium: it is Turing-complete, a strict superset of every text-mutable scope, takes effect deterministically rather than through base-model compliance, and does not erode under long-context drift. We present MOSS, a system that performs self-rewriting at the source level on production agentic substrates. Each evolution is anchored to an automatically curated batch of production-failure evidence and proceeds through a deterministic multi-stage pipeline; code modification is delegated to a pluggable external coding-agent CLI while MOSS retains stage ordering and verdicts. Candidates are verified by replaying the batch against the candidate image in ephemeral trial workers, then promoted via user-consent-gated, in-place container swap with health-probe-gated rollback. On OpenClaw, MOSS lifts a four-task mean grader score from 0.25 to 0.61 in a single cycle without human intervention.

論文リンク

https://arxiv.org/abs/2605.22794

さらに読む

https://github.com/dav-joy-thon/MOSS

非協力ゲームによる言語モデルの安全性アラインメント / Safety Alignment of LMs via Non-cooperative Games

論文紹介

言語モデル（language models, LM）の安全性アラインメントは、有用性を維持しながら悪意ある入力への耐性も確保しなければならないという点で、近年のAIアラインメント研究における中核課題となってきました。従来のアプローチが主に攻撃的なプロンプトを生成した後、それを防御するよう順次ファインチューニングする方式にとどまっていたのに対し、この論文は安全性アラインメントを、攻撃者LM（Attacker LM）と防御者LM（Defender LM）が互いの戦略にリアルタイムで適応する非ゼロ和ゲーム（non-zero-sum game）として再定義します。両モデルはオンライン強化学習（online reinforcement learning, RL）を通じて共同学習され、攻撃者はより精巧なレッドチーミング（red-teaming）戦略を探索し、防御者はその攻撃に対してより堅牢に対応するよう進化します。このような相互適応構造は、静的データセットに対する一回限りの学習ではなく、モデル間の競争が反復される中で性能の境界そのものを継続的に拡張していくという点で、既存方式と明確に区別されます。特に著者らは、報酬信号をスコアベース（point-wise score）にせず、ペアワイズ比較（pairwise comparison）から得られる選好ベース（preference-based）の信号として設計することで、より安定した監督を提供し、報酬ハッキング（reward hacking）への脆弱性を低減しようとしました。

この方法論の中心にはAdvGameという学習手続きがあり、安全性と有用性のあいだのパレートフロンティア（Pareto frontier）をさらに外側へ押し広げることを目標としています。具体的には、攻撃者と防御者が互いの最新ポリシーを反映しながら交互に更新されるため、防御者は実際により強い攻撃を相手に鍛えられ、攻撃者は特定モデルの弱点にだけ限定されない、一般的な脆弱性検出能力を学習するようになります。付録の数式展開は、このようなゲーム的最適化問題を実際に学習可能な形へ落とし込む中核過程を示しており、攻撃者ポリシーの最適分布を参照ポリシー（reference policy）に対する指数再重み付けの形で表したうえで、正規化定数を除去するために2つの候補を比較する形へ整理します。この過程で、攻撃者の学習は絶対的なスコア回帰ではなく、相対的な選好順序を合わせる問題へと変わり、これはDirect Preference Optimization（DPO）系の目的関数へ自然に帰着します。言い換えれば、攻撃者が生成したプロンプトと防御者の応答がともに形成するtrajectory全体を比較対象とすることで、実際の相互作用に基づくより豊かな学習信号を得るのです。

またこの論文は、選好確率をBradley-Terryモデルと結び付け、攻撃者と防御者の相互作用をロジット（logit）空間で集約するmarginalized preferenceの概念を導入します。これにより、個々の応答のノイズを平均化しつつ、プロンプト単体ではなく、プロンプトと応答の結合効果を反映した選好構造を学習できるようになります。結果として、攻撃者の更新は現在の防御者ポリシーによって継続的に更新される動的分布上で行われるため、固定ターゲットに特化した攻撃ではなく、多様なモデルへ一般化可能なレッドチーム能力へと収束します。アブストラクトが強調するように、このような共同最適化は、より有用でありながら攻撃にも強い防御者LMを提供すると同時に、実際のデプロイ環境で活用可能な強力な汎用攻撃者LMも生み出すという点で意義があります。結局のところ、この研究は安全性アラインメントを単なる防御技術ではなく、モデル間の競争と適応を体系的に活用する学習問題へと拡張することで、言語モデルの安全性と有用性を同時に高められる新たな方法論的方向性を提示しています。

アブストラクト(Abstract)

言語モデル（LM）の有用性を維持しつつ安全性を確保することは、AIアラインメントにおける依然として中核的な課題です。現在のアプローチは逐次的な敵対的学習に依存しており、敵対的プロンプトを生成した後、それに対抗できるよう言語モデルをファインチューニングする方式を取ります。私たちはこれとは異なるパラダイムを提案します。すなわち、安全アラインメントを攻撃者LMと防御者LMの間の非ゼロサムゲームとして定式化し、両モデルをオンライン強化学習によって共同学習します。各LMは相手の変化する戦略に継続的に適応し、それによって反復的な改善が進みます。私たちの手法は、点ごとの point-wise スコアの代わりに、ペア比較から導かれる選好ベースの報酬信号を用いることで、より堅牢な監督を実現し、報酬ハッキングを潜在的に減らします。RLレシピであるAdvGameは、安全性と有用性のパレートフロンティアを押し広げ、同時により有用でありながら敵対的攻撃に対してより強靭な防御者LMを生み出します。さらに、最終的に得られた攻撃者LMは強力な汎用レッドチームテストエージェントへと収束し、任意の対象モデルを直接プローブ・検証するために配備できます。コードは github.com/facebookresearch/advgame にあります。

Ensuring the safety of language models (LMs) while maintaining their usefulness remains a critical challenge in AI alignment. Current approaches rely on sequential adversarial training: generating adversarial prompts and fine-tuning LMs to defend against them. We introduce a different paradigm: framing safety alignment as a non-zero-sum game between an Attacker LM and a Defender LM trained jointly via online reinforcement learning. Each LM continuously adapts to the other's evolving strategies, driving iterative improvement. Our method uses a preference-based reward signal derived from pairwise comparisons instead of point-wise scores, providing more robust supervision and potentially reducing reward hacking. Our RL recipe, AdvGame, shifts the Pareto frontier of safety and utility, yielding a Defender LM that is simultaneously more helpful and more resilient to adversarial attacks. In addition, the resulting Attacker LM converges into a strong, general-purpose red-teaming agent that can be directly deployed to probe arbitrary target models. Code at github.com/facebookresearch/advgame.

論文リンク

https://arxiv.org/abs/2512.20806

さらに読む

https://github.com/facebookresearch/advgame

計画、観察、復旧：能動的な手順支援のためのベンチマークとアーキテクチャ / Plan, Watch, Recover: A Benchmark and Architectures for Proactive Procedural Assistance

論文紹介

実世界の手順型タスクでは、ユーザーが定められた順序を常にそのまま守るとは限らないため、支援システムは単に次のステップを予測するだけでなく、いつ介入すべきか、そしてどのように案内すべきかをあわせて判断できる必要があります。こうした問題意識のもとで提案されたアプローチは、ユーザーの一人称視点の視覚情報、対話履歴、質問文脈を基に現在の状況を解釈し、計画逸脱（out-of-plan, OOP）状態に入ったかどうかまでリアルタイムで検知する、先回り型の手順支援に焦点を当てています。特にこの研究の中核は、介入するかどうかと介入内容を分離して扱う点にあります。というのも、タイミング判断とコーチング生成はそれぞれ異なる最適化目標を持つためです。ユーザーが正常な手順から外れたときには、黙って待つのではなく、適切なタイミングで短く正確な復帰指示を与える必要があり、そのためにシステムは手順上の状態と視覚的手がかりの両方を追跡しなければなりません。

こうした目標を支えるために、著者らはまず EgoProactive という大規模なウェアラブル一人称データを構築し、明示的な計画逸脱アノテーションと復帰ステップ（recovery steps）をあわせて提供しました。このデータセットは、実環境で発生する迂回やエラーを学習可能にするという点で大きな意義があり、線形的な段階進行だけを前提としていた既存リソースの限界を補完します。さらに、Ego4D、EPIC-KITCHENS、EgoExo4D、HoloAssist、HowTo100M という5つの既存ベンチマークを、単一の先回り型ガイダンス枠組みへと再構成した Pro²Bench を通じて、異なるドメイン間でも介入タイミングと復帰コーチング能力を一貫して比較できる評価環境を整えました。これは、手順理解を単なる次ステップ予測の問題ではなく、実際のインタラクション品質を測定する問題へと拡張した点で重要です。

モデル面では、計画担当とインタラクション担当を分離した decoupled planner-interaction architecture を提案し、手順状態の追跡と応答生成を緩く結び付けるのではなく、それぞれの役割に応じて最適化しました。これに加えて、計画に固定された plan-anchored クリップ選択を適用し、動画全体を無差別に処理する代わりに、現在のステップと復帰判断に直接関係する視覚区間を優先的に利用するよう設計しました。この方式により、長い一人称動画における不要なノイズを減らしつつ、計画逸脱の兆候と復帰に必要な手がかりをより明確に捉えられます。言い換えれば、このアーキテクチャは「何を話すか」と「何を見るか」の両方を計画中心に整列させた構造だと言えます。

また、事後学習（post-training）レシピを通じて、この方法が特定モデル専用の特殊処理ではなく、さまざまなバックボーンへ転移可能な一般的手順であることを示した点も注目に値します。実際に Llama 4 と Qwen-3.6-VL でクロスバックボーン再現を行い、手法の移植可能性を検証しており、これは今後さらに強力なマルチモーダルモデルにも容易に拡張できることを示唆します。実験結果では、学習済みの Llama-4 システムが、Claude Opus 4.6、Gemini 3.1 Pro、GPT 5.2、Qwen3 VL 235B といった強力なベースラインよりも、6つのデータセット全体でより高い客観的介入品質（objective intervention quality）を示しました。特にオラクル計画（oracle plan）条件では、計画品質が統制されたときに復帰ガイダンス性能が大きく向上し、計画追跡と介入生成を分離した構造の妥当性を明確に裏付けました。総合すると、この研究は、手順型作業を行うユーザーのためのマルチモーダル支援者を、段階予測型システムではなくリアルタイム介入型コーチとして再定義し、実状況により近いデータ、アーキテクチャ、学習戦略をあわせて提示したという点で意義深いものです。

要旨(Abstract)

翻訳対象の要旨の構成と用語を合わせ、冒頭文をそのまま日本語に訳したうえで、要旨全体を自然で学術的な日本語に整えて翻訳します。
私たちは、手順的タスクにおいてユーザーへリアルタイムの段階的ガイダンスを提供し、いつ中断して介入するか、そしてどのようにコーチングするかを自律的に判断する、能動型マルチモーダルアシスタントシステムを構想する。しかし、現実的な条件、とりわけユーザーが想定された手順順序から逸脱する一般的なケースを反映した大規模なクロスドメイン・ベンチマークが存在しないため、進展は制約されている。私たちはこのギャップを4つの貢献によって埋める。(1) 計画逸脱（Out-of-Plan, OOP）のアノテーションと回復ステップを明示的に含む、能動的な手順支援のための大規模ウェアラブル・エゴセントリック（wearable-egocentric）データセット EgoProactive を公開する。(2) 既存の5つのベンチマーク（Ego4D, EPIC-KITCHENS, EgoExo4D, HoloAssist, HowTo100M）を、統一的な能動ガイダンス・スキーマのもとで Pro^2Bench に拡張する。(3) 手順状態、視覚的手がかり、回復挿入に特化した 分離型プランナー--インタラクション・アーキテクチャ を提案する。(4) モデルファミリーをまたいで転移可能な事後学習レシピを導入し、Llama 4 と Qwen-3.6-VL におけるクロスバックボーン再現によってこれを検証する。大規模実験において、私たちが学習した Llama-4 システムは、6つすべてのデータセットで、強力な商用ベースライン（Claude Opus 4.6, Gemini 3.1 Pro, GPT 5.2）およびオープンウェイトのベースライン（Qwen3 VL 235B）を上回り、客観的な介入品質を大幅に向上させる。オラクルプラン実験はさらに、計画品質を統制した場合、学習済みデュプレックスモデルが高品質なガイダンスを生成し、計画逸脱（OOP）からの回復で大きな改善を示すことを明らかにしている。

私たちは、手順的タスクにおいてユーザーへリアルタイムの段階的ガイダンスを提供し、いつ中断して介入するか、そしてどのようにコーチングするかを自律的に判断する、能動型マルチモーダルアシスタントシステムを構想する。しかし、現実的な条件、とりわけユーザーが想定された手順順序から逸脱する一般的なケースを反映した大規模なクロスドメイン・ベンチマークが存在しないため、進展は制約されている。私たちはこのギャップを4つの貢献によって埋める。\textbf{(1)}~計画逸脱（Out-of-Plan, OOP）のアノテーションと回復ステップを明示的に含む、能動的な手順支援のための大規模ウェアラブル・エゴセントリック・データセット \textbf{EgoProactive} を公開する。\textbf{(2)}~既存の5つのベンチマーク（Ego4D, EPIC-KITCHENS, EgoExo4D, HoloAssist, HowTo100M）を、統一的な能動ガイダンス・スキーマのもとで \textbf{Pro\textsuperscript{2}Bench} に拡張する。\textbf{(3)}~手順状態、視覚的手がかり、回復挿入に特化した \textbf{分離型プランナー--インタラクション・アーキテクチャ} を提案する。\textbf{(4)}~モデルファミリーをまたいで転移可能な事後学習レシピを導入し、Llama~4 と Qwen-3.6-VL におけるクロスバックボーン再現によってこれを検証する。大規模実験において、私たちが学習した Llama-4 システムは、6つすべてのデータセットで、強力な商用ベースライン（Claude Opus~4.6, Gemini~3.1~Pro, GPT~5.2）およびオープンウェイトのベースライン（Qwen3~VL~235B）を上回り、客観的な介入品質を大幅に向上させる。オラクルプラン実験はさらに、計画品質を統制した場合、学習済みデュプレックスモデルが高品質なガイダンスを生成し、計画逸脱（Out-of-Plan）からの回復で大きな改善を示すことを明らかにしている。

論文リンク

https://arxiv.org/abs/2606.04970

さらに読む

https://huggingface.co/datasets/facebook/wearable-ai

FuzzingBrain V2: 自動化された脆弱性発見および再現のためのマルチエージェントLLMシステム / FuzzingBrain V2: A Multi-Agent LLM System for Automated Vulnerability Discovery and Reproduction

論文紹介

ソフトウェア脆弱性によるセキュリティ脅威が日増しに深刻化するなか、2025年だけでも約50,000件の CVE（Common Vulnerabilities and Exposures）が報告されています。大規模言語モデル（LLM）は自動化された脆弱性検出に新たな可能性を示しているものの、既存の LLM ベースの手法にはなお解決すべき根本的な課題があります。具体的には、LLM が生成した脆弱性レポートは偽陽性率が高い一方で再現可能な検証メカニズムが不足しており、脆弱性の位置特定に関して関数レベルや行レベルといった非最適な粒度を用いているほか、複雑な関数間依存関係や多層的なトリガー条件を含む脆弱性を効果的に扱うことが難しい点です。本研究で提案する FuzzingBrain V2 は、こうした課題を体系的に解決するために設計されたマルチエージェント LLM システムであり、Google の OSS-Fuzz フレームワークを検証バックエンドとして活用することで、報告されたすべての脆弱性について 100% の再現性を保証します。また、このシステムは制御フロー情報を含む新たな抽象化である Suspicious Point を導入し、関数レベルと行レベルの間にある最適な地点で正確な脆弱性位置特定を可能にするとともに、論理ベースの階層的関数解析と二層のファジング戦略によって、リソース制約下での関数カバレッジを向上させます。さらに、Model Context Protocol ベースの静的・動的解析ツールと高度なコンテキストエンジニアリングを活用し、複雑な脆弱性推論を強化します。AIxCC 2025 最終競技の C/C++ データセットにおいて、FuzzingBrain V2 は 90% の検出率（40件中36件の脆弱性）を達成し、実運用環境では 12 のオープンソースプロジェクトにわたって合計 41 件の未知の脆弱性を発見しました。そのうち 26 件が確認され、23 件が修正され、2 件の CVE 識別子が割り当てられています。これらの結果は、意味論的解析能力と実行ベース検出を組み合わせたマルチエージェント・アプローチが、単なる学術的成果にとどまらず、実際の本番ソフトウェアのセキュリティを直接改善し得ることを明確に示しています。

要旨(Abstract)

ソフトウェアの脆弱性は深刻なセキュリティ脅威を引き起こしており、2025年には約50,000件のCVEが報告されました。大規模言語モデル（LLM）は自動化された脆弱性検出に有望である一方で、3つの主要な課題が残っています。第一に、LLMが生成した脆弱性レポートは偽陽性率が高く、再現可能な検証が不足しています。第二に、既存のLLMベースの手法は脆弱性の位置特定に最適ではない粒度を用いています。関数レベルの分析はコンテキストが広範になるとバグを見落とし、行レベルの分析は十分なコンテキストを提供できません。第三に、既存手法は複雑な関数間依存関係やトリガー条件を持つ脆弱性の推論に苦労しています。私たちは、4つの主要な貢献によってこれらのギャップを埋めるマルチエージェントシステム FuzzingBrain V2 を提示します。(1) GoogleのOSS-Fuzzを基盤とする完全自動化された脆弱性分析により、報告されたすべての脆弱性がファザーで再現可能であることを保証します。(2) 正確な脆弱性位置特定のための新しい制御フローベースの抽象化である Suspicious Point。(3) リソース制約下で関数カバレッジを向上させる二層ファジングを備えた、ロジック駆動の階層的関数分析。(4) 複雑な脆弱性推論を強化するコンテキストエンジニアリングを備えた、MCPベースの静的・動的解析ツールです。AIxCC 2025 Final Competition C/C++データセットにおいて、FuzzingBrain V2 は90%の検出率（40件中36件の脆弱性）を達成しました。実運用では、FuzzingBrain V2 は12のオープンソースプロジェクトで29件のゼロデイ脆弱性を発見し、すべて管理者によって確認・修正され、そのうち2件にはCVE IDが割り当てられました。

Software vulnerabilities pose critical security threats, with nearly 50,000 CVEs reported in 2025. While Large Language Models (LLMs) show promise for automated vulnerability detection, three key challenges remain. First, LLM-generated vulnerability reports suffer from high false positive rates and lack reproducible verification. Second, existing LLM-based approaches use suboptimal granularities for vulnerability localization: function-level analysis overlooks bugs when context becomes extensive, while line-level analysis lacks sufficient context. Third, existing approaches have difficulty reasoning about vulnerabilities with complex cross-function dependencies and triggering conditions. We present FuzzingBrain V2, a multi-agent system that addresses these gaps through four key contributions: (1) fully automated vulnerability analysis built on Google's OSS-Fuzz, ensuring all reported vulnerabilities are fuzzer-reproducible; (2) Suspicious Point, a novel control-flow-based abstraction for precise vulnerability localization at the optimal granularity; (3) logic-driven hierarchical function analysis with dual-layer fuzzing enhancing function coverage under resource constraints; (4) MCP-based static and dynamic analysis tools with context engineering enhancing complex vulnerability reasoning. On the AIxCC 2025 Final Competition C/C++ dataset, FuzzingBrain V2 achieved 90% detection rate (36 of 40 vulnerabilities). In real-world deployment, FuzzingBrain V2 discovered 29 zero-day vulnerabilities across 12 open-source projects, all confirmed and fixed by maintainers, with 2 assigned CVE IDs.

論文リンク

https://arxiv.org/abs/2605.21779

⚠️広告⚠️: 🔥PyTorch韓国ユーザーコミュニティ🇰🇷がまとめたこの記事は役に立ちましたか？メンバー登録すると主要な記事をメール💌でお届けします！ Telegram や Slack/Discord/Teams/Dooray/GoogleChat などでも新着記事の通知を受け取れます。 :D

[2026/06/01 ~ 07] 今週注目のAI/ML論文まとめ

PyTorchKR🔥🇰🇷 🤔💭

論文別の要点まとめ

Harness-1: 状態外部化ハーネスを適用した検索エージェントのための強化学習 / Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses

論文紹介

要旨(Abstract)

論文リンク

さらに読む

アテンションは忘れよう: 必要なのは重要度認識アテンションだけ / Forget Attention: Importance-Aware Attention Is All You Need

論文紹介

要旨(Abstract)

論文リンク

トランスフォーマーに3つのプロジェクションは必要か？ QKV変種の体系的研究 / Do Transformers Need Three Projections? Systematic Study of QKV Variants

論文紹介

要旨(Abstract)

論文リンク

さらに読む

エージェント型ワークフローをLLMの重みにコンパイルする: 100分の1のコストでフロンティア級に近い品質 / Compiling Agentic Workflows into LLM Weights: Near-Frontier Quality at Two Orders of Magnitude Less Cost

論文紹介

要旨(Abstract)

論文リンク

さらに読む

長期範囲課題のためのエージェント互換コンテキスト管理の学習 / Learning Agent-Compatible Context Management for Long-Horizon Tasks

論文紹介

要旨(Abstract)

論文リンク

潜在エージェント：内在化されたマルチエージェント討論のための事後学習手順 / Latent Agents: A Post-Training Procedure for Internalized Multi-Agent Debate

論文紹介

要旨（Abstract）

論文リンク

さらに読む

MOSS: 自律エージェントシステムにおけるソースレベル書き換えによる自己進化 / MOSS: Self-Evolution through Source-Level Rewriting in Autonomous Agent Systems

論文紹介

要旨(Abstract)

論文リンク

さらに読む

非協力ゲームによる言語モデルの安全性アラインメント / Safety Alignment of LMs via Non-cooperative Games

論文紹介

アブストラクト(Abstract)

論文リンク

さらに読む

計画、観察、復旧：能動的な手順支援のためのベンチマークとアーキテクチャ / Plan, Watch, Recover: A Benchmark and Architectures for Proactive Procedural Assistance

論文紹介

要旨(Abstract)

論文リンク

さらに読む

FuzzingBrain V2: 自動化された脆弱性発見および再現のためのマルチエージェントLLMシステム / FuzzingBrain V2: A Multi-Agent LLM System for Automated Vulnerability Discovery and Reproduction

論文紹介

要旨(Abstract)

論文リンク

関連記事

2件のコメント