ML論文まとめ

(discuss.pytorch.kr)

10 ポイント投稿者 ninebow 2025-12-29 | まだコメントはありません。 | WhatsAppで共有

[2025/12/22〜28] 今週注目のAI/ML論文まとめ

PyTorchKR🔥🇰🇷 🤔💭

1️⃣ 深層的なハルシネーション検出と緩和戦略 (Deep Hallucination Detection & Mitigation): 今週選定された論文を見ていくと、単にモデルの規模を拡大するだけでなく、LLMの慢性的な問題である ハルシネーション (Hallucination) を根本的に解決しようとする試みが際立っています。QuCo-RAGは、モデル内部の主観的な信頼度ではなく、事前学習データの統計という客観的指標を用いて検索のタイミングを決定し、H-Neuronsはハルシネーションを引き起こす特定のニューロンを識別し、その起源を追跡するミクロなアプローチを取ります。また、Model-First Reasoningは、問題解決の前に明示的なモデリング段階を経ることで構造的な誤りを減らします。これは、AI研究が単なる「もっともらしい回答」を出すことから、「検証可能で信頼できるメカニズム」を備える方向へ進化していることを示しています。

2️⃣ 推論効率およびリアルタイム処理技術の進化 (Evolution of Inference Efficiency & Real-Time Processing): また、モデルの巨大化に伴い、推論速度とメモリ効率性を最大化しようとする研究が活発です。WorldPlayは速度とメモリのトレードオフを解決してリアルタイム動画生成を可能にし、Jacobi Forcingは逐次生成方式 (AR) の限界を超え、並列デコーディングによって推論速度を飛躍的に高めました。さらに qTTT は、長文脈処理時に発生する性能低下（スコア希釈）を防ぐため、推論段階で軽量な学習を行う新たなアプローチを提示しました。これは、高性能モデルを実サービスレベル (Real-time application) で活用するために不可欠な最適化プロセスとして解釈できます。

3️⃣ 動的な世界理解と構造化推論能力の強化 (Enhanced Dynamic World Understanding & Structured Reasoning): 静的な画像やテキスト分析を超えて、時間の流れ (4D) と物理的/論理的構造を理解しようとする流れが強まっています。4D-RGPTは動画の時間的ダイナミクスを理解するために、3D空間に時間軸を加えた4D認識を試み、WorldPlayは幾何学的一貫性を保ちながら世界モデリングを行います。NEPAもまた、ピクセル復元の代わりに埋め込み予測を通じて視覚的理解を高めようとしています。これは、AIが単純なパターンマッチングを超え、人間のように物理法則や論理的因果関係を含む 「世界の作動原理」 を内在化する段階へ進みつつあることを示唆しています。

ワールドプレイ: リアルタイム相互作用世界モデリングのための長期的な幾何学的一貫性の向上 / WorldPlay: Towards Long-Term Geometric Consistency for Real-Time Interactive World Modeling

論文紹介

WorldPlayは、リアルタイム相互作用世界モデリングのための革新的なストリーミング動画拡散モデルであり、長期的な幾何学的一貫性を維持しながら、速度とメモリのトレードオフを解決することに重点を置いて開発されました。このモデルは、3つの主要な革新によって性能を最大化します。第一に、Dual Action Representationによってユーザー入力に対する強力な動作制御を可能にし、さまざまなスケールのシーンで物理的にもっともらしい動きを実現します。第二に、Reconstituted Context Memoryは過去フレームの情報を動的に再構成し、長期的一貫性の維持に寄与します。これにより、幾何学的に重要な古いフレームにアクセス可能となり、メモリ効率を高めます。第三に、Context Forcingという新しい蒸留手法を導入し、メモリ認識モデルの性能を向上させます。この手法は、教師モデルと生徒モデルの間でメモリコンテキストを整合させることで、生徒モデルが長期情報を効果的に活用できるよう支援します。

WorldPlayは、毎秒24フレームの720p動画を生成し、既存技術と比較して優れた一貫性を示します。このモデルは、リアルタイム動画生成において速度と長期的な幾何学的一貫性を同時に達成することに成功しており、多様なシーンで高い汎化性能を示します。また、高品質な3D再構成を可能にし、動的な世界イベントをトリガーできるプロンプトベースのインタラクションをサポートします。こうした特性により、WorldPlayはリアルタイム相互作用動画生成分野において重要な貢献を果たしており、今後のさまざまな応用可能性を切り開いています。

論文要旨(Abstract)

本論文は、リアルタイムのインタラクティブな世界モデリングを可能にするストリーミング動画拡散モデル WorldPlay を提示します。WorldPlay は、既存手法を制約している速度とメモリのトレードオフを解決し、長期的な幾何学的一貫性を維持します。WorldPlay は 3 つの主要な革新によって支えられています。1) ユーザーのキーボードおよびマウス入力に対する強力な行動制御を可能にする Dual Action Representation を使用します。2) 長期的一貫性を維持するために、Reconstituted Context Memory は過去フレームからコンテキストを動的に再構成し、時間的再構成を用いて、幾何学的に重要だが古いフレームをアクセス可能な状態に保つことで、メモリ減衰を効果的に緩和します。3) また、メモリ認識モデル向けに設計された新しい蒸留手法 Context Forcing を提案します。教師と生徒の間でメモリコンテキストを整合させることで、生徒モデルが長距離情報を利用する能力を維持し、誤差ドリフトを防ぎながらリアルタイム速度を実現します。総合すると、WorldPlay は多様なシーンにおいて強力な汎化性能を示しつつ、既存技術と比べて優れた一貫性を維持し、24 FPS で 720p 動画を長時間ストリーミングできます。プロジェクトページとオンラインデモは次で確認できます: https://3d-models.hunyuan.tencent.com/world/ および https://3d.hunyuan.tencent.com/sceneTo3D。
> This paper presents WorldPlay, a streaming video diffusion model that enables real-time, interactive world modeling with long-term geometric consistency, resolving the trade-off between speed and memory that limits current methods. WorldPlay draws power from three key innovations. 1) We use a Dual Action Representation to enable robust action control in response to the user's keyboard and mouse inputs. 2) To enforce long-term consistency, our Reconstituted Context Memory dynamically rebuilds context from past frames and uses temporal reframing to keep geometrically important but long-past frames accessible, effectively alleviating memory attenuation. 3) We also propose Context Forcing, a novel distillation method designed for memory-aware model. Aligning memory context between the teacher and student preserves the student's capacity to use long-range information, enabling real-time speeds while preventing error drift. Taken together, WorldPlay generates long-horizon streaming 720p video at 24 FPS with superior consistency, comparing favorably with existing techniques and showing strong generalization across diverse scenes. Project page and online demo can be found: https://3d-models.hunyuan.tencent.com/world/ and https://3d.hunyuan.tencent.com/sceneTo3D.

論文リンク

https://arxiv.org/abs/2512.14614

さらに読む

https://3d-models.hunyuan.tencent.com/world/

https://3d.hunyuan.tencent.com/sceneTo3D

QuCo-RAG: 事前学習データから不確実性を定量化する動的検索拡張生成のための手法 / QuCo-RAG: Quantifying Uncertainty from the Pre-training Corpus for Dynamic Retrieval-Augmented Generation

論文紹介

QuCo-RAG は、大規模言語モデル（LLM）の生成過程において動的に検索のタイミングを決定し、ハルシネーションを緩和する革新的な手法である。従来のアプローチはモデル内部の信号に依存していたが、LLM はしばしば適切に較正されておらず、誤った出力に対して高い信頼度を示すという問題を抱えている。本研究では、こうした限界を克服するため、主観的な信頼度ではなく、事前学習データから計算された客観的な統計によって不確実性を定量化する新しい方法を提案する。

QuCo-RAG の不確実性定量化は、2 つの主要な段階で構成される。第 1 段階では、生成前にロングテール知識のギャップを示す低頻度エンティティを特定する。第 2 段階では、生成中に事前学習データ内でのエンティティ共起を検証し、共起が 0 の場合にハルシネーションのリスクを示す。これら 2 つの段階は、Infini-gram を活用して 4 兆トークンに対してミリ秒レイテンシのクエリを実行することで、高い不確実性の状況で検索をトリガーする。

実験の結果、QuCo-RAG は多段階質問応答（QA）ベンチマークにおいて OLMo-2 モデルを用い、最新のベースラインより 5〜12 ポイントの正解率（EM）向上を達成した。また、非公開の事前学習データを持つモデル（Llama、Qwen、GPT）にも効果的に転移し、EM を最大 14 ポイント向上させた。生物医学 QA におけるドメイン一般化実験は、QuCo-RAG の頑健性をさらに検証した。

QuCo-RAG は、事前学習コーパスに基づく検証を通じて、動的検索拡張生成の新たなパラダイムを提示しており、これはモデル非依存のアプローチとしてさまざまな LLM に適用可能である。この研究はハルシネーションのリスク低減に寄与し、今後は多様なドメインへの適用可能性を探っていく予定である。

論文要旨(Abstract)

ダイナミック検索拡張生成（Dynamic Retrieval-Augmented Generation）は、大規模言語モデル（LLMs）におけるハルシネーションを軽減するため、生成中のどの時点で検索を行うかを適応的に決定します。しかし既存手法は、モデル内部の信号（例: ロジット、エントロピー）に依存しており、LLMは一般に適切にキャリブレーションされておらず、誤った出力に対してもしばしば高い確信度を示すため、根本的に信頼できません。私たちは、主観的な確信度から事前学習データから計算された客観的な統計へと発想を転換するQuCo-RAGを提案します。私たちの手法は、2段階で不確実性を定量化します: (1) 生成前に、ロングテールな知識ギャップを示す低頻度エンティティを特定する; (2) 生成中に、事前学習コーパス内でエンティティの共起を検証し、共起が存在しない場合はハルシネーションのリスクを示すことが多い。両段階とも、4兆トークンに対するミリ秒レイテンシのクエリを実現するInfini-gramを活用し、不確実性が高いときに検索をトリガーします。多段ホップQAベンチマークでの実験結果では、QuCo-RAGはOLMo-2モデルを用いて最先端ベースラインより5〜12ポイントのEM向上を達成し、事前学習データが非公開のモデル（Llama、Qwen、GPT）にも効果的に転移して、EMを最大14ポイント向上させます。生物医学QAにおけるドメイン一般化は、私たちのパラダイムの頑健性をさらに裏づけています。これらの結果は、コーパスに基づく検証がダイナミックRAGのための原理的かつ実践的にモデル非依存なパラダイムであることを示しています。コードは https://github.com/ZhishanQ/QuCo-RAG で公開されています。
> Dynamic Retrieval-Augmented Generation adaptively determines when to retrieve during generation to mitigate hallucinations in large language models (LLMs). However, existing methods rely on model-internal signals (e.g., logits, entropy), which are fundamentally unreliable because LLMs are typically ill-calibrated and often exhibit high confidence in erroneous outputs. We propose QuCo-RAG, which shifts from subjective confidence to objective statistics computed from pre-training data. Our method quantifies uncertainty through two stages: (1) before generation, we identify low-frequency entities indicating long-tail knowledge gaps; (2) during generation, we verify entity co-occurrence in the pre-training corpus, where zero co-occurrence often signals hallucination risk. Both stages leverage Infini-gram for millisecond-latency queries over 4 trillion tokens, triggering retrieval when uncertainty is high. Experiments on multi-hop QA benchmarks show QuCo-RAG achieves EM gains of 5--12 points over state-of-the-art baselines with OLMo-2 models, and transfers effectively to models with undisclosed pre-training data (Llama, Qwen, GPT), improving EM by up to 14 points. Domain generalization on biomedical QA further validates the robustness of our paradigm. These results establish corpus-grounded verification as a principled, practically model-agnostic paradigm for dynamic RAG. Our code is publicly available at https://github.com/ZhishanQ/QuCo-RAG.

論文リンク

https://arxiv.org/abs/2512.19134

さらに読む

https://github.com/ZhishanQ/QuCo-RAG

4D-RGPT: リージョンレベルの4D理解に向けた知覚蒸留アプローチ / 4D-RGPT: Toward Region-level 4D Understanding via Perceptual Distillation

論文紹介

4D-RGPTは、動画入力から4D表現を効果的に捉えるために設計された、特化型のマルチモーダル大規模言語モデル（MMLM）です。既存の3Dおよび4Dビデオ質問応答（VQA）ベンチマークは静的なシーンに重点を置いており、リージョンレベルのプロンプトが不足しているため、時間的ダイナミクスの理解が制限されていました。この問題を解決するため、本研究では知覚的4D蒸留（Perceptual 4D Distillation, P4D）という革新的な学習フレームワークを導入し、凍結された専門家モデルから4D表現を4D-RGPTへ転移することで、包括的な4D認識を可能にします。

R4D-Benchという新しいベンチマークも提案されており、これは深度認識された動的シーンに対するリージョンレベルのプロンプトを含んでいます。R4D-Benchはハイブリッドな自動化および人手検証パイプラインを通じて構築され、既存の非リージョンベース4D VQAベンチマークの限界を克服することを目指しています。このベンチマークは4D理解の多様な側面を評価するために9つの質問カテゴリを含んでおり、各カテゴリはMMLMの性能を総合的に評価する基準を提供します。

質問の選択肢形式は、MMLMが正確な回答を行うために必要な精度を要求し、これは物体の位置や向きを理解するうえで不可欠です。このアプローチはMMLMの4D理解能力を向上させ、リージョンベースの質問を通じてより深い評価を可能にします。本研究は、4D-RGPTとR4D-Benchを通じて既存のVQAシステムの限界を克服し、4D認識と時間的理解を向上させる重要な貢献を行っています。

論文要旨(Abstract)

さまざまなマルチモーダル大規模言語モデル（MLLM）の発展にもかかわらず、3D構造と時間的ダイナミクスに対する推論能力は依然として限定的であり、これは弱い4D認識と時間的理解によって制約されています。既存の3Dおよび4D動画質問応答（VQA）ベンチマークは静的なシーンに重点を置いており、領域レベルのプロンプトも不足しています。私たちはこれらの問題に対処するため、以下を導入します。（a）時間認識を強化し、動画入力から4D表現を捉えるよう設計された特化型MLLMである4D-RGPT、（b）固定された専門家モデルから4D表現を4D-RGPTへ転移し、包括的な4D認識を実現する訓練フレームワークであるPerceptual 4D Distillation（P4D）、（c）領域レベルのプロンプトを備えた深度認識型の動的シーン向けベンチマークであり、ハイブリッド自動化および人手検証パイプラインによって構築されたR4D-Benchです。私たちの4D-RGPTは、既存の4D VQAベンチマークと提案するR4D-Benchベンチマークの両方で顕著な改善を達成しました。
> Despite advances in Multimodal LLMs (MLLMs), their ability to reason over 3D structures and temporal dynamics remains limited, constrained by weak 4D perception and temporal understanding. Existing 3D and 4D Video Question Answering (VQA) benchmarks also emphasize static scenes and lack region-level prompting. We tackle these issues by introducing: (a) 4D-RGPT, a specialized MLLM designed to capture 4D representations from video inputs with enhanced temporal perception; (b) Perceptual 4D Distillation (P4D), a training framework that transfers 4D representations from a frozen expert model into 4D-RGPT for comprehensive 4D perception; and (c) R4D-Bench, a benchmark for depth-aware dynamic scenes with region-level prompting, built via a hybrid automated and human-verified pipeline. Our 4D-RGPT achieves notable improvements on both existing 4D VQA benchmarks and the proposed R4D-Bench benchmark.

論文リンク

https://arxiv.org/abs/2512.17012

さらに読む

https://ca-joe-yang.github.io/resource/projects/4D_RGPT

H-Neurons：大規模言語モデルにおける幻覚関連ニューロンの存在、影響、起源に関する研究 / H-Neurons: On the Existence, Impact, and Origin of Hallucination-Associated Neurons in LLMs

論文紹介

大規模言語モデル（LLMs）で発生する幻覚問題は、モデルの信頼性を損なう主要因の1つであり、もっともらしいが事実と異なる出力を生成する現象を指します。本研究では、幻覚に関連するニューロン、すなわちH-Neuronsの存在、その影響、起源を体系的に分析しました。H-Neuronsの特定過程では、全ニューロンの0.1%未満という疎なニューロン集合が、幻覚の発生を信頼性高く予測できることを示しました。これらのニューロンは、さまざまなシナリオで強い汎化性能を示しました。

行動面での影響として、制御された介入を通じて、H-Neuronsが過度な追従行動と因果的に結び付いていることを発見しました。これは、幻覚発生に寄与するニューロンが単に偶然活性化しているのではなく、特定の行動パターンと密接に関係していることを示唆します。起源の観点では、H-Neuronsが事前学習済みのベースモデルに由来し、これらのニューロンが幻覚検出に対する予測力を維持していることを確認しました。これは、H-Neuronsがモデルの初期学習過程で形成されるという重要な洞察を提供します。

研究手法としては、幻覚に関連するニューロンを強力に特定するため、TriviaQAデータセットを活用して、信頼できる出力と幻覚出力を区別する高品質な対照集合を構築しました。その後、各ニューロンの寄与度を定量化するために線形分類器を訓練し、それを用いて幻覚の有無を予測する二値ラベルを生成しました。このアプローチは、H-Neuronsの機能的影響を明確に評価するための基盤を整えました。

最後に、本研究はLLMにおける幻覚関連ニューロンの神経メカニズムの理解に貢献し、今後より信頼性の高いLLMを開発するための重要な基礎資料を提供します。これらの発見は、LLMの信頼性向上に向けた研究に不可欠な洞察をもたらし、今後の研究方向に向けた重要な土台を築きます。

論文要旨(Abstract)

大規模言語モデル（LLM）はしばしば幻覚を生成します。これはもっともらしいものの事実と一致しない出力であり、信頼性を損ないます。先行研究では、訓練データや目的関数といった巨視的観点から幻覚を調査してきましたが、その基盤となるニューロンレベルのメカニズムはほとんど解明されていませんでした。本論文では、LLMの幻覚関連ニューロン（H-Neurons）について、特定、行動的影響、起源という3つの観点から体系的な調査を行います。特定の観点では、全ニューロンの $0.1%$ 未満という驚くほど疎なニューロン部分集合が、幻覚の発生を信頼性高く予測でき、多様なシナリオにわたって高い汎化性能を示すことを明らかにします。行動的影響の観点では、制御された介入により、これらのニューロンが過度な追従行動と因果的に関連していることを示します。起源については、これらのニューロンを事前学習済みベースモデルまで遡って追跡し、幻覚検出に対する予測力が維持されていることを見いだすことで、これらが事前学習中に出現することを示しています。私たちの発見は、巨視的な行動パターンと微視的な神経メカニズムを橋渡しし、より信頼性の高いLLM開発に向けた洞察を提供します。
> Large language models (LLMs) frequently generate hallucinations -- plausible but factually incorrect outputs -- undermining their reliability. While prior work has examined hallucinations from macroscopic perspectives such as training data and objectives, the underlying neuron-level mechanisms remain largely unexplored. In this paper, we conduct a systematic investigation into hallucination-associated neurons (H-Neurons) in LLMs from three perspectives: identification, behavioral impact, and origins. Regarding their identification, we demonstrate that a remarkably sparse subset of neurons (less than $0.1%$ of total neurons) can reliably predict hallucination occurrences, with strong generalization across diverse scenarios. In terms of behavioral impact, controlled interventions reveal that these neurons are causally linked to over-compliance behaviors. Concerning their origins, we trace these neurons back to the pre-trained base models and find that these neurons remain predictive for hallucination detection, indicating they emerge during pre-training. Our findings bridge macroscopic behavioral patterns with microscopic neural mechanisms, offering insights for developing more reliable LLMs.

論文リンク

https://arxiv.org/abs/2512.01797

次埋め込み予測が強力なビジョン学習器を生み出す / Next-Embedding Prediction Makes Strong Vision Learners

論文紹介

自己教師あり学習（self-supervised learning）は、大規模なラベルなしデータセットを活用して表現を学習する重要な方法論として定着しており、近年ではコントラスト学習（contrastive learning）や自己蒸留（self-distillation）といったさまざまなアプローチが発展してきた。しかし、これらの手法はしばしば大規模バッチやメモリバンクを必要とし、軽量デコーダによる再構成目的（reconstruction objectives）にも限界が見え始めている。これに対する代替案として提案された予測表現学習（predictive representation learning）は、生の入力ではなく意味的埋め込みを予測するアプローチであり、特にJEPA（Just-Embedding Predictive Autoregression）のような手法が注目されている。しかしJEPAは表現中心であり、事前学習済みエンコーダがダウンストリームモジュールによって別途消費される特徴を生成する点に限界がある。

こうした背景のもとで提案された Next-Embedding Predictive Autoregression（NEPA）アプローチは、過去のパッチ埋め込みを条件として未来のパッチ埋め込みを予測する方式で、因果マスキング（causal masking）と勾配停止（stop gradient）の手法を活用する。NEPAは、モデルがダウンストリームタスク向けの特徴を出力するのではなく、予測タスクそのものを直接実行するよう学習することに重点を置いている。この方法論はシンプルな Transformer アーキテクチャを基盤としており、ImageNet-1kデータセットでの事前学習を通じて高い性能を発揮する。特に、ピクセル再構成、離散トークン、コントラスト損失、タスク固有ヘッドなしでも強力な性能を維持する点は注目に値する。

NEPAはViT-BおよびViT-Lバックボーンを用いて、ImageNet-1Kでそれぞれ83.8%および85.3%のtop-1精度を達成し、ADE20Kでのセマンティックセグメンテーションにも効果的に転移した。これらの結果は、NEPAがシンプルでスケーラブルであり、潜在的にはモダリティ非依存な代替案として、視覚自己教師あり学習に貢献し得ることを示している。NEPAの研究は、予測を通じてタスク行動を直接導ける可能性を提示しており、今後さまざまなビジョンタスクでの活用可能性を開く重要な貢献となっている。

論文要旨(Abstract)

自然言語における生成的事前学習の成功に着想を得て、私たちは同じ原理が強力な自己教師あり視覚学習器を生み出せるかを問う。モデルがダウンストリーム利用のための特徴を出力するよう訓練する代わりに、私たちは予測タスクを直接実行するための埋め込みを生成するようモデルを訓練する。本研究は、表現学習からモデル学習への転換を探るものである。具体的には、モデルは過去のパッチ埋め込みを条件として未来のパッチ埋め込みを予測するよう学習し、その際に因果マスキングと勾配停止を用いる。これを次埋め込み予測自己回帰（Next-Embedding Predictive Autoregression, NEPA）と呼ぶ。私たちは、ImageNet-1kで事前学習されたシンプルなTransformerが、次埋め込み予測を唯一の学習目標とした場合に有効であることを示す。ピクセル再構成、離散トークン、コントラスト損失、あるいはタスク固有のヘッドは不要である。この定式化は、追加の設計複雑性なしに構造的な単純性とスケーラビリティを維持する。NEPAは多様なタスクで強力な結果を達成しており、ViT-BとViT-Lバックボーンを用いた場合、ImageNet-1Kでそれぞれ83.8%と85.3%のtop-1精度を記録し、ADE20Kでのセマンティックセグメンテーションにも効果的に転移する。私たちは、埋め込みからの生成的事前学習が、視覚自己教師あり学習に対するシンプルでスケーラブルかつ潜在的にモダリティ非依存な代替案を提供すると考えている。
> Inspired by the success of generative pretraining in natural language, we ask whether the same principles can yield strong self-supervised visual learners. Instead of training models to output features for downstream use, we train them to generate embeddings to perform predictive tasks directly. This work explores such a shift from learning representations to learning models. Specifically, models learn to predict future patch embeddings conditioned on past ones, using causal masking and stop gradient, which we refer to as Next-Embedding Predictive Autoregression (NEPA). We demonstrate that a simple Transformer pretrained on ImageNet-1k with next embedding prediction as its sole learning objective is effective - no pixel reconstruction, discrete tokens, contrastive loss, or task-specific heads. This formulation retains architectural simplicity and scalability, without requiring additional design complexity. NEPA achieves strong results across tasks, attaining 83.8% and 85.3% top-1 accuracy on ImageNet-1K with ViT-B and ViT-L backbones after fine-tuning, and transferring effectively to semantic segmentation on ADE20K. We believe generative pretraining from embeddings provides a simple, scalable, and potentially modality-agnostic alternative to visual self-supervised learning.

論文リンク

https://arxiv.org/abs/2512.16922

さらに読む

https://sihanxu.me/nepa

モデル優先推論LLMエージェント：明示的な問題モデリングによるハルシネーション低減 / Model-First Reasoning LLM Agents: Reducing Hallucinations through Explicit Problem Modeling

論文紹介

大規模言語モデル（LLM）は、複雑な多段階計画タスクにおいて、高い割合の制約違反や一貫性のない解を示す傾向がある。既存のChain-of-Thought（思考の連鎖）やReAct（反応的行動）のような戦略は、暗黙的な状態追跡に依存しており、明示的な問題表現が不足しているため、こうした限界を克服できていない。本研究では、古典的な人工知能（AI）計画に着想を得て、モデル優先推論（Model-First Reasoning, MFR） という新たな2段階パラダイムを提案する。このアプローチでは、LLMがまず問題の明示的なモデルを構築し、その後それに基づいて解決計画を生成する。

MFRは、複数の計画ドメインにおける実験を通じて、制約遵守と解の品質を向上させる結果を示した。特に、医療スケジューリング、経路計画、資源配分、論理パズル、手続き的合成など多様な分野で、MFRの効果が実証された。アブレーション研究を通じて、明示的なモデリング段階がこうした成果に不可欠である点が強調された。研究結果は、LLMの計画失敗が主として表現の欠陥に起因することを示唆しており、これは推論そのものの限界ではなく、問題表現の不足によるものである。

MFRは、問題の明示的なモデルを構成する段階と、解を生成する段階に分かれており、この過程でエンティティ、状態変数、行動、制約を定義する。こうした明示的なモデリングは、LLMがより構造化された形で問題を理解し、解決できるよう支援する。本研究は、LLMベースの計画および推論タスクにおける表現上の失敗を解決するための基盤を提供し、信頼できるAIエージェントに向けた重要な貢献となっている。すべてのプロンプト、評価手順、タスクデータセットは文書化されており、再現性を促進するとともに、今後の研究の土台を築く。

論文要旨(Abstract)

大規模言語モデル（LLM）は、複雑な多段階の計画タスクでしばしば困難を抱え、制約違反率が高く、一貫性のない解を示します。Chain-of-ThoughtやReActのような既存戦略は、暗黙的な状態追跡に依存しており、明示的な問題表現を欠いています。古典的AI計画に着想を得て、私たちはModel-First Reasoning（MFR）を提案します。MFRは、LLMがまず問題の明示的なモデルを構築し、エンティティ、状態変数、行動、制約を定義したうえで解決計画を生成する、2段階のパラダイムです。医療スケジューリング、経路計画、資源配分、論理パズル、手続き的合成を含む複数の計画ドメインにおいて、MFRは制約違反を減らし、Chain-of-ThoughtやReActと比べて解の品質を向上させます。アブレーション研究の結果、明示的なモデリング段階がこれらの改善に重要であることが示されました。私たちの結果は、多くのLLMの計画失敗が推論能力の限界ではなく表現上の欠陥に起因することを示唆しており、堅牢で解釈可能なAIエージェントの中核要素として明示的モデリングを強調しています。すべてのプロンプト、評価手順、タスク用データセットは、再現性を高めるために文書化されています。
> Large Language Models (LLMs) often struggle with complex multi-step planning tasks, showing high rates of constraint violations and inconsistent solutions. Existing strategies such as Chain-of-Thought and ReAct rely on implicit state tracking and lack an explicit problem representation. Inspired by classical AI planning, we propose Model-First Reasoning (MFR), a two-phase paradigm in which the LLM first constructs an explicit model of the problem, defining entities, state variables, actions, and constraints, before generating a solution plan. Across multiple planning domains, including medical scheduling, route planning, resource allocation, logic puzzles, and procedural synthesis, MFR reduces constraint violations and improves solution quality compared to Chain-of-Thought and ReAct. Ablation studies show that the explicit modeling phase is critical for these gains. Our results suggest that many LLM planning failures stem from representational deficiencies rather than reasoning limitations, highlighting explicit modeling as a key component for robust and interpretable AI agents. All prompts, evaluation procedures, and task datasets are documented to facilitate reproducibility.

論文リンク

https://arxiv.org/abs/2512.14474

文脈にただ頼るのはやめよう: 長文コンテキストLLMのためのテスト時学習 / Let's (not) just put things in Context: Test-Time Training for Long-Context LLMs

論文紹介

大規模言語モデル（LLM）の進歩により、長いコンテキストを処理する能力は大きく向上したが、こうしたモデルが実際には長文コンテキストで効果的に動作しないという問題を解決することが重要である。本研究では、既存の推論時戦略が性能改善のために用いる思考トークン（thinking tokens）の生成方式が、スコア希釈（score dilution）の問題により限界を持つことを指摘する。スコア希釈は、静的自己注意（static self-attention）の特性によって生じ、長文コンテキストにおけるモデルの精度を低下させる。

この問題を解決するために、本研究はクエリ専用テスト時学習（query-only test-time training, qTTT）という新しい方法論を提案する。qTTTは、与えられたコンテキストに対する目的指向の勾配更新を通じて、静的自己注意の限界を克服し、長文コンテキストでの性能向上を目指す。実験の結果、qTTTは既存の推論時戦略よりも効果的なアプローチを提供し、Qwen3-4BモデルにおいてLongBench-v2およびZeroScrollsベンチマークのサブセットで平均12.6ポイントおよび14.1ポイントの性能向上をもたらす。

この研究は、長文コンテキストでの性能向上にはコンテキストに特化した少量の学習が必要であることを強調しており、これは推論計算のより良い活用を意味する。qTTTの導入は、長文コンテキストLLMの性能を最大化できる実用的な方法を示しており、今後の研究における長文コンテキスト処理の新たな方向性を提示することが期待される。この革新的なアプローチは、LLMの活用可能性をさらに広げ、さまざまな応用分野での性能改善に寄与すると見られる。

論文要旨（Abstract）

トレーニングおよびアーキテクチャ戦略の進展により、数百万トークンを含む長大なコンテキスト長を持つ大規模言語モデル（LLM）が実現可能になりました。しかし、実証的な証拠によれば、このような長文脈LLMは、信頼性をもって活用できる量をはるかに超えるテキストを入力できます。一方で、推論時の計算を用いることで、多段階推論を含む困難なタスクにおけるLLMの性能を拡張できることが示されてきました。サンドボックス型の長文脈タスクに対する統制実験を通じて、こうした推論時戦略は急速に収穫逓減を示し、長文脈では機能しなくなることを私たちは発見しました。私たちはこの失敗を、静的自己注意に内在する現象であるスコア希釈（score dilution）に起因すると考えています。さらに、現在の推論時戦略では、特定の条件下で関連する長文脈シグナルを取得できないことも示します。私たちは、与えられたコンテキストに対する目標勾配更新を通じて、静的自己注意の限界を克服するシンプルな方法を提案します。推論時の計算をどのように使うかを変えることで、モデルおよび長文脈ベンチマーク全体にわたり、一貫して大きな性能向上が得られることを確認しました。私たちの手法は、LongBench-v2 および ZeroScrolls ベンチマークのサブセットにおいて、Qwen3-4B で平均 12.6 および 14.1 パーセントポイントの大幅な改善をもたらします。実践的な結論は次のとおりです。長文脈では、コンテキストに特化した少量の学習のほうが、より多くの思考トークンを生成するといった現在の推論時スケーリング戦略よりも、推論計算を有効活用する方法です。
> Progress on training and architecture strategies has enabled LLMs with millions of tokens in context length. However, empirical evidence suggests that such long-context LLMs can consume far more text than they can reliably use. On the other hand, it has been shown that inference-time compute can be used to scale performance of LLMs, often by generating thinking tokens, on challenging tasks involving multi-step reasoning. Through controlled experiments on sandbox long-context tasks, we find that such inference-time strategies show rapidly diminishing returns and fail at long context. We attribute these failures to score dilution, a phenomenon inherent to static self-attention. Further, we show that current inference-time strategies cannot retrieve relevant long-context signals under certain conditions. We propose a simple method that, through targeted gradient updates on the given context, provably overcomes limitations of static self-attention. We find that this shift in how inference-time compute is spent leads to consistently large performance improvements across models and long-context benchmarks. Our method leads to large 12.6 and 14.1 percentage point improvements for Qwen3-4B on average across subsets of LongBench-v2 and ZeroScrolls benchmarks. The takeaway is practical: for long context, a small amount of context-specific training is a better use of inference compute than current inference-time scaling strategies like producing more thinking tokens.

論文リンク

https://arxiv.org/abs/2512.13898

大規模言語モデルを活用した強化学習の安定化：定式化と実践 / Stabilizing Reinforcement Learning with LLMs: Formulation and Practices

論文紹介

強化学習（Reinforcement Learning, RL）はさまざまな分野で成功裏に適用されていますが、訓練過程における不安定性の問題は依然として解決すべき主要課題です。本研究は、大規模言語モデル（Large Language Models, LLMs）を活用してRLの安定性を高める新たな方法論を提案します。特に、方策勾配手法である REINFORCE を通じて、系列レベル報酬を置き換えるトークンレベル目標を最適化できる条件を明らかにしました。一次近似を通じて、この代替目標が有効になる条件は、学習-推論ミスマッチと方策の陳腐化が最小化される場合であることを示しています。

こうした洞察は、重要度サンプリング補正、クリッピング、そして Mixture-of-Experts（MoE）モデル向けの Routing Replay といった技術が、RL訓練の安定化に与える影響を説明するうえで役立ちます。30B MoE モデルを用いた数百万 GPU 時間にわたる実験を通じて、オンポリシー訓練では重要度サンプリング補正を含む基本的な方策勾配アルゴリズムが最も高い訓練安定性を達成することを実証しました。また、オフポリシー更新を導入して収束を加速する場合には、クリッピングと Routing Replay の組み合わせが、方策の陳腐化による不安定性を緩和するうえで不可欠であることを強調しています。

訓練が安定化した後は、初期化方式に関係なく、継続的な最適化が一貫した最終性能を発揮することも示しています。これらの研究結果は、安定したRL訓練に向けた新たな洞察を提供し、今後の研究に貢献しうる重要な基盤を築きます。本論文は、大規模言語モデルを活用した強化学習の安定化に対する革新的なアプローチを提示し、RL訓練の不安定性を解決するための重要な貢献を果たしています。

論文要旨（Abstract）

本論文は、大規模言語モデル（LLM）を用いた強化学習（RL）に関する新しい定式化を提案し、真のシーケンスレベル報酬が、REINFORCE のような方策勾配法において、どのように、またどのような条件下で代理的なトークンレベル目的を通じて最適化できるのかを説明します。具体的には、一次近似を通じて、この代理目的は、訓練・推論の不一致と方策の陳腐化がともに最小化される場合にのみ、ますます有効になることを示します。この洞察は、importance sampling 補正、clipping、そして特に Mixture-of-Experts（MoE）モデル向けの Routing Replay など、広く採用されている複数の手法が RL 訓練の安定化に重要な役割を果たす理由を、原理的に説明します。数十万 GPU 時間を要した 30B MoE モデルによる広範な実験を通じて、オンポリシー訓練では、importance sampling 補正を含む基本的な方策勾配アルゴリズムが最も高い訓練安定性を達成することを示します。収束を加速するためにオフポリシー更新が導入される場合、clipping と Routing Replay の組み合わせが、方策の陳腐化によって生じる不安定性を緩和するうえで不可欠です。特に、訓練が安定化すると、長期的な最適化はコールドスタート初期化の方式に関係なく、一貫して同等の最終性能をもたらします。共有された洞察と、安定した RL 訓練のために開発されたレシピが、今後の研究に役立つことを願っています。
> This paper proposes a novel formulation for reinforcement learning (RL) with large language models, explaining why and under what conditions the true sequence-level reward can be optimized via a surrogate token-level objective in policy gradient methods such as REINFORCE. Specifically, through a first-order approximation, we show that this surrogate becomes increasingly valid only when both the training-inference discrepancy and policy staleness are minimized. This insight provides a principled explanation for the crucial role of several widely adopted techniques in stabilizing RL training, including importance sampling correction, clipping, and particularly Routing Replay for Mixture-of-Experts (MoE) models. Through extensive experiments with a 30B MoE model totaling hundreds of thousands of GPU hours, we show that for on-policy training, the basic policy gradient algorithm with importance sampling correction achieves the highest training stability. When off-policy updates are introduced to accelerate convergence, combining clipping and Routing Replay becomes essential to mitigate the instability caused by policy staleness. Notably, once training is stabilized, prolonged optimization consistently yields comparable final performance regardless of cold-start initialization. We hope that the shared insights and the developed recipes for stable RL training will facilitate future research.

論文リンク

https://arxiv.org/abs/2512.01374

再帰的強制を用いた高速かつ高精度な因果並列デコーディング / Fast and Accurate Causal Parallel Decoding using Jacobi Forcing

論文紹介

大規模言語モデルの推論速度を向上させる研究が活発に進められている中、本研究は Jacobi Forcing という革新的な方法論を提案します。この方法論は、複数トークン生成によって Transformer ベースのモデルの並列デコーディングを可能にし、推論遅延の最小化に焦点を当てています。既存の diffusion large language models（dLLMs）アプローチは、事前学習（pre-training）と事後学習（post-training）の間の不一致により、性能向上に限界がありました。特に、dLLMs は双方向 attention を使用することで因果的事前分布（causal prior）と衝突し、これは正確な key-value cache（KV cache）の再利用を妨げます.

Jacobi Forcing は、モデルが自身の生成した並列デコーディング経路から学習するようにし、事前学習された因果推論特性を維持しながら効率的な並列デコーダへと変換する、漸進的蒸留パラダイムです。この方法論によって学習された Jacobi Forcing モデルは、コーディングおよび数学ベンチマークで 3.8 倍の wall-clock speedup を達成しつつ、性能低下を最小限に抑えました。さらに、rejection recycling を通じた マルチブロックデコーディング を導入し、各反復で最大 4.5 倍の高いトークン受理率を可能にし、ほぼ 4.0 倍の wall-clock speedup を実現しました。

本研究は、Jacobi Forcing を通じて AR モデルの因果的推論特性を維持しながらも効率的な並列デコーディングを可能にする方法論を提示し、大規模言語モデルの推論速度を飛躍的に向上させられる可能性を示しています。このアプローチは、自然言語処理（NLP）分野におけるモデル効率を大幅に改善できる潜在力を持ち、今後の研究に重要な貢献をもたらすことが期待されます。

論文要旨（Abstract）

マルチトークン生成は、Transformerベースの大規模モデル推論を高速化する有望なパラダイムとして台頭しています。近年の取り組みは主に、推論レイテンシを低減するための並列デコーディングに向けて、拡散大規模言語モデル（dLLMs）を探索しています。ARレベルの生成品質を実現するため、多くの手法がARモデルをdLLMsへ適応させ、並列デコーディングを可能にしています。しかし、これらは事前学習と事後学習のミスマッチにより、ARモデルと比べて速度向上が限定的です。具体的には、事後学習におけるマスクされたデータ分布は、事前学習中に観測された実世界のデータ分布と大きく異なり、さらにdLLMsは双方向アテンションに依存しています。これは事前学習で獲得された因果的事前知識と衝突し、正確なKVキャッシュ再利用の統合を妨げます。これに対処するため、私たちはJacobi Forcingを導入します。これは、モデル自身が生成した並列デコーディング軌跡上で学習する漸進的蒸留パラダイムであり、事前学習された因果推論特性を維持しながら、ARモデルを効率的な並列デコーダへと滑らかに移行させます。このパラダイムの下で訓練されたJacobi Forcing Modelは、コーディングおよび数学ベンチマークにおいて性能低下を最小限に抑えつつ、3.8倍のウォールクロック速度向上を達成します。さらに、Jacobi Forcing Modelsの軌跡特性に基づき、私たちはreject recyclingを伴うマルチブロックデコーディングを導入します。これにより、反復ごとのトークン受理数を最大4.5倍まで高め、ほぼ4.0倍のウォールクロック速度向上を実現し、追加計算と低い推論レイテンシを効果的にトレードオフします。コードは https://github.com/hao-ai-lab/JacobiForcing で公開されています。
> Multi-token generation has emerged as a promising paradigm for accelerating transformer-based large model inference. Recent efforts primarily explore diffusion Large Language Models (dLLMs) for parallel decoding to reduce inference latency. To achieve AR-level generation quality, many techniques adapt AR models into dLLMs to enable parallel decoding. However, they suffer from limited speedup compared to AR models due to a pretrain-to-posttrain mismatch. Specifically, the masked data distribution in post-training deviates significantly from the real-world data distribution seen during pretraining, and dLLMs rely on bidirectional attention, which conflicts with the causal prior learned during pretraining and hinders the integration of exact KV cache reuse. To address this, we introduce Jacobi Forcing, a progressive distillation paradigm where models are trained on their own generated parallel decoding trajectories, smoothly shifting AR models into efficient parallel decoders while preserving their pretrained causal inference property. The models trained under this paradigm, Jacobi Forcing Model, achieves 3.8x wall-clock speedup on coding and math benchmarks with minimal loss in performance. Based on Jacobi Forcing Models' trajectory characteristics, we introduce multi-block decoding with rejection recycling, which enables up to 4.5x higher token acceptance count per iteration and nearly 4.0x wall-clock speedup, effectively trading additional compute for lower inference latency. Our code is available at https://github.com/hao-ai-lab/JacobiForcing.

論文リンク

https://arxiv.org/abs/2512.14681

さらに読む

https://github.com/hao-ai-lab/JacobiForcing

大規模言語モデル（LLM）の害: 分類と議論 / LLM Harms: A Taxonomy and Discussion

論文紹介

大規模言語モデル（LLM）に関連する害のカテゴリを扱った研究です。研究では、AIアプリケーションの開発前・開発中・開発後に発生しうる5つの害のカテゴリを提示しています。すなわち、開発前、直接出力、誤用および悪意ある応用、そして下流アプリケーションです。現在の環境においてリスクを定義する必要性を強調し、説明責任、透明性、偏りを管理する方法を示しています。また、特定ドメインに対する緩和戦略と今後の方向性を提案し、LLMの責任ある開発と統合を導く動的監査システムのための標準化された提案も含んでいます。

論文要旨(Abstract)

この研究は、人工知能分野における大規模言語モデル（LLM）を取り巻く害のカテゴリを扱います。AIアプリケーションの開発前・開発中・開発後に関わる5つの害のカテゴリ、すなわち事前開発、直接出力、誤用および悪意ある適用、そして下流アプリケーションを対象としています。現在の状況におけるリスクを定義する必要性を強調することで、実用的なアプリケーションにLLMを適応させる際の説明責任、透明性、偏りへの対処を確実にすることを目指しています。また、特定分野に向けた緩和戦略と今後の方向性、そしてLLMの責任ある開発と統合を導く動的監査システムを、標準化された提案として提示しています。
> This study addresses categories of harm surrounding Large Language Models (LLMs) in the field of artificial intelligence. It addresses five categories of harms addressed before, during, and after development of AI applications: pre-development, direct output, Misuse and Malicious Application, and downstream application. By underscoring the need to define risks of the current landscape to ensure accountability, transparency and navigating bias when adapting LLMs for practical applications. It proposes mitigation strategies and future directions for specific domains and a dynamic auditing system guiding responsible development and integration of LLMs in a standardized proposal.

論文リンク

https://arxiv.org/abs/2512.05929

⚠️広告⚠️: 🔥PyTorch韓国ユーザーコミュニティ🇰🇷がまとめたこの記事は役に立ちましたか？会員登録すると主要な記事をメール💌でお届けします！（基本はWeeklyですが、Dailyへの変更も可能です。）

[2025/12/22〜28] 今週注目のAI/ML論文まとめ