ML論文まとめ

(discuss.pytorch.kr)

7 ポイント投稿者 ninebow 2025-10-01 | まだコメントはありません。 | WhatsAppで共有

[2025/09/22〜28] 今週チェックしたいAI/ML論文まとめ

PyTorchKR🔥🇰🇷 🤔💭

1️⃣ AIエージェントの発展: 最近の研究では、論文をAIエージェントへ変換する方法が模索されています。たとえば、Paper2Agentは研究成果を能動的なシステムへと転換し、ユーザーがより容易に活用できるようにします。このようなアプローチは、研究成果の普及と再利用を促進し、AIが研究支援の役割を果たす新たなパラダイムを提示します。

2️⃣ 並列思考と強化学習の統合: Parallel-R1やParaThinkerのような研究は、大規模言語モデル（LLM）の推論能力を向上させるために並列思考を活用する方法を提案しています。これらは強化学習（RL）を通じて、複雑な問題の解決に必要な多様な思考経路を同時に探索し、性能を改善します。この方式は、従来の逐次的な思考モデルと比べて、より高い精度の達成に貢献しています。

3️⃣ 情報検索と構造化の統合: Retrieval And Structuring (RAS) Augmented Generationのような研究では、LLMの限界を克服するため、動的な情報検索と構造化された知識表現を統合する方法が模索されています。このようなアプローチは、非構造化テキストを組織化された形へ変換し、外部知識へアクセスするさまざまなメカニズムを探求することで、LLMの性能向上に貢献しています。

Paper2Agent: 研究論文を対話可能で信頼できるAIエージェントとして再構成する / Paper2Agent: Reimagining Research Papers As Interactive and Reliable AI Agents

論文紹介

Paper2Agentは、研究論文を対話可能な人工知能（AI）エージェントへ変換する自動化フレームワークであり、研究成果の活用と普及を加速する革新的なアプローチを提示します。従来の研究論文は、読者が内容を理解し適用するために相当な努力を要し、これが研究成果の再利用と普及の障壁となっていました。Paper2Agentはこの問題を解決するため、論文と関連コードベースを体系的に分析し、複数のエージェントを活用してModel Context Protocol（MCP）サーバーを構築します。この過程で反復的なテストを通じてMCPを改善・強化し、最終的には自然言語で複雑な科学的クエリを実行できるAIエージェントを生成します。

このフレームワークは、AlphaGenome、ScanPy、TISSUEといった多様な方法論を活用し、ゲノム変異の解釈や単一細胞解析を行うエージェントを開発しました。これらのエージェントは、元論文の結果を再現できるだけでなく、新しいユーザークエリに対しても正確な応答を提供します。Paper2Agentは、静的な研究論文を動的で対話可能なAIエージェントへと変換することで、知識普及の新たなパラダイムを提示し、AI共同科学者エコシステムの基盤を築きます。

この研究は、科学コミュニケーションのあり方を革新的に変え、研究成果を単なる文書から能動的な知識基盤システムへ転換することに貢献します。Paper2Agentは、研究者が複雑なソフトウェアエコシステムを習得しなくても、自然言語でエージェントと対話しながら研究手法を容易に適用できるようにします。このようなアプローチは、研究成果へのアクセス性を高め、高度な方法論の民主化を促進し、研究の実運用への適用速度を加速するうえで重要な役割を果たします。

結果として、Paper2Agentは研究論文の活用性を最大化し、科学知識の対話的かつ協調的な普及を可能にする革新的なプラットフォームとして位置づけられるでしょう。

論文要旨(Abstract)

私たちは、研究論文をAIエージェントへ変換する自動化フレームワークであるPaper2Agentを紹介します。Paper2Agentは研究成果物を受動的なアウトプットから能動的なシステムへと変換し、その後の利用、採用、発見を加速できるようにします。従来の研究論文では、読者が論文のコード、データ、手法を理解し、自身の作業に合わせて適応させるために多大な労力を投じる必要があり、これが普及と再利用の障壁となっていました。Paper2Agentは、論文を知識豊富な研究アシスタントとして機能するAIエージェントへ自動変換することで、この課題に対処します。このシステムは複数のエージェントを用いて論文と関連コードベースを体系的に分析し、Model Context Protocol（MCP）サーバーを構築したうえで、反復的にテストを生成・実行して、得られたMCPを洗練・堅牢化します。これらの論文MCPは、その後チャットエージェント（例: Claude Code）に柔軟に接続でき、元論文のツールやワークフローを呼び出しながら、自然言語を通じて複雑な科学的クエリを実行できます。私たちは詳細なケーススタディを通じて、Paper2Agentが信頼性と能力を備えた論文エージェントを作成するうえで有効であることを実証します。Paper2Agentは、AlphaGenomeを活用してゲノム変異を解釈するエージェント、およびScanPyとTISSUEに基づいて単一細胞および空間トランスクリプトミクス解析を行うエージェントを作成しました。私たちは、これらの論文エージェントが元論文の結果を再現でき、新しいユーザークエリも正しく実行できることを検証します。静的な論文を動的で対話的なAIエージェントへ変換することで、Paper2Agentは知識普及の新たなパラダイムと、AI共同科学者の協調エコシステムの基盤を提供します。
> We introduce Paper2Agent, an automated framework that converts research papers into AI agents. Paper2Agent transforms research output from passive artifacts into active systems that can accelerate downstream use, adoption, and discovery. Conventional research papers require readers to invest substantial effort to understand and adapt a paper's code, data, and methods to their own work, creating barriers to dissemination and reuse. Paper2Agent addresses this challenge by automatically converting a paper into an AI agent that acts as a knowledgeable research assistant. It systematically analyzes the paper and the associated codebase using multiple agents to construct a Model Context Protocol (MCP) server, then iteratively generates and runs tests to refine and robustify the resulting MCP. These paper MCPs can then be flexibly connected to a chat agent (e.g. Claude Code) to carry out complex scientific queries through natural language while invoking tools and workflows from the original paper. We demonstrate Paper2Agent's effectiveness in creating reliable and capable paper agents through in-depth case studies. Paper2Agent created an agent that leverages AlphaGenome to interpret genomic variants and agents based on ScanPy and TISSUE to carry out single-cell and spatial transcriptomics analyses. We validate that these paper agents can reproduce the original paper's results and can correctly carry out novel user queries. By turning static papers into dynamic, interactive AI agents, Paper2Agent introduces a new paradigm for knowledge dissemination and a foundation for the collaborative ecosystem of AI co-scientists.

論文リンク

https://arxiv.org/abs/2509.06917

さらに読む

https://github.com/jmiao24/Paper2Agent

https://huggingface.co/spaces/Paper2Agent/alphagenome_agent

並列思考: 強化学習による並列的思考能力の向上手法 / Parallel-R1: Towards Parallel Thinking via Reinforcement Learning

論文紹介

並列思考は、大規模言語モデル（LLM）の推論能力を高めるための革新的なアプローチであり、複数の推論経路を同時に探索する方法論である。しかし、従来の教師あり学習（Supervised Fine-Tuning, SFT）方式は合成データに依存しており、モデルが単純な模倣学習にとどまってしまうため、探索と一般化を妨げるという限界がある。こうした問題を解決するために提案されたParallel-R1は、複雑な実世界の問題解決に向けた並列思考行動を可能にする、初の強化学習（Reinforcement Learning, RL）フレームワークである。

Parallel-R1は、段階的なカリキュラムを通じて、初期には易しい問題を学習し、その後RLによってより難しい問題に対する並列思考能力を探索・一般化する2段階の訓練プロセスを採用する。この過程で、モデルは初期段階では並列思考を探索戦略として活用し、後続段階では多角的な検証のための戦略へと発展させる傾向を示す。実験の結果、Parallel-R1はさまざまな数学ベンチマークにおいて、従来の逐次的思考モデルと比べて8.4%の精度向上を達成し、特にAIME25ベンチマークでは42.9%の性能改善を記録した。

この研究の主な貢献は、並列思考のためのRLフレームワークを提案することで、モデルが自ら並列思考を学習するよう促した点にある。また、並列思考の探索メカニズムを通じて、モデルが方策空間のより効果的な領域へ導かれるようにし、最終的な方策学習に寄与する構造的な役割を果たす。Parallel-R1は、LLMの推論能力を向上させるための重要な基礎資料として活用でき、今後の研究において並列思考という概念をさらに発展させることに貢献すると期待される。

論文要旨(Abstract)

並列思考は、大規模言語モデル（LLM）の推論能力を向上させるための新しいアプローチであり、複数の推論経路を同時に探索する方法です。しかし、このような能力を訓練によって活性化することは依然として困難であり、既存手法は主に合成データに対する教師ありファインチューニング（SFT）に依存しているため、探索や一般化ではなく教師強制による模倣を促進してしまいます。これに対して私たちは、複雑な実世界の推論タスクにおける並列思考行動を可能にする最初の強化学習（RL）フレームワーク、\textbf{Parallel-R1}を提案します。私たちのフレームワークは、RLによる並列思考訓練におけるコールドスタート問題を明示的に解決する段階的カリキュラムを採用しています。まず、より易しいタスクから生成されたプロンプトベースの軌跡に対してSFTを用いて並列思考能力を注入し、その後、より難しい問題でこのスキルを探索・一般化するためにRLへ移行します。MATH、AMC23、AIMEなどのさまざまな数学ベンチマークにおける実験の結果、Parallel-R1は並列思考の導入に成功し、困難なタスクに対してRLで直接訓練された逐次的思考モデルと比較して8.4%の精度向上を実現しました。さらに分析した結果、モデルの思考行動には明確な変化が見られました。初期段階では並列思考を探索戦略として用い、後半段階では同じ能力を多面的な検証のために用います。最も重要なのは、私たちが並列思考を\textbf{訓練中盤の探索足場}として検証したことであり、この一時的な探索段階がRL後により高い性能上限を引き出し、AIME25においてベースライン比42.9%の向上をもたらした点です。私たちのモデル、データ、コードは https://github.com/zhengkid/Parallel-R1 でオープンソースとして公開される予定です。
> Parallel thinking has emerged as a novel approach for enhancing the reasoning capabilities of large language models (LLMs) by exploring multiple reasoning paths concurrently. However, activating such capabilities through training remains challenging, as existing methods predominantly rely on supervised fine-tuning (SFT) over synthetic data, which encourages teacher-forced imitation rather than exploration and generalization. Different from them, we propose \textbf{Parallel-R1}, the first reinforcement learning (RL) framework that enables parallel thinking behaviors for complex real-world reasoning tasks. Our framework employs a progressive curriculum that explicitly addresses the cold-start problem in training parallel thinking with RL. We first use SFT on prompt-generated trajectories from easier tasks to instill the parallel thinking ability, then transition to RL to explore and generalize this skill on harder problems. Experiments on various math benchmarks, including MATH, AMC23, and AIME, show that Parallel-R1 successfully instills parallel thinking, leading to 8.4% accuracy improvements over the sequential thinking model trained directly on challenging tasks with RL. Further analysis reveals a clear shift in the model's thinking behavior: at an early stage, it uses parallel thinking as an exploration strategy, while in a later stage, it uses the same capability for multi-perspective verification. Most significantly, we validate parallel thinking as a \textbf{mid-training exploration scaffold}, where this temporary exploratory phase unlocks a higher performance ceiling after RL, yielding a 42.9% improvement over the baseline on AIME25. Our model, data, and code will be open-source at https://github.com/zhengkid/Parallel-R1.

論文リンク

https://arxiv.org/abs/2509.07980

さらに読む

https://zhengkid.github.io/Parallel_R1.github.io/

https://github.com/zhengkid/Parallel-R1

大規模言語モデルを活用した検索・構造化拡張生成に関するサーベイ / A Survey on Retrieval And Structuring Augmented Generation with Large Language Models

論文紹介

大規模言語モデル（LLM）は自然言語処理分野で革新的な進展を遂げたが、実際のアプリケーションでは幻覚（hallucination）の生成、古い知識、限定的なドメイン専門性といった問題に直面している。こうした限界を克服するために提案された検索・構造化拡張生成（Retrieval And Structuring, RAS）アプローチは、動的な情報検索と構造化された知識表現を統合することで、LLMの性能向上に寄与する。この研究では、外部知識へアクセスするためのさまざまな検索メカニズムを検討しており、疎（sparse）、密（dense）、ハイブリッド（hybrid）なアプローチを含む。これらの検索メカニズムは、LLMがより正確で信頼性の高い情報を生成できるよう支援する。

また、非構造化テキストを整理された表現へ変換するテキスト構造化技術も重要な役割を果たす。分類体系の構築、階層的分類、情報抽出などの手法を通じて、LLMは特定ドメインにおける専門性を高め、複雑なクエリに対する多段階推論を可能にする。RASはこうした構造化表現をLLMと統合し、プロンプトベースの手法、推論フレームワーク、知識埋め込み技術を通じてLLMの応答生成能力を向上させる。

この研究は、RASの技術的課題を特定し、検索効率、構造品質、知識統合の重要性を強調している。また、マルチモーダル検索、クロスリンガル構造、インタラクティブシステムといった今後の研究機会を提示し、LLMsの適用可能性を広げようとしている。RASアプローチはLLMの性能を最大化できる革新的な方法論として、自然言語処理分野の発展に寄与することが期待される。

論文要旨(Abstract)

大規模言語モデル（LLM）は、テキスト生成および推論における卓越した能力によって自然言語処理に革新をもたらしました。しかし、これらのモデルは実世界のアプリケーションに展開される際、ハルシネーションの生成、古い知識、限定的なドメイン専門性といった重大な課題に直面します。Retrieval And Structuring（RAS）Augmented Generationは、動的な情報検索と構造化された知識表現を統合することで、これらの限界に対処します。本サーベイは、(1) 外部知識へアクセスするための疎、密、ハイブリッドなアプローチを含む検索メカニズムを検討し、(2) 非構造化テキストを整理された表現へ変換する分類体系構築、階層的分類、情報抽出といったテキスト構造化技術を探究し、(3) これらの構造化表現がプロンプトベースの手法、推論フレームワーク、知識埋め込み技法を通じてどのようにLLMと統合されるかを調査します。さらに、検索効率、構造品質、知識統合における技術的課題を特定するとともに、マルチモーダル検索、クロスリンガル構造、インタラクティブシステムにおける研究機会を強調します。この包括的な概観は、研究者と実務家に対し、RASの手法、応用、今後の方向性に関する洞察を提供します。

Large Language Models (LLMs) have revolutionized natural language processing with their remarkable capabilities in text generation and reasoning. However, these models face critical challenges when deployed in real-world applications, including hallucination generation, outdated knowledge, and limited domain expertise. Retrieval And Structuring (RAS) Augmented Generation addresses these limitations by integrating dynamic information retrieval with structured knowledge representations. This survey (1) examines retrieval mechanisms including sparse, dense, and hybrid approaches for accessing external knowledge; (2) explore text structuring techniques such as taxonomy construction, hierarchical classification, and information extraction that transform unstructured text into organized representations; and (3) investigate how these structured representations integrate with LLMs through prompt-based methods, reasoning frameworks, and knowledge embedding techniques. It also identifies technical challenges in retrieval efficiency, structure quality, and knowledge integration, while highlighting research opportunities in multimodal retrieval, cross-lingual structures, and interactive systems. This comprehensive overview provides researchers and practitioners with insights into RAS methods, applications, and future directions.

論文リンク

https://arxiv.org/abs/2509.10697

ParaThinker: LLMのテスト時コンピュートを拡張するための新たなパラダイムとしてのネイティブ並列思考 / ParaThinker: Native Parallel Thinking as a New Paradigm to Scale LLM Test-time Compute

論文紹介

大規模言語モデル（LLM）の進展は、近年、テスト時コンピュート拡張戦略に大きく依存しており、これはモデルの推論能力向上に貢献している。しかし、こうしたアプローチは計算量の増加に伴って性能向上が頭打ちになるボトルネックに直面する。この問題は「トンネルビジョン（Tunnel Vision）」と呼ばれる現象であり、初期段階の不完全な推論がモデルを非最適な経路に固定してしまう結果を招く。これを解決するために提案された新たなパラダイムが、ネイティブ思考並列性（Native Thought Parallelism）である。これは複数の多様な推論経路を同時に生成し、それらを統合して最終的な回答を導く方法だ。

ParaThinkerというエンドツーエンドのフレームワークは、この思考並列性の実装に重点を置いている。このシステムでは、モデルが独立して多様な思考を生成するよう訓練され、それによってトンネルビジョン問題を効果的に回避し、モデルの潜在的な推論能力を最大限に引き出す。ParaThinkerは3つの主要な革新によってこの目標を達成する。第1に、学習可能な制御トークンを導入して各経路の独自性を保証し、第2に、思考固有の位置埋め込みによって各経路の出所を明確に区別し、第3に、教師ありファインチューニング（Supervised Fine-Tuning）戦略によってモデルがより多くの並列経路を生成できるようにする。

このアプローチは、難度の高い推論ベンチマークにおいて既存の自己回帰型推論モデルと比較し、1.5Bモデルで平均12.3%、7Bモデルで平均7.5%の精度向上を達成しながら、レイテンシ増加は7.1%とわずかな水準にとどまる。その結果、ParaThinkerはより小さなモデルがはるかに大きなモデルを上回り得る可能性を示し、今後のLLM拡張に向けた新たな道筋を提示している。研究結果は、LLMの推論過程で生じるボトルネックを明らかにし、ネイティブ思考並列性がより優れたスケーリング手法であることを実証することで、LLM研究分野に重要な貢献を果たしている。

論文要旨(Abstract)

最近の大規模言語モデル（LLM）の進歩は、テスト時の計算スケーリングによって促進されてきました。これは、より長い連続的な思考過程を生成することで推論を改善する戦略です。効果的ではあるものの、このアプローチは計算量の増加に伴って大きなボトルネックに直面し、追加の計算による性能向上はごくわずかにとどまります。私たちは、この限界はモデル能力に内在するものではなく、スケーリング戦略そのものの欠陥だと主張します。私たちはこれを「トンネルビジョン」と名付けました。これは、モデルの不完全な初期段階が、最適ではない推論経路に固定されてしまう現象です。これを克服するために、私たちは新しいスケーリングのパラダイムであるネイティブな思考並列性を導入します。私たちは ParaThinker というエンドツーエンドのフレームワークを提示します。これは、LLM が複数の多様な推論経路を並列に生成し、それらをより優れた最終回答へと統合するよう訓練するものです。ParaThinker は異なる思考経路を同時に探索することで、トンネルビジョンの問題を効果的に回避し、モデルに潜在する推論能力を引き出します。私たちのアプローチは、計算を並列（幅）にスケールさせることが、単に逐次的（深さ）にスケールさせるよりも、優れた推論に向けてより効果的かつ効率的な方法であることを示しています。難易度の高い推論ベンチマークにおいて、ParaThinker は逐次型 LLM と比べて大幅な精度向上（1.5B モデルで平均 12.3%、7B モデルで平均 7.5% 向上）を達成しながら、レイテンシのオーバーヘッドはごく小さい水準（7.1%）にとどまりました。これにより、より小さなモデルがはるかに大きなモデルを上回ることが可能になり、並列思考が今後の LLM スケーリングにおける重要で効率的な次元であることを示しています。
> Recent advances in Large Language Models (LLMs) have been driven by test-time compute scaling - a strategy that improves reasoning by generating longer, sequential thought processes. While effective, this approach encounters a significant bottleneck as computation increases, where further computation offers only marginal performance gains. We argue this ceiling is not an inherent limit of the model's capability but a flaw in the scaling strategy itself, a phenomenon we term "Tunnel Vision", where a model's imperfect initial steps lock it into a suboptimal reasoning path. To overcome this, we introduce a new scaling paradigm: native thought parallelism. We present ParaThinker, an end-to-end framework that trains an LLM to generate multiple, diverse reasoning paths in parallel and synthesize them into a superior final answer. By exploring different lines of thoughts simultaneously, ParaThinker effectively sidesteps the Tunnel Vision issue and unlocks the model's latent reasoning potential. Our approach demonstrates that scaling compute in parallel (width) is a more effective and efficient way to superior reasoning than simply scaling sequentially (depth). On challenging reasoning benchmarks, ParaThinker achieves substantial accuracy improvements over sequential LLMs (12.3% for 1.5B and 7.5% for 7B models on average with 8 parallel paths), while adding only negligible latency overhead (7.1%). This enables smaller models to surpass much larger counterparts and establishes parallel thinking as a critical, efficient dimension for scaling future LLMs.

論文リンク

https://arxiv.org/abs/2509.04475

時系列ファウンデーションモデルのためのインコンテキスト・ファインチューニング / In-Context Fine-Tuning for Time-Series Foundation Models

論文紹介

時系列データの予測はさまざまな分野で重要な課題であり、近年の時系列ファウンデーションモデルの進展は、この問題に新たな可能性をもたらしています。本研究では、こうしたモデルの性能を最大化するための新しい方法論として、$\textit{in-context fine-tuning}$ を提案します。この方法論は、事前学習済みのファウンデーションモデルが複数の時系列の例を活用して、特定の時系列の将来を予測できるよう設計されています。

提案モデルは、ターゲット時系列の履歴だけでなく、関連する時系列の例もコンテキストウィンドウ内で活用し、推論時にターゲットドメイン固有の分布へ適応できるよう訓練されます。このアプローチにより、モデルは多様な時系列パターンを学習し、それに基づいてより正確な予測を行えるようになります。実験の結果、このモデルは教師あり学習ベースの深層学習手法、統計モデル、さらに既存の他の時系列ファウンデーションモデルと比べても、はるかに優れた性能を示しました。

特に、in-context fine-tuning アプローチは、ターゲットドメインに対して明示的にファインチューニングされたモデルとも競合できる性能を発揮し、この方法論の革新性を際立たせています。モデルアーキテクチャは TimesFM をベースとしており、時系列データを効果的に処理できるよう構成されています。入力例は長さ $p$ のパッチに分割して処理され、パディングマスクによって予測の精度を保証します。

トークン化の過程では、パッチとマスクを統合して生成されたトークンが積み重ねられた Transformer レイヤーに入力され、そこから予測結果が導き出されます。この一連のプロセスは、モデルが入力データを効果的に処理し、次の $h$ ステップの時系列を予測するうえで重要な役割を果たします。本研究は、時系列データ予測のための新たなアプローチを提示し、in-context fine-tuning が既存手法より優れた性能を発揮しうることを実証的に示しています。

論文要旨(Abstract)

最近のゼロショット予測に向けた時系列ファウンデーションモデルの成功を受け、私たちは時系列ファウンデーションモデルの $\textit{コンテキスト内ファインチューニング}$ 手法を提案します。具体的には、複数の時系列の例とともにプロンプトを与えることで、対象の時系列を将来にわたって予測できる事前学習済みファウンデーションモデルを設計します。私たちのファウンデーションモデルは、対象時系列の履歴に加えて、コンテキストウィンドウ内の複数の関連時系列の例を活用するよう特別に訓練されており、推論時に対象ドメインの特定の分布へ適応するのに役立ちます。私たちは、推論時にコンテキスト内の例を使用するこのようなファウンデーションモデルが、教師ありディープラーニング手法、統計モデル、そして他の時系列ファウンデーションモデルと比べて、主要な予測ベンチマークで大幅に優れた性能を達成できることを示します。興味深いことに、私たちのコンテキスト内ファインチューニング手法は、対象ドメインで明示的にファインチューニングされたファウンデーションモデルの性能にも匹敵します。
> Motivated by the recent success of time-series foundation models for zero-shot forecasting, we present a methodology for $\textit{in-context fine-tuning}$ of a time-series foundation model. In particular, we design a pretrained foundation model that can be prompted (at inference time) with multiple time-series examples, in order to forecast a target time-series into the future. Our foundation model is specifically trained to utilize examples from multiple related time-series in its context window (in addition to the history of the target time-series) to help it adapt to the specific distribution of the target domain at inference time. We show that such a foundation model that uses in-context examples at inference time can obtain much better performance on popular forecasting benchmarks compared to supervised deep learning methods, statistical models, as well as other time-series foundation models. Interestingly, our in-context fine-tuning approach even rivals the performance of a foundation model that is explicitly fine-tuned on the target domain.

論文リンク

https://arxiv.org/abs/2410.24087

さらに読む

https://research.google/blog/…

https://icml.cc/virtual/2025/poster/43707

1ビットで十分だ：二値正規化ニューラルネットワーク / 1 bit is all we need: binary normalized neural networks

論文紹介

大規模ニューラルネットワークモデルの発展は、さまざまな応用分野で優れた性能を発揮している一方で、モデルの大規模化に伴い、メモリ要件と計算効率に関する課題を生み出しています。本研究では、こうした問題を解決するため、すべてのレイヤーのパラメータを単一ビットに制限する新しいタイプのニューラルネットワークモデルである二値正規化レイヤー（binary normalized layer）を提案します。このレイヤーは、カーネル重みとバイアスを含むすべてのパラメータを 0 または 1 に設定することで、メモリ使用量を大幅に削減しながらも、従来の32ビット浮動小数点パラメータを用いるモデルと同等の性能を維持できるよう設計されています。

二値正規化レイヤーは、全結合、畳み込み、アテンションなど、さまざまなニューラルネットワークアーキテクチャに適用可能であり、学習過程では完全精度の32ビット値と二値化された値の2つの形式を用いることで、安定した学習を保証します。この研究では、多クラス画像分類と言語デコーディング問題を解くために、二値正規化レイヤーを活用した2つのモデルを構築しました。実験の結果、これらのモデルは従来の32ビットパラメータを用いるモデルとほぼ同等の性能を示し、メモリ使用量は32分の1に削減されました。

この革新的なアプローチは、大規模ニューラルネットワークモデルの効率を大幅に向上させる潜在力を持ち、低コストなハードウェアでも容易に実装できるという利点があります。二値正規化レイヤーを通じて、ニューラルネットワークモデルのメモリ要件を削減し、さまざまな応用分野における実用性を高める新たな可能性を示しています。今後の研究では、二値正規化レイヤーの性能をさらに向上させ、さまざまな分野に適用できる方法論を探る方向で進められる見込みです。

論文要旨(Abstract)

以下はAI/ML分野の論文アブストラクトです。大規模ニューラルネットワークモデル、特に言語モデルと基盤画像モデルのサイズ拡大に伴い、デプロイに関する課題が生じており、メモリ要件の削減と計算効率の向上に向けた取り組みが進められています。これらの取り組みは、さまざまなアプリケーションにおいて、こうしたモデルの実用的なデプロイと効果的な活用を確実にするうえで重要です。本研究では、単一ビットのパラメータのみを用いる新しいタイプのニューラルネットワーク層とモデルを開発しました。この新しいタイプのモデルでは、カーネル重みやバイアスを含むすべての層の全パラメータが、0または1の値のみを取ります。この新しいタイプのモデルは、binary normalized layerと呼ばれる層を使用します。binary normalized layerは、全結合層、畳み込み層、アテンション層など、あらゆるタイプに適用可能で、対応する従来の層をわずかに変形した構成になっています。binary normalized layerの有効性を示すために、多クラス画像分類問題を解く2種類のモデルと、シーケンスの次トークンを予測するための言語デコーダを構成しました。画像分類向けのモデルは畳み込み層と全結合層で構成され、言語モデルはマルチヘッドアテンションを備えたTransformerブロックで構成されます。結果は、binary normalized layerを持つモデルが、実数の32ビットパラメータを持つ同等モデルで得られた結果とほぼ同等であることを示しています。binary normalized layerにより、現在のモデルより32倍少ないメモリで同等の性能を持つモデルを開発できます。さらに、binary normalized layerは1ビット配列を用いて現在のコンピュータ上で容易に実装でき、専用の電子ハードウェア開発も必要ありません。この新しいタイプの層は、モバイルデバイスやCPUのみといったシンプルで低コストなハードウェアでデプロイ可能な、メモリ要件を削減した大規模ニューラルネットワークモデルの新時代を切り開きます。
> The increasing size of large neural network models, specifically language models and foundational image models, poses deployment challenges, prompting efforts to reduce memory requirements and enhance computational efficiency. These efforts are critical to ensure practical deployment and effective utilization of these models across various applications. In this work, a novel type of neural network layers and models is developed that uses only single-bit parameters. In this novel type of models all parameters of all layers, including kernel weights and biases, only have values equal to zero or one. This novel type of models uses layers named as binary normalized layer. These binary normalized layers can be of any type, such as fully connected, convolutional, attention, etc., and they consist of slight variations of the corresponding conventional layers. To show the effectiveness of the binary normalized layers, two different models are configured to solve a multiclass image classification problem and a language decoder to predict the next token of a sequence. The model to solve the image classification has convolutional and fully connected layers, and the language model is composed of transformer blocks with multi-head attention. The results show that models with binary normalized layers present almost the same results obtained by equivalent models with real 32-bit parameters. The binary normalized layers allow to develop models that use 32 times less memory than current models and have equivalent performance. Besides, the binary normalized layers can be easily implemented on current computers using 1-bit arrays, and do not require the development of dedicated electronic hardware. This novel type of layers opens a new era for large neural network models with reduced memory requirements that can be deployed using simple and cheap hardware, such as mobile devices or only cpus.

論文リンク

https://arxiv.org/abs/2509.07025

言語モデルにおける自己一貫性の内在化: マルチエージェント合意アラインメント / Internalizing Self-Consistency in Language Models: Multi-Agent Consensus Alignment

論文紹介

言語モデル（LM）は、同一のプロンプトに対して矛盾した応答を生成しがちなため、一貫性を欠いた推論を示します。既存の推論時手法はこうした不一致を緩和できるものの、根本的な問題である、一貫した結果を導く推論経路の選択の難しさまでは解決していません。これに対処するため、本研究では自己一貫性を、よく整列した推論モデルの内在的特性として定式化し、Multi-Agent Consensus Alignment（MACA）という強化学習フレームワークを導入します。MACAは、多数派／少数派の結果を活用し、モデルが内部的な合意に沿った推論経路を好むように事後学習を行います。こうした経路は、エージェント間の深い議論から生じるものであり、独立した試行の集合ではなく、仲間の主張に基づく推論を通じて、より豊かな合意シグナルを生み出します。MACAは、エージェントが外部からの監督なしに、より決断力があり簡潔な形で自己学習することを可能にし、さまざまな自己一貫性、単一エージェント推論、サンプリングベース推論、マルチエージェント集合意思決定において大幅な改善をもたらします。これらの結果は、未見のベンチマークに対する強力な一般化能力とともに、言語モデルの潜在的な推論能力をより信頼性高く引き出す強力な自己アラインメントを示しています。

論文アブストラクト(Abstract)

言語モデル（LLM）は一貫性を欠く推論器であり、同一のプロンプトに対してもしばしば矛盾した応答を生成します。推論時の手法はこうした不一致を緩和できるものの、根本的な問題は解決できません。つまり、LLMは探索的サンプリング下で一貫した結果につながる推論経路を信頼性高く選択することに苦労します。この課題に対処するため、私たちは自己一貫性を、適切にアラインされた推論モデルの内在的特性として定式化し、Multi-Agent Consensus Alignment（MACA）を導入します。MACAは、多エージェント討論における多数派／少数派の結果を用いて、モデルが内部的な合意と整合する推論経路を好むよう事後学習する強化学習フレームワークです。こうした経路は、エージェントが仲間の主張に基づいて推論を組み立てる熟議的なやり取りから生まれ、独立した試行の単なる集約ではなく、単一ラウンドの多数決よりも豊かな合意シグナルを生成して、より優れた結果を導きます。MACAは、外部監督なしに、多エージェント環境で仲間の洞察をよりよく活用し、より断定的かつ簡潔に自己学習できるようエージェントを支援します。これにより、自己一貫性（GSM8Kで+27.6%）、単一エージェント推論（MATHで+23.7%）、サンプリングベース推論（MATHでPass@20が+22.4%）、多エージェント・アンサンブル意思決定（MathQAで+42.7%）において大幅な改善が得られます。こうした発見は、未知のベンチマークに対する強力な汎化性能（GPQAで+16.3%、CommonsenseQAで+11.6%）とあわせて、言語モデルの潜在的な推論能力をより信頼性高く引き出す堅牢な自己アラインメントを示しています。
> Language Models (LMs) are inconsistent reasoners, often generating contradictory responses to identical prompts. While inference-time methods can mitigate these inconsistencies, they fail to address the core problem: LMs struggle to reliably select reasoning pathways leading to consistent outcomes under exploratory sampling. To address this, we formalize self-consistency as an intrinsic property of well-aligned reasoning models and introduce Multi-Agent Consensus Alignment (MACA), a reinforcement learning framework that post-trains models to favor reasoning trajectories aligned with their internal consensus using majority/minority outcomes from multi-agent debate. These trajectories emerge from deliberative exchanges where agents ground reasoning in peer arguments, not just aggregation of independent attempts, creating richer consensus signals than single-round majority voting. MACA enables agents to teach themselves to be more decisive and concise, and better leverage peer insights in multi-agent settings without external supervision, driving substantial improvements across self-consistency (+27.6% on GSM8K), single-agent reasoning (+23.7% on MATH), sampling-based inference (+22.4% Pass@20 on MATH), and multi-agent ensemble decision-making (+42.7% on MathQA). These findings, coupled with strong generalization to unseen benchmarks (+16.3% on GPQA, +11.6% on CommonsenseQA), demonstrate robust self-alignment that more reliably unlocks latent reasoning potential of language models.

論文リンク

https://arxiv.org/abs/2509.15172

Universal Deep Research: 独自のモデルと戦略を持ち込む / Universal Deep Research: Bring Your Own Model and Strategy

論文紹介

Universal Deep Research（UDR）は、既存のディープリサーチツールが特定の研究戦略を固定的な方法で実行するようハードコードされているという限界を克服するために開発された、汎用的なエージェントシステムです。UDRは、ユーザーが自分専用のカスタムなディープリサーチ戦略を作成、編集、改善できる機能を提供し、その過程で追加学習やファインチューニングを必要としない点で革新的です。このシステムは、最小限の研究戦略から、広範で集中的な戦略まで、さまざまな例を通じてその汎用性を実証しています。

UDRの中核は、ユーザーインターフェースを通じて実験を容易にし、研究者が自分自身の研究戦略を自由に探求できるよう支援することです。このアプローチは、研究者が既存のツールに依存せず、自分ならではの独創的な方法論を開発する機会を提供します。特にUDRはさまざまな言語モデルをラップしており、ユーザーが好みのモデルを選んで利用できる柔軟性を備えています。

この研究はディープリサーチツールの発展に貢献し、研究者がより創造的でパーソナライズされた研究戦略を構築できるようにすることに重点を置いています。UDRの導入は、研究の効率と有効性を高めるうえで重要な役割を果たすと期待されます。その点でUDRは、ディープリサーチ分野における新たな可能性を切り開く革新的なシステムとして位置づけられるでしょう。

論文要旨(Abstract)

ディープリサーチツールは、今日もっとも影響力が大きく、もっとも一般的に目にするエージェントシステムの一つです。しかし、これまでに登場した各ディープリサーチエージェントは、固定されたツール選択を用いて特定の研究戦略を実行するようハードコードされていることがわかります。私たちは、あらゆる言語モデルをラップし、追加の学習やファインチューニングを一切必要とせず、ユーザーが完全にカスタマイズされた独自のディープリサーチ戦略を作成、編集、改善できる汎用エージェントシステム、Universal Deep Research（UDR）を紹介します。システムの汎用性を示すため、UDRには最小・拡張・集中型の研究戦略の例を備え、さらにシステムを用いた実験を容易にするユーザーインターフェースも提供します。
> Deep research tools are among the most impactful and most commonly encountered agentic systems today. We observe, however, that each deep research agent introduced so far is hard-coded to carry out a particular research strategy using a fixed choice of tools. We introduce Universal Deep Research (UDR), a generalist agentic system that wraps around any language model and enables the user to create, edit, and refine their own entirely custom deep research strategies without any need for additional training or finetuning. To showcase the generality of our system, we equip UDR with example minimal, expansive, and intensive research strategies, and provide a user interface to facilitate experimentation with the system.

論文リンク

https://arxiv.org/abs/2509.00244

AlphaAgents: 大規模言語モデルベースのマルチエージェントを活用した株式ポートフォリオ構築 / AlphaAgents: Large Language Model based Multi-Agents for Equity Portfolio Constructions

論文紹介

大規模言語モデル（LLM）の進展は、人工知能（AI）エージェントの効率性と適応性を最大化することに寄与しており、これは複雑な問題解決に向けたマルチエージェント協調の可能性を切り開いています。本研究は、このようなマルチエージェントシステムを活用し、株式選定およびポートフォリオ管理における役割ベースのアプローチを探究します。研究の中核目標は、複数のAIエージェントが協力して株式選定の性能を評価し、これを既存のベンチマークと比較することです。

マルチエージェントシステムは、ファンダメンタル分析、センチメント分析、評価など、それぞれ異なる専門分野を持つエージェントで構成されており、これらが互いの意見を議論して最適なポートフォリオを構築します。研究では、15銘柄のテクノロジー株を無作為に選定し、バックテストを通じて成果を評価し、リスク調整後リターンとシャープレシオを基準にポートフォリオの有効性を分析します。この方法論は、マルチエージェントの協調的意思決定プロセスを通じて、より優れた投資戦略を導き出せる可能性を示しています。

本研究は、マルチエージェントシステムの利点と限界を分析し、AIエージェントが提供する多様な視点を統合して意思決定を改善する方法を提案します。しかし、このようなシステムの実装には、人間によるレビューを通じた論理的一貫性の検証といった課題が存在します。研究結果は、マルチエージェントシステムが株式ポートフォリオ構築において革新的なアプローチを提供しうることを示しており、今後の研究では、LLMの信頼度に応じて株式のウェイトを調整する機能を探究する予定です。

このような研究は、AIベースの投資戦略の開発に貢献し、マルチエージェントシステムの活用可能性を示しています。

論文要旨(Abstract)

人工知能（AI）エージェントの分野は、大規模言語モデル（LLM）が人間に近い効率性と適応性でタスクを自律的に実行し改善できる能力に後押しされ、急速に発展しています。この文脈において、マルチエージェント協調は、複数のAIエージェントが協力して複雑な課題を解決できる有望なアプローチとして浮上しています。本研究では、株式リサーチおよびポートフォリオ管理における株式選定を支援するため、役割ベースのマルチエージェントシステムの適用を調査します。私たちは、専門エージェントのチームが実施した包括的な分析を提示し、さまざまなリスク許容度のもとで、確立されたベンチマークと比較してその銘柄選定性能を評価します。さらに、株式分析においてマルチエージェントフレームワークを活用する際の利点と限界を検討し、その実用的有効性と実装上の課題に関する重要な洞察を提供します。

The field of artificial intelligence (AI) agents is evolving rapidly, driven by the capabilities of Large Language Models (LLMs) to autonomously perform and refine tasks with human-like efficiency and adaptability. In this context, multi-agent collaboration has emerged as a promising approach, enabling multiple AI agents to work together to solve complex challenges. This study investigates the application of role-based multi-agent systems to support stock selection in equity research and portfolio management. We present a comprehensive analysis performed by a team of specialized agents and evaluate their stock-picking performance against established benchmarks under varying levels of risk tolerance. Furthermore, we examine the advantages and limitations of employing multi-agent frameworks in equity analysis, offering critical insights into their practical efficacy and implementation challenges.

論文リンク

https://arxiv.org/abs/2508.11152

大規模推論モデルのための強化学習サーベイ / A Survey of Reinforcement Learning for Large Reasoning Models

論文紹介

強化学習（Reinforcement Learning, RL）は、大規模言語モデル（Large Language Models, LLMs）の推論能力を向上させるうえで重要な役割を果たしており、この論文ではRLを通じた大規模推論モデル（Large Reasoning Models, LRM）への発展を概観します。RLは、数学的問題解決やコーディング作業のような複雑な論理タスクで際立った成果を示しており、LLMをLRMへと変換する基盤的方法論として位置づけられています。しかし、LRMのためのRLの拡張は、計算資源、アルゴリズム設計、学習データ、インフラの面で複数の課題に直面しています。

この研究は、RLをLLMおよびLRMの推論能力向上に適用した多様な研究をレビューし、とくにDeepSeek-R1モデルを含む最近の進展を中心に、報酬設計、方策最適化、サンプリング戦略といったRLの基礎構成要素を分析します。報酬設計は、モデルの学習方向を決定する重要なシグナルであり、検証可能な報酬メカニズムの重要性が強調されます。方策最適化は、モデルが最適な行動を選択するよう学習する過程であり、クリティックベースのアルゴリズムとクリティックレスのアルゴリズムが含まれます。また、サンプリング戦略はRLの効率を高める方法として、動的サンプリングとハイパーパラメータ調整が議論されます。

この論文は、RLによるLLMの統合訓練プロセスと、訓練リソースの品質および構造の重要性を強調するとともに、ソフトウェア工学やロボティクスタスクにおけるRLの適用事例を通じて、その実用性を示しています。特に、RLとエージェントパラダイムの統合はコード生成の発展を牽引しており、マルチモーダルタスクでも成功した結果を導いています。こうした研究は、LLMの推論能力を高めるための新たな方向性を提示し、最終的には超知能（Artificial SuperIntelligence, ASI）の実現に向けた基盤づくりに貢献すると期待されています。

論文要旨(Abstract)

この論文では、大規模言語モデル（LLM）による推論のための強化学習（RL）の最近の進展を調査します。RLは、数学やコーディングのような複雑な論理タスクへの対応において、特にLLMの能力の限界を押し広げるうえで顕著な成功を収めてきました。その結果、RLはLLMを大規模推論モデル（LRM）へと変換するための基盤的な方法論として位置づけられるようになりました。この分野の急速な進展により、LRM向けRLのさらなるスケーリングは、計算資源だけでなく、アルゴリズム設計、学習データ、インフラの面でも根本的な課題に直面しています。そのため、この領域の発展をあらためて見直し、その軌跡を再評価し、人工超知能（ASI）に向けてRLのスケーラビリティを高める戦略を探ることは、まさに時宜を得ています。特に私たちは、DeepSeek-R1の公開以降を中心に、推論能力のためにLLMおよびLRMへRLを適用した研究を検討し、基盤コンポーネント、中核的課題、学習リソース、下流アプリケーションを含め、この急速に進化する分野の将来の機会と方向性を特定しようとしています。私たちは、このレビューが、より広範な推論モデルに対するRLの今後の研究を促進することを期待しています。GitHub: https://github.com/TsinghuaC3I/Awesome-RL-for-LRMs

In this paper, we survey recent advances in Reinforcement Learning (RL) for reasoning with Large Language Models (LLMs). RL has achieved remarkable success in advancing the frontier of LLM capabilities, particularly in addressing complex logical tasks such as mathematics and coding. As a result, RL has emerged as a foundational methodology for transforming LLMs into LRMs. With the rapid progress of the field, further scaling of RL for LRMs now faces foundational challenges not only in computational resources but also in algorithm design, training data, and infrastructure. To this end, it is timely to revisit the development of this domain, reassess its trajectory, and explore strategies to enhance the scalability of RL toward Artificial SuperIntelligence (ASI). In particular, we examine research applying RL to LLMs and LRMs for reasoning abilities, especially since the release of DeepSeek-R1, including foundational components, core problems, training resources, and downstream applications, to identify future opportunities and directions for this rapidly evolving area. We hope this review will promote future research on RL for broader reasoning models. Github: https://github.com/TsinghuaC3I/Awesome-RL-for-LRMs

論文リンク

https://arxiv.org/abs/2509.08827

さらに読む

https://github.com/TsinghuaC3I/Awesome-RL-for-LRMs

⚠️広告⚠️: 🔥PyTorch韓国ユーザーコミュニティ🇰🇷がまとめたこの記事は役に立ちましたか？会員登録すると、主要な記事をメール💌でお届けします！（デフォルトはWeeklyですが、Dailyへの変更も可能です。）

[2025/09/22〜28] 今週チェックしたいAI/ML論文まとめ