ML論文まとめ

(discuss.pytorch.kr)

11 ポイント投稿者 ninebow 2025-09-10 | まだコメントはありません。 | WhatsAppで共有

[2025/09/01 ~ 07] 今週注目のAI/ML論文まとめ

PyTorchKR🔥🇰🇷 🤔💭

1️⃣ 大規模言語モデルの限界と制御: 複数の論文で、大規模言語モデル（LLM）の限界とそれを制御する方法について議論が行われました。特に、"On the Fundamental Impossibility of Hallucination Control in Large Language Models" では、LLMが真実に基づく知識表現と情報保存を同時に達成できないという理論的な不可能性を提示し、ハルシネーションと創造性の数学的同一性を強調しました。これは、AIシステムにおいてこうした挙動を管理するための基礎を提供します。

2️⃣ 効率的な学習および最適化手法: "Fantastic Pretraining Optimizers and Where to Find Them" や "Communication Efficient LLM Pre-training with SparseLoCo" のような論文は、LLMの学習過程における効率を高めるための新しい最適化手法を探究しています。特に、SparseLoCoは通信効率を高めるためにスパース化と量子化を活用し、性能と通信コストの両面で改善された結果を示しました。

3️⃣ マルチエージェントシステムの協調とメモリ改善: "Anemoi: A Semi-Centralized Multi-agent Systems Based on Agent-to-Agent Communication MCP server from Coral Protocol" と "Memp: Exploring Agent Procedural Memory" では、マルチエージェントシステムの協調方式と、エージェントの手続き的メモリを改善するためのアプローチが提案されました。Anemoiはエージェント間の直接的な協調を通じて性能を向上させ、Mempはエージェントが学習可能な手続き的メモリを持てるようにすることで、継続的な更新と改善を可能にします。

大規模言語モデルにおけるハルシネーション制御の根本的な不可能性に関する研究 / On the Fundamental Impossibility of Hallucination Control in Large Language Models

論文紹介

大規模言語モデル（LLM）のハルシネーション問題は、AIシステムの信頼性と正確性に重大な影響を及ぼすテーマであり、本研究はこの問題の根本的な不可能性を数学的に解明しようとしたものです。著者らは、ビット情報の集合をオークションのアイデアで説明し、複数の構成要素がそれぞれの部分知識を活用して応答を形成する過程を分析しました。本研究は、メカニズム設計理論、適切なスコアリングルール理論、そしてトランスフォーマーアーキテクチャの直接的な分析を含む3つの独立した数学領域を通じて、ハルシネーションと創造性の数学的基盤を提供します。特に著者らは、過信や直感的な応答の生成を定量化する方法を提示しており、これはハルシネーションと創造性の両方の特徴として現れます。

さらに本研究では、意味情報測定と創発演算子という概念を導入して制限付き推論をモデル化し、制限付き推論はアクセス可能な情報を生成する一方で、理想的な無制限推論は意味内容を厳密に保存することを強調しています。こうした分析を通じて、著者らはハルシネーションと想像力が、真実性、意味情報保存、関連知識の開示、知識制約最適性からの逸脱に由来する数学的に同一の現象であることを証明しました。本研究は、AIシステムの設計と評価に重要な影響を与え得る理論的基盤を提供し、今後の研究方向に対する洞察を示します。これらの貢献は、情報理論とAIの交差点において新たな問いを提起し、情報の本質に対する理解を深めることに寄与すると期待されます。

論文要旨(Abstract)

この論文は基本的な不可能性定理を確立します。すなわち、非自明な知識集約を実行できるLLMは、真実な知識表現、意味情報の保存、関連知識の完全な開示、そして知識制約下での最適性を同時に達成することはできません。この不可能性は工学的な限界ではなく、情報集約そのものの数学的構造から生じます。著者らは推論過程をアイデアのオークションとして記述することでこの結果を示します。そこでは分散した構成要素が、自らの部分的知識を活用して応答の形成を競い合います。証明は3つの独立した数学領域にまたがっています。すなわち、メカニズムデザイン理論（Green-Laffont）、適切なスコアリングルール理論（Savage）、そしてトランスフォーマーの直接的な構造解析（Log-Sum-Exp convexity）です。特に著者らは、過信した応答や直感的な応答の生成をどのように定量化できるかを示しており、これはハルシネーションと創造性、あるいは想像力の特徴です。この分析を支えるために、著者らは一般的な設定で制約付き推論をモデル化するため、意味情報測度と創発演算子という相補的な概念を導入します。著者らは、制約付き推論がアクセス可能な情報を生み出し、有益な洞察や着想を与える一方で、理想化された無制約の推論は意味内容を厳密に保存することを証明します。さらに、ハルシネーションと想像が、真実性、意味情報保存、関連知識の開示、知識制約下での最適性からの逸脱に根ざした、数学的に同一の現象であることを示すことで、高度なAIシステムにおいてこれらの振る舞いを管理するための原理的な基盤を提示します。最後に、提案理論の評価と改善につながるいくつかの仮説的なアイデアを提示します。
> This paper establishes a fundamental impossibility theorem: no LLM capable of performing non-trivial knowledge aggregation can simultaneously achieve truthful knowledge representation, semantic information conservation, complete revelation of relevant knowledge, and knowledge-constrained optimality. The impossibility is not an engineering limitation but arises from the mathematical structure of information aggregation itself. We establish this result by describing the inference process as an auction of ideas, where distributed components compete exploiting their partial knowledge to shape responses. The proof spans three independent mathematical domains: mechanism design theory (Green-Laffont), the theory of proper scoring rules (Savage), and direct architectural analysis of transformers (Log-Sum-Exp convexity). In particular, we show how to quantify the creation of overconfident or intuitive responses-the signature of both hallucination and creativity, or imagination. To support this analysis, we introduce the complementary concepts of the semantic information measure and the emergence operator to model bounded reasoning in a general setting. We prove that while bounded reasoning generates accessible information, providing valuable insights and inspirations, the idealized unconstrained reasoning strictly preserves semantic content. By demonstrating that hallucination and imagination are mathematically identical phenomena-grounded in departures from truthfulness, semantic information conservation, revelation of relevant knowledge, and knowledge-constrained optimality-we offer a principled foundation for managing these behaviors in advanced AI systems. Finally, we present some speculative ideas to inspire evaluation and refinements of the proposed theory.

論文リンク

https://arxiv.org/abs/2506.06382

幻想的な事前学習オプティマイザとその見つけ方 / Fantastic Pretraining Optimizers and Where to Find Them

論文紹介

事前学習オプティマイザは大規模言語モデルの訓練で重要な役割を果たしており、特にAdamWは長年にわたって標準として定着してきました。しかし近年の研究では、代替オプティマイザが1.4倍から2倍の高速化を主張している一方で、こうした主張が実際には誇張されていることも示されています。本研究では、こうした主張を支える2つの主要な問題点を指摘します。第一に、ハイパーパラメータ調整が不均衡に行われる可能性があること、第二に、評価設定が限定的であったり誤解を招いたりする可能性があることです。これを解決するために、著者らは10種類のディープラーニングオプティマイザを、さまざまなモデルスケールとデータ・モデル比率にわたって体系的に比較しました。

研究の中核となる方法論は、ハイパーパラメータ調整フレームワークを3つの段階に分けて説明することです。第1段階では、各オプティマイザのハイパーパラメータを細かく調整して最適な性能を引き出します。第2段階では、メモリ要件を減らすために、ハイパーパラメータ調整が必要な部分だけを選んで最適化します。最後に第3段階では、モデルサイズとデータ予算に応じてハイパーパラメータの最適値を予測するスケーリング則を適用します。この方法論により、オプティマイザ間の公平で再現可能な比較が保証され、研究結果は、行列ベースのオプティマイザがスカラーベースのオプティマイザよりも一貫して優れた性能を示すことを強調しています。

この研究は、ハイパーパラメータ調整の重要性と、さまざまなモデルスケールおよびデータ・モデル比率での評価の必要性を強調するとともに、あるオプティマイザにとって最適なハイパーパラメータが、別のオプティマイザにとっては非最適であり得ることを示しています。こうした発見は、今後のオプティマイザ設計と評価の基準を定めるうえで重要な貢献となるでしょう。

論文要旨(Abstract)

AdamWは、多くの代替オプティマイザが1.4倍から2倍の高速化を実現すると主張しているにもかかわらず、言語モデルの事前学習において長らく支配的なオプティマイザの地位を保ってきました。私たちは、公正な比較を妨げ、実運用での採用を阻害してきた方法論上の欠点が2つあると主張します: (i) 不均衡なハイパーパラメータ調整、(ii) 限定的または誤解を招く評価設定です。この2つの問題に対処するため、私たちは4つのモデル規模（0.1B〜1.2Bパラメータ）とデータ対モデル比（Chinchilla最適値の1〜8倍）にわたって、10種類のディープラーニング用オプティマイザを体系的に調査しました。その結果、公正で有益な比較には、厳密なハイパーパラメータ調整と、さまざまなモデル規模およびデータ対モデル比にまたがる評価が必要であり、それらは学習終了時点で実施されるべきだと分かりました。第一に、あるオプティマイザに最適なハイパーパラメータが別のオプティマイザでは非最適である場合があり、盲目的なハイパーパラメータ転用は公正ではありません。第二に、多くの提案オプティマイザが適切にチューニングされたベースラインに対して示す実際の高速化は主張より低く、モデルサイズが大きくなるにつれて1.2Bパラメータモデルではわずか1.1倍にまで低下します。第三に、目標学習予算に到達する前の中間チェックポイントを比較することは誤解を招く可能性があり、学習率減衰の影響で、2つのオプティマイザの順位が学習中に逆転することがあります。徹底的な調査の結果、MuonやSoapのような最速クラスのオプティマイザはいずれも、勾配に対して要素ごとのスカラーではなく行列を掛ける前処理器として行列を用いていることが分かりました。しかし、行列ベースのオプティマイザの高速化率はモデル規模に反比例し、0.1BパラメータモデルではAdamW比で1.4倍だったものが、1.2Bパラメータモデルではわずか1.1倍に低下します。
> AdamW has long been the dominant optimizer in language model pretraining, despite numerous claims that alternative optimizers offer 1.4 to 2x speedup. We posit that two methodological shortcomings have obscured fair comparisons and hindered practical adoption: (i) unequal hyperparameter tuning and (ii) limited or misleading evaluation setups. To address these two issues, we conduct a systematic study of ten deep learning optimizers across four model scales (0.1B-1.2B parameters) and data-to-model ratios (1-8x the Chinchilla optimum). We find that fair and informative comparisons require rigorous hyperparameter tuning and evaluations across a range of model scales and data-to-model ratios, performed at the end of training. First, optimal hyperparameters for one optimizer may be suboptimal for another, making blind hyperparameter transfer unfair. Second, the actual speedup of many proposed optimizers over well-tuned baselines is lower than claimed and decreases with model size to only 1.1x for 1.2B parameter models. Thirdly, comparing intermediate checkpoints before reaching the target training budgets can be misleading, as rankings between two optimizers can flip during training due to learning rate decay. Through our thorough investigation, we find that all the fastest optimizers such as Muon and Soap, use matrices as preconditioners -- multiplying gradients with matrices rather than entry-wise scalars. However, the speedup of matrix-based optimizers is inversely proportional to model scale, decreasing from 1.4x over AdamW for 0.1B parameter models to merely 1.1x for 1.2B parameter models.

論文リンク

https://arxiv.org/abs/2509.02046

さらに読む

https://wandb.ai/marin-community/optimizer-scaling

Anemoi: エージェント間通信に基づく半中央集権型マルチエージェントシステムMCPサーバー / Anemoi: A Semi-Centralized Multi-agent Systems Based on Agent-to-Agent Communication MCP server from Coral Protocol

論文紹介

Anemoiは、Coral ProtocolのA2A（Agent-to-Agent）通信モデルに基づく半中央集権型マルチエージェントシステム（Multi-Agent System, MAS）であり、エージェント同士の直接的な協調を通じて効率的なタスク調整を可能にします。従来の中央集権型MASは、計画エージェントが複数の作業エージェントを一方向に調整する方式であり、その結果、プランナーの能力への依存や、限定的なエージェント間通信による情報損失・重複が生じるという問題がありました。Anemoiはこうした問題を解決するために設計されており、すべてのエージェントがリアルタイムで進行状況を監視し、ボトルネックを特定し、改善案を提案できる構造を提供します。

Anemoiの中核は、Coral ProtocolのA2A通信用MCP（Multi-Agent Communication Protocol）サーバーを活用して、エージェント間の円滑な情報フローを支援する点にあります。このシステムは、プランナーエージェントと複数のドメイン特化型作業エージェントを組み合わせ、初期計画を提示しつつ、ワーカーが直接調整できるようにします。これにより、中央集権型プランナーへの依存が低減され、適応的な計画更新が可能になり、重複するコンテキスト受け渡しが最小化されることで、コスト効率の高い実行が実現されます。

AnemoiはGAIAベンチマークで評価され、小型LLM（GPT-4.1-mini）をプランナーとして用いて52.73%の正確度を達成しました。これは、同一設定における最も強力なオープンソースベースラインであるOWLの43.63%を9.09%上回る成果です。こうした結果は、Anemoiの半中央集権型A2A通信モデルが、マルチエージェントシステムの性能向上に寄与しうることを示しています。

この研究は、エージェント間の直接的な協調と情報フローの改善を通じて、マルチエージェントシステムの新たな可能性を切り開くものであり、今後の汎用AIシステムの発展に重要な貢献を果たすと期待されます。Anemoiの実装はGitHubで公開されており、研究者がこのシステムを活用して多様なアプリケーションを開発できる機会を提供します。

論文要旨（Abstract）

最近の汎用マルチエージェントシステム（MAS）の発展は、主にコンテキストエンジニアリングと中央集権型パラダイムに従っており、ここではプランナーエージェントが一方向のプロンプト受け渡しを通じて複数のワーカーエージェントを調整します。強力なプランナーモデルの下では効果的ですが、この設計には2つの重要な限界があります。(1) プランナーの能力への強い依存により、小規模なLLMがプランナーを担う場合に性能が低下すること、(2) エージェント間通信が限定的であるため、協調が高コストなプロンプト連結やコンテキスト注入に依存し、冗長性と情報損失が生じることです。これらの課題に対処するため、私たちはCoral ProtocolのAgent-to-Agent（A2A）通信MCPサーバーを基盤とした半中央集権型MASであるAnemoiを提案します。従来の設計とは異なり、Anemoiは構造化された直接的なエージェント間協調を可能にし、すべてのエージェントが進捗を監視し、結果を評価し、ボトルネックを特定し、リアルタイムで改善案を提案できるようにします。このパラダイムは単一のプランナーへの依存を減らし、適応的な計画更新を支援し、冗長なコンテキスト受け渡しを最小化することで、よりスケーラブルでコスト効率の高い実行を可能にします。GAIAベンチマークで評価した結果、Anemoiは小規模LLM（GPT-4.1-mini）をプランナーとして使用し、52.73%の精度を達成し、同一のLLM設定において最も強力なオープンソースベースラインであるOWL（43.63%）を+9.09%上回りました。実装は https://github.com/Coral-Protocol/Anemoi で公開されています。
> Recent advances in generalist multi-agent systems (MAS) have largely followed a context-engineering plus centralized paradigm, where a planner agent coordinates multiple worker agents through unidirectional prompt passing. While effective under strong planner models, this design suffers from two critical limitations: (1) strong dependency on the planner's capability, which leads to degraded performance when a smaller LLM powers the planner; and (2) limited inter-agent communication, where collaboration relies on costly prompt concatenation and context injection, introducing redundancy and information loss. To address these challenges, we propose Anemoi, a semi-centralized MAS built on the Agent-to-Agent (A2A) communication MCP server from Coral Protocol. Unlike traditional designs, Anemoi enables structured and direct inter-agent collaboration, allowing all agents to monitor progress, assess results, identify bottlenecks, and propose refinements in real time. This paradigm reduces reliance on a single planner, supports adaptive plan updates, and minimizes redundant context passing, resulting in more scalable and cost-efficient execution. Evaluated on the GAIA benchmark, Anemoi achieved 52.73% accuracy with a small LLM (GPT-4.1-mini) as the planner, surpassing the strongest open-source baseline OWL (43.63%) by +9.09% under identical LLM settings. Our implementation is publicly available at https://github.com/Coral-Protocol/Anemoi.

論文リンク

https://arxiv.org/abs/2508.17068

さらに読む

https://github.com/Coral-Protocol/Anemoi

通信効率的なLLM事前学習のためのSparseLoCo / Communication Efficient LLM Pre-training with SparseLoCo

論文紹介

大規模言語モデル（LLM）の事前学習過程において通信効率を高めることは、非常に重要な研究テーマです。近年の分散学習アルゴリズムは、データセンター間またはインターネット経由の帯域幅制約環境でLLMを学習させるのに有用であることから、大きな関心を集めています。しかし、既存の手法は依然としてモデルの勾配全体を送信する必要があり、その結果、通信ボトルネックが発生して性能低下を招く可能性があります。こうした問題を解決するために提案されたSparseLoCoは、通信効率的な学習アルゴリズムであり、Top-kスパース化と2ビット量子化を活用して極端な圧縮率を達成しながら性能も向上できる方法を示します。

SparseLoCoの中核的な革新は、外部モメンタムを誤差フィードバックと積極的なスパース化の組み合わせによって近似する点にあります。これにより、モデル性能を向上させると同時に通信コストを削減できます。研究結果は、SparseLoCoがさまざまな通信制約環境において、性能と通信コストの両面で有意な利点を提供することを実証的に示しています。特に、1〜3%のスパース性と2ビット量子化により、従来のDDP（Distributed Data Parallel）方式と比べて通信コストを大幅に削減しつつ、性能を維持または改善する結果が示されました。

この研究は、LLMの事前学習における通信効率を高める新たな方法を提示しており、今後さらに多くの実験と最適化を通じてSparseLoCoの発展可能性を示しています。SparseLoCoは大規模モデル学習の効率を高めるうえで重要な貢献を果たすことが期待されており、これはLLM研究開発の新たな方向性を示すことにもつながるでしょう。

論文要旨（Abstract）

通信効率の高い分散学習アルゴリズムは、データセンター間やインターネット越しのような帯域幅制約環境における大規模言語モデル（LLM）学習への利点から、近年大きな関心を集めています。これらの手法は通信頻度を減らす一方で、依然としてモデルの勾配の完全なコピー全体を通信する必要があるため、データセンター間リンクでも通信ボトルネックが発生します。さらに、これらの手法は単純なAdamW DDPベースラインと比べて性能がわずかに低下することがあります。量子化と誤差フィードバックは擬似勾配のサイズを減らすためによく適用されますが、LLM事前学習の文脈では、既存のアプローチは疎化を追加で活用できず、量子化も限定的でした。本研究では、Top-k疎化と量子化を効果的に活用し、1〜3%の疎性と2ビット量子化という極端な圧縮率を達成しながら、全精度DiLoCoを上回る性能を発揮するLLM向け通信効率学習アルゴリズム「SparseLoCo」を紹介します。私たちの主要な観察は、外側モメンタムが、攻撃的な疎性と組み合わせた誤差フィードバックによって局所的に近似可能であり、疎な集約が実際にモデル性能を向上させ得るという点です。私たちは、さまざまな通信制約下のLLM学習環境において、SparseLoCoが性能と通信コストの両面で大きな利点をもたらすことを実証的に示します。
> Communication-efficient distributed training algorithms have received considerable interest recently due to their benefits for training Large Language Models (LLMs) in bandwidth-constrained settings, such as across data centers and over the internet. Despite reducing communication frequency, these methods still typically require communicating a full copy of the model's gradients-resulting in a communication bottleneck even for cross-datacenter links. Furthermore, they can slightly degrade performance compared to a naive AdamW DDP baseline. While quantization and error feedback are often applied to reduce the pseudo-gradient's size, in the context of LLM pre-training, existing approaches have been unable to additionally leverage sparsification and have obtained limited quantization. In this work, we introduce SparseLoCo, a communication-efficient training algorithm for LLMs that effectively leverages Top-k sparsification and quantization to reach extreme compression ratios of up to 1-3% sparsity and 2-bit quantization while outperforming full-precision DiLoCo. Our key observations are that outer momentum can be locally approximated by an error feedback combined with aggressive sparsity and that sparse aggregation can actually improve model performance. We empirically demonstrate in a range of communication-constrained LLM training settings that SparseLoCo provides significant benefits in both performance and communication cost.

論文リンク

https://arxiv.org/abs/2508.15706

予算制約下での適応型LLMルーティング / Adaptive LLM Routing under Budget Constraints

論文紹介

大規模言語モデル（LLM）の発展は自然言語処理分野に革新をもたらしましたが、これらのモデルの高コストと、多様なクエリタイプに適切に対応することは、依然として課題として残っています。本研究では、LLMルーティング問題をコンテキスト付きバンディット問題として再構成し、予算制約の下で最適なLLMを選択する新しいアルゴリズム「Preference-prior Informed LinUCB for Adaptive Routing（PILOT）」を提案します。既存の教師あり学習アプローチには大規模なラベル付きデータセットを必要とするという限界があり、本研究ではこの限界を克服するため、ユーザーフィードバックを通じてLLMの選択を動的に調整する方法論を開発しました。

PILOTは2つの主要な段階で構成されます。第1段階では、オフラインの人間の選好データを活用して、クエリとLLM間の親和性を反映する共有埋め込み空間を構築します。この過程ではtriplet lossを最小化することで、クエリとLLMの関係を効果的に学習します。第2段階では、オンラインのバンディットフィードバックを統合し、各クエリに対して適切なLLMを選択し、その報酬を観測することで性能を継続的に改善します。このアプローチにより、予算を考慮した柔軟なリソース割り当てが可能になり、多様なユーザー要件に適応できる能力を備えています。

本研究の主な貢献は、予算制約を考慮したLLMルーティング問題の定式化と、それを解決するためのPILOTアルゴリズムの提案です。実験結果では、PILOTはさまざまなデータセットで既存のバンディットベースラインより優れた性能を示し、コスト効率の最大化に成功しました。これらの研究成果は、LLMの実用的な展開と活用において重要な貢献をなすものであり、今後の研究方向として、多様なユーザー要件に対する適応力の向上と、より多くのデータセットへの適用可能性が提案されています。

論文要旨（Abstract）

大規模言語モデル（LLM）は自然言語処理に革命をもたらしましたが、その多様な能力とコストは実運用において課題となります。LLMルーティングは、各クエリ/タスクに最も適したLLMを動的に選択することでこれに対処します。従来のアプローチは、最適なクエリ-LLM組み合わせに関する完全な知識を前提とし、これを教師あり学習問題として扱ってきました。しかし、現実のシナリオではこのような包括的なマッピングが存在せず、変化し続けるユーザークエリにも直面します。そこで私たちは、LLMルーティングを文脈付きバンディット問題として研究することを提案します。これは教師ありルーティングとは異なり、すべてのクエリについてすべてのLLMに対する網羅的な推論を必要とせず、バンディットフィードバックを用いた適応的な意思決定を可能にします。この問題に対処するため、クエリとLLMの親和性を反映するよう整列されたクエリ埋め込みとLLM埋め込みのための共有埋め込み空間を開発します。この空間はまずオフラインの人間選好データから学習され、その後オンラインのバンディットフィードバックによって改善されます。私たちはこのアイデアを、適応的ルーティングのための Preference-prior Informed Linucb fOr adaptive rouTing（PILOT）と呼ばれる、LinUCBの新しい拡張によって具体化します。さらに、モデルルーティングにおける多様なユーザー予算に対応するため、多肢選択ナップサック問題としてモデル化されたオンラインコスト方策を導入し、資源効率の高いルーティングを実現します。
> Large Language Models (LLMs) have revolutionized natural language processing, but their varying capabilities and costs pose challenges in practical applications. LLM routing addresses this by dynamically selecting the most suitable LLM for each query/task. Previous approaches treat this as a supervised learning problem, assuming complete knowledge of optimal query-LLM pairings. However, real-world scenarios lack such comprehensive mappings and face evolving user queries. We thus propose to study LLM routing as a contextual bandit problem, enabling adaptive decision-making using bandit feedback without requiring exhaustive inference across all LLMs for all queries (in contrast to supervised routing). To address this problem, we develop a shared embedding space for queries and LLMs, where query and LLM embeddings are aligned to reflect their affinity. This space is initially learned from offline human preference data and refined through online bandit feedback. We instantiate this idea through Preference-prior Informed Linucb fOr adaptive rouTing (PILOT), a novel extension of LinUCB. To handle diverse user budgets for model routing, we introduce an online cost policy modeled as a multi-choice knapsack problem, ensuring resource-efficient routing.

論文リンク

https://arxiv.org/abs/2508.21141

テキスト画像拡散における計算再利用による画像セットの効率的生成 / Reusing Computation in Text-to-Image Diffusion for Efficient Generation of Image Sets

論文紹介

テキスト画像拡散モデルは高品質な画像生成に非常に効果的ですが、その過程で発生する高い計算コストが大きな課題となっています。既存研究は主に個別画像生成時の効率向上に注力してきましたが、本研究は相関のあるプロンプト間の重複を削減する新たなアプローチを提案します。提案手法は、拡散モデルの粗から精への性質を活用し、初期のノイズ除去段階で類似プロンプト間の共有構造を捉えます。

この研究では、学習不要のアプローチによって意味的類似性に基づいてプロンプトをクラスタリングし、初期拡散段階で計算を共有する戦略を採用します。実験の結果、画像埋め込みに条件付けされたモデルにおいて、この手法が画像品質を維持または改善しつつ、計算コストを少なくとも50%削減できることが示されました。さらに、UnClipのテキスト画像事前情報を活用して拡散ステップの割り当てを最適化することで、効率を一段と高めました。

提案手法は既存のテキスト画像生成パイプラインにシームレスに統合でき、大規模なプロンプトセットにもスケール可能であり、環境的・財政的負担の軽減に貢献できます。本研究は拡散モデルの生成ダイナミクスに関する重要な洞察を提供し、今後の持続可能な最適化戦略を探るうえで重要な基礎資料となることが期待されます。

論文要旨(Abstract)

テキスト画像拡散モデルは高品質な画像生成を可能にする一方、計算コストが高いという課題があります。従来研究が推論ごとの効率最適化に注力してきたのに対し、私たちは相関のあるプロンプト間の冗長性を減らす直交的なアプローチを探求します。私たちの手法は、拡散モデルの粗密的な性質を活用し、初期のノイズ除去ステップで類似プロンプト間の共有構造を捉えます。意味的類似性に基づいてプロンプトをクラスタリングし、初期拡散ステップで計算を共有する学習不要のアプローチを提案します。実験では、画像埋め込みに条件付けて学習されたモデルに対して、本手法が画像品質を向上させつつ計算コストを大幅に削減することを示します。UnClipのテキスト画像事前情報を活用することで、さらなる効率向上のために拡散ステップ割り当てを改善します。本手法は既存パイプラインにシームレスに統合でき、プロンプト集合に応じてスケールし、大規模なテキスト画像生成に伴う環境的・財政的負担を軽減します。プロジェクトページ: https://ddecatur.github.io/hierarchical-diffusion/
> Text-to-image diffusion models enable high-quality image generation but are computationally expensive. While prior work optimizes per-inference efficiency, we explore an orthogonal approach: reducing redundancy across correlated prompts. Our method leverages the coarse-to-fine nature of diffusion models, where early denoising steps capture shared structures among similar prompts. We propose a training-free approach that clusters prompts based on semantic similarity and shares computation in early diffusion steps. Experiments show that for models trained conditioned on image embeddings, our approach significantly reduces compute cost while improving image quality. By leveraging UnClip's text-to-image prior, we enhance diffusion step allocation for greater efficiency. Our method seamlessly integrates with existing pipelines, scales with prompt sets, and reduces the environmental and financial burden of large-scale text-to-image generation. Project page: https://ddecatur.github.io/hierarchical-diffusion/

論文リンク

https://arxiv.org/abs/2508.21032

続きを読む

https://ddecatur.github.io/hierarchical-diffusion/

アテンションは平滑化された三次スプラインである / Attention is a smoothed cubic spline

論文紹介

トランスフォーマーアーキテクチャにおいて、アテンションモジュールはその重要性にもかかわらず、なお多くの部分が未解明の領域として残されています。本研究は、このアテンションモジュールを滑らかなキュービックスプラインとして解釈することで、古典的近似理論の観点から新たな洞察を提示します。著者らは、ReLU活性化関数を用いることで、アテンション、マスクドアテンション、エンコーダー-デコーダーアテンションのすべてがキュービックスプラインとして表現できることを示しました。このアプローチは、トランスフォーマーのすべての構成要素が、さまざまなアテンションモジュールとフィードフォワードニューラルネットワークの組み合わせから成り立っているという点で重要な意味を持ちます。

研究では、Pierce-Birkhoff予想に基づき、すべてのスプラインがReLU活性化されたエンコーダーで表現できることを強調しています。これにより、アテンションモジュールの数学的本質を明確にし、キュービックスプラインを通じてトランスフォーマーの構造的理解を深めます。また、滑らかな $C^\infty$ 版を得るためにReLUをSoftMaxのような滑らかな活性化関数に置き換えた場合、既存のトランスフォーマーモデルを回復できることも示しています。

この研究は、アテンションメカニズムに対する数学的解釈を通じて既存の機械学習モデルへの理解を深めるとともに、トランスフォーマーアーキテクチャの本質をスプラインというよく知られた数学的対象で説明します。実験結果では、提案されたキュービックスプラインモデルが既存モデルより優れた性能を示し、アテンションモジュールの数学的解釈が実際の性能にも好影響を与えることが実証されました。これらの発見は、今後のアテンションメカニズムの発展に寄与すると期待されます。本研究は、トランスフォーマーのアテンションモジュールを新たな視点から捉え直させるものであり、関連分野の研究者にとって重要な基礎資料となるでしょう。

論文要旨(Abstract)

私たちは、おそらく重要でありながらこれまで観察されてこなかった洞察を強調する。すなわち、トランスフォーマー(transformer)におけるアテンションモジュールは平滑化された三次スプラインである。このように捉えることで、トランスフォーマーのこの不可解でありながら重要な構成要素は、古典的近似理論に深く根ざした古い概念の自然な発展となる。より正確には、ReLU活性化のもとで、アテンション、マスクドアテンション、エンコーダー-デコーダーアテンションはいずれも三次スプラインであることを示す。トランスフォーマーのすべての構成要素は、さまざまなアテンションモジュール（= 三次スプライン）とフィードフォワードニューラルネットワーク（= 線形スプライン）の合成によって構成されているため、そのすべての構成要素――エンコーダー、デコーダー、エンコーダー-デコーダーブロック、多層エンコーダーとデコーダー、そしてトランスフォーマー自体――は三次またはそれ以上の高次スプラインである。Pierce-Birkhoff予想を仮定すれば、逆もまた成り立つ。すなわち、すべてのスプラインはReLU活性化されたエンコーダーである。スプラインは一般に $C^2$ にすぎないため、平滑な $C^\infty$ 版を得る一つの方法は、ReLUを滑らかな活性化関数に置き換えることである。そして、この活性化としてSoftMaxを選べば、Vaswaniらが提案した元のトランスフォーマーを回復できる。この洞察は、トランスフォーマーの本質を、応用数学で最もよく知られ、徹底的に理解されている対象の一つであるスプラインという観点から全面的に記述することで、その性質を明らかにする。
> We highlight a perhaps important but hitherto unobserved insight: The attention module in a transformer is a smoothed cubic spline. Viewed in this manner, this mysterious but critical component of a transformer becomes a natural development of an old notion deeply entrenched in classical approximation theory. More precisely, we show that with ReLU-activation, attention, masked attention, encoder-decoder attention are all cubic splines. As every component in a transformer is constructed out of compositions of various attention modules (= cubic splines) and feed forward neural networks (= linear splines), all its components -- encoder, decoder, and encoder-decoder blocks; multilayered encoders and decoders; the transformer itself -- are cubic or higher-order splines. If we assume the Pierce-Birkhoff conjecture, then the converse also holds, i.e., every spline is a ReLU-activated encoder. Since a spline is generally just $C^2$, one way to obtain a smoothed $C^\infty$-version is by replacing ReLU with a smooth activation; and if this activation is chosen to be SoftMax, we recover the original transformer as proposed by Vaswani et al. This insight sheds light on the nature of the transformer by casting it entirely in terms of splines, one of the best known and thoroughly understood objects in applied mathematics.

論文リンク

https://arxiv.org/abs/2408.09624

$Mem^p$: エージェントの手続き的記憶の探究 / $Mem^p$: Exploring Agent Procedural Memory

論文紹介

大規模言語モデル（LLM）ベースのエージェントは多様なタスクで優れた性能を発揮しますが、既存の手続き的記憶は手動で設計されるか静的パラメータに依存しており、脆弱な特性を示します。本研究では、エージェントに学習可能で更新可能な生涯手続き的記憶を付与するための革新的な方法論 $Mem^p$ を提案します。$Mem^p$ は、過去のエージェント軌跡を細粒度のステップごとの指示と高レベルのスクリプトの形に蒸留し、手続き的記憶の構築(Build)、検索(Retrieval)、更新(Update)戦略を探究します。

$Mem^p$ の中核は、動的レジームを通じて手続き的記憶を継続的に更新、修正、破棄することにあります。これにより、エージェントは新たな経験に応じて記憶ストアを発展させることができ、実証評価の結果、TravelPlanner と ALFWorld においてエージェントの成功率と効率が段階的に向上することが確認されました。特に、より強力なモデルで構築された手続き的記憶はその価値を維持し、それをより弱いモデルへ移転した場合でも性能が大幅に改善されることが示されました。

手続き的記憶の検索過程は、エージェントが新しいタスクに対して最も類似した経験を効果的に見つけ出すうえで不可欠です。この過程は、ベクトル埋め込みモデルを活用して類似性を測定し、最も適切な記憶を検索する方式で実装されます。また、手続き的記憶の更新メカニズムは、エージェントが実行したタスク数の増加に伴って動的に追加、削除、修正できるよう設計されています。こうした包括的なアプローチは、エージェントの学習能力を最大化し、多様な環境でのタスク遂行能力を向上させることに寄与します。

$Mem^p$ はエージェントの手続き的記憶を継続的に改善することで、今後のエージェントシステム開発に重要な示唆を与え、学習可能な手続き的記憶の重要性を強調します。これらの研究成果は、エージェントの性能を最大化するうえで革新的な貢献となることが期待されます。

論文要旨(Abstract)

大規模言語モデル（LLM）を基盤とするエージェントは多様なタスクで優れた性能を発揮しますが、手動で設計されたり静的なパラメータに絡みついたりした脆弱な手続き記憶に悩まされています。本研究では、エージェントに学習可能で更新可能、かつ生涯にわたって利用できる手続き記憶を与えるための戦略を調査します。私たちは、過去のエージェント軌跡を細かなステップごとの指示と高次のスクリプトのような抽象化の両方へ蒸留する $Mem^p$ を提案し、手続き記憶の構築（Build）、検索（Retrieval）、更新（Update）に関するさまざまな戦略の影響を探ります。継続的に内容を更新・修正・廃棄する動的な枠組みと組み合わせることで、このリポジトリは新たな経験と歩調を合わせて進化します。TravelPlanner と ALFWorld での実証評価の結果、記憶リポジトリが洗練されるにつれて、エージェントは類似タスクにおいて着実に高い成功率とより大きな効率を達成することが示されました。さらに、より強力なモデルから構築された手続き記憶はその価値を維持し、手続き記憶をより弱いモデルへ移行すると大幅な性能向上が得られます。
> Large Language Models (LLMs) based agents excel at diverse tasks, yet they suffer from brittle procedural memory that is manually engineered or entangled in static parameters. In this work, we investigate strategies to endow agents with a learnable, updatable, and lifelong procedural memory. We propose $Mem^p$ that distills past agent trajectories into both fine-grained, step-by-step instructions and higher-level, script-like abstractions, and explore the impact of different strategies for Build, Retrieval, and Update of procedural memory. Coupled with a dynamic regimen that continuously updates, corrects, and deprecates its contents, this repository evolves in lockstep with new experience. Empirical evaluation on TravelPlanner and ALFWorld shows that as the memory repository is refined, agents achieve steadily higher success rates and greater efficiency on analogous tasks. Moreover, procedural memory built from a stronger model retains its value: migrating the procedural memory to a weaker model yields substantial performance gains.

論文リンク

https://arxiv.org/abs/2508.06433

モデルアーキテクチャ発見のためのAlphaGo Moment / AlphaGo Moment for Model Architecture Discovery

論文紹介

ASI-Arch は、ニューラルネットワーク構造探索の分野で完全自律的に革新的なアーキテクチャを発見する人工超知能（ASI4AI）システムです。既存の、人間が定義した探索空間に限定されるニューラルアーキテクチャ探索（NAS）を超え、自動最適化から自動イノベーションへとパラダイムを転換し、新しい構造概念の仮説立案、実装、学習、検証までを独立して実行します。20,000 GPU時間にわたる1,773回の実験を通じて、106個の最先端線形アテンション（linear attention）アーキテクチャを発見し、これは人間設計のベースラインを上回る新たな設計原理を提示します。さらに、科学的発見そのものに対する経験的スケーリング則を提示し、研究の進歩を人間の認知的限界を超えて計算資源によって拡張可能なプロセスへと転換できることを実証しました。

論文要旨（Abstract）

AIシステムの能力は指数関数的に向上している一方で、AI研究そのものの速度は人間の認知能力によって線形に制約されており、ますます深刻な開発ボトルネックを引き起こしています。本論文では、ニューラルネットワーク・アーキテクチャ発見という重要分野における、AI研究のための人工超知能（ASI4AI）の初の実証として ASI-Arch を提案します。ASI-Arch は、AI 自身がアーキテクチャ革新を行えるようにすることで、この根本的な制約を打ち破る完全自律システムです。人間が定義した探索空間に限定される従来の Neural Architecture Search（NAS）を超え、自動最適化から自動革新へのパラダイムシフトを導入します。ASI-Arch はアーキテクチャ発見の領域でエンドツーエンドの科学研究を実行し、新しいアーキテクチャ概念を自律的に仮説化し、それを実行可能なコードとして実装し、厳密な実験と過去の経験を通じて学習と性能を実証的に検証します。ASI-Arch は 20,000 GPU時間にわたり 1,773 回の自律実験を実施し、その結果、106 個の革新的で最先端（SOTA）の線形アテンション（linear attention）アーキテクチャを発見しました。人間のプレイヤーには見えなかった予想外の戦略的洞察を示した AlphaGo の 37手目（Move 37）のように、本 AI が発見したアーキテクチャは、人間設計のベースラインを体系的に上回る創発的な設計原理を示し、アーキテクチャ革新のためのこれまで知られていなかった道筋を明らかにします。特に、私たちは科学的発見そのものに関する初の経験的スケーリング則を確立し、アーキテクチャのブレークスルーが計算によってスケール可能であることを示すことで、研究の進歩を人間の限界に縛られたものから、計算によって拡張可能なプロセスへと転換しました。本論文は、こうしたブレークスルーを可能にした創発的設計パターンと自律研究能力について包括的な分析を提供し、自己加速型 AI システムの青写真を示します。
> While AI systems demonstrate exponentially improving capabilities, the pace of AI research itself remains linearly bounded by human cognitive capacity, creating an increasingly severe development bottleneck. We present ASI-Arch, the first demonstration of Artificial Superintelligence for AI research (ASI4AI) in the critical domain of neural architecture discovery--a fully autonomous system that shatters this fundamental constraint by enabling AI to conduct its own architectural innovation. Moving beyond traditional Neural Architecture Search (NAS), which is fundamentally limited to exploring human-defined spaces, we introduce a paradigm shift from automated optimization to automated innovation. ASI-Arch can conduct end-to-end scientific research in the domain of architecture discovery, autonomously hypothesizing novel architectural concepts, implementing them as executable code, training and empirically validating their performance through rigorous experimentation and past experience. ASI-Arch conducted 1,773 autonomous experiments over 20,000 GPU hours, culminating in the discovery of 106 innovative, state-of-the-art (SOTA) linear attention architectures. Like AlphaGo's Move 37 that revealed unexpected strategic insights invisible to human players, our AI-discovered architectures demonstrate emergent design principles that systematically surpass human-designed baselines and illuminate previously unknown pathways for architectural innovation. Crucially, we establish the first empirical scaling law for scientific discovery itself--demonstrating that architectural breakthroughs can be scaled computationally, transforming research progress from a human-limited to a computation-scalable process. We provide comprehensive analysis of the emergent design patterns and autonomous research capabilities that enabled these breakthroughs, establishing a blueprint for self-accelerating AI systems.

論文リンク

https://arxiv.org/abs/2507.18074

教師なし学習による言語モデル能力の引き出し / Unsupervised Elicitation of Language Models

論文紹介

事前学習済みの言語モデルを特定のタスク向けに調整する際、従来の方法では人間の監督が必要ですが、超人的な能力を持つモデルでは高品質な人間の監督が困難、あるいは不可能になる場合があります。これを解決するために、外部からの監督なしに、モデルが自ら生成したラベルを活用してファインチューニングする教師なし学習アルゴリズム Internal Coherence Maximization（ICM）を提案します。ICM は複数のベンチマークで、人間の監督に基づく学習と同等またはそれ以上の性能を示し、特に超人的な能力を要するタスクでは、人間ラベルによる学習を上回る結果を示します。さらに、この手法を用いて最先端の言語モデルの報酬モデルと補助システムを訓練し、人間監督モデルと比べた性能向上を実証しました。

論文要旨（Abstract）

事前学習済み言語モデルを下流タスクに適応させるために、現在の事後学習（post-training）パラダイムは、人間が望ましい振る舞いを明示することに依存しています。しかし、超人的（superhuman）な能力を持つモデルでは、高品質な人間の監督を得ることは困難、あるいは不可能です。この課題に対処するため、私たちは外部監督なしに（pretrained language models on their own generated labels, \emph{without external supervision}）事前学習済み言語モデルを自ら生成したラベルでファインチューニングする、新しい教師なし学習アルゴリズムである内部整合性最大化（Internal Coherence Maximization, ICM）を提案します。GSM8k-verification、TruthfulQA、Alpacaの報酬モデリング課題において、本手法は正解監督（golden supervision）で学習した性能に匹敵し、クラウドソーシングされた人間の監督で学習した場合を上回る性能を示します。LLMの能力が著しく超人的なタスクでは、本手法は人間ラベルで学習するよりも、その能力をはるかに効果的に引き出すことができます。最後に、本手法が最先端LLMの学習を改善できることを示します。本手法を用いて教師なし報酬モデルを学習し、強化学習によってClaude 3.5 Haikuベースのアシスタントを学習させました。この報酬モデルとアシスタントはいずれも、人間の監督による対応モデルを上回る性能を示します。
> To steer pretrained language models for downstream tasks, today's post-training paradigm relies on humans to specify desired behaviors. However, for models with superhuman capabilities, it is difficult or impossible to get high-quality human supervision. To address this challenge, we introduce a new unsupervised algorithm, Internal Coherence Maximization (ICM), to fine-tune pretrained language models on their own generated labels, \emph{without external supervision}. On GSM8k-verification, TruthfulQA, and Alpaca reward modeling tasks, our method matches the performance of training on golden supervision and outperforms training on crowdsourced human supervision. On tasks where LMs' capabilities are strongly superhuman, our method can elicit those capabilities significantly better than training on human labels. Finally, we show that our method can improve the training of frontier LMs: we use our method to train an unsupervised reward model and use reinforcement learning to train a Claude 3.5 Haiku-based assistant. Both the reward model and the assistant outperform their human-supervised counterparts.

論文リンク

https://arxiv.org/abs/2506.10139

この記事はGPTモデルで整理した内容をもとにしているため、原文の内容や意図とは異なる形で要約されている可能性があります。関心のある内容であれば、ぜひ原文もあわせてご参照ください。お読みいただく中で不自然な点や誤りを見つけた場合は、コメントでお知らせいただけますと幸いです。🤗
⚠️広告⚠️ 🔥PyTorch韓国ユーザーコミュニティ🇰🇷がまとめたこの記事は役に立ちましたか？会員登録していただくと、主要な記事をメール💌でお届けします！（基本はWeeklyですが、Dailyへの変更も可能です。）

[2025/09/01 ~ 07] 今週注目のAI/ML論文まとめ