5 ポイント 投稿者 ninebow 2025-09-17 | まだコメントはありません。 | WhatsAppで共有

[2025/09/08 ~ 14] 今週注目のAI/ML論文まとめ

PyTorchKR🔥🇰🇷 🤔💭

1️⃣ 言語モデルのハルシネーション現象: 近年の研究では、大規模言語モデルが不確実なときに推測によってもっともらしいが不正確な記述を生成する「ハルシネーション」現象を示すことが強調されています。これは、学習および評価手続きにおいて不確実性を認めるよりも推測を報いる傾向があるためであり、このようなハルシネーションを解決するために既存ベンチマークのスコアリング体系を修正すべきだと主張しています。

2️⃣ 意味論的構造の理解: 大規模言語モデルの埋め込み行列において、意味論的な関連性がどのように構造化されているかを分析する研究が増えています。これらの研究は、人間の意味評価に類似した低次元構造を発見し、単語の意味方向に沿った射影が人間の評価と高い相関を示す点を強調しています。これは、言語モデルが人間の言語に似た方法で意味情報を処理していることを示唆しています。

3️⃣ 強化学習による高度な推論能力の向上: 強化学習(RL)を活用して大規模言語モデルの複雑な推論能力を向上させようとする研究が活発に進められています。特に、RLアルゴリズムの効率を高めるために深さと幅を調整する方法が提案されており、これはモデルが高度な戦略的計画を探索し習得するうえで重要な役割を果たすことが明らかになっています。こうしたアプローチは、RLVR(検証可能な報酬強化学習)のような新しいパラダイムを通じて進められています。


言語モデルがハルシネーションを起こす理由 / Why Language Models Hallucinate (feat. OpenAI)

論文紹介

大規模言語モデルは、不確実な状況で正解を推測する傾向があり、その結果、もっともらしいが誤った情報を生成する「ハルシネーション」現象が発生する。このハルシネーションは最新モデルでも依然として問題であり、信頼性を損なう主要な原因として作用している。本研究は、言語モデルがハルシネーションを起こす理由を、学習および評価手続きが不確実性を認めるよりも推測を報いる仕組みに求めている。特に、ハルシネーションは二値分類における誤りに由来し、誤った記述が事実と区別できない場合、自然な統計的圧力によって生じると説明する。

事前学習の段階で、言語モデルは大規模なテキストデータから言語の分布を学習し、その過程で誤りが発生しうる。こうした誤りは、不確実な応答を罰する評価方式によって継続的に強化される。研究陣は、言語モデルが試験で良い成績を取るために不確実性を避けて推測する傾向があると指摘し、この傾向こそがハルシネーションを持続させる原因だと主張する。

OpenAIが公開した本論文は、ハルシネーションの統計的原因を解明し、事前学習における起源と事後学習における持続性を分析する。また、既存の評価方式を修正することが、ハルシネーション現象を緩和する有効な方法になりうると提案している。こうしたアプローチは言語モデルの信頼性を高め、ひいては信頼できる人工知能システムへ進む道を示す。本研究の結果は、言語モデルのハルシネーション現象を理解し改善するための重要な基礎資料として活用できる。

論文要旨(Abstract)

難しい試験問題に直面した学生と同じように、大規模言語モデルは不確実なときに不確実性を認める代わりに推測を行い、もっともらしいが誤った記述を生成します。このような「ハルシネーション」は最先端のシステムでも持続しており、信頼を損ないます。私たちは、言語モデルがハルシネーションを起こす理由は、学習および評価手続きが不確実性を認めることよりも推測を報いるためだと主張し、現代の学習パイプラインにおけるハルシネーションの統計的原因を分析します。ハルシネーションは神秘的なものではありません。これは単に二値分類で生じる誤りに由来します。誤った記述が事実と区別できないなら、事前学習済み言語モデルにおけるハルシネーションは自然な統計的圧力によって生じるでしょう。さらに私たちは、ハルシネーションが持続するのは、大半の評価が採点される方法に原因があると主張します。言語モデルは良い試験受験者になるよう最適化されており、不確実なときに推測することは試験成績を向上させます。不確実な応答を罰するこの「蔓延」は、追加のハルシネーション評価を導入するのではなく、ミスアラインメントを抱えながらもリーダーボードを支配している既存ベンチマークの採点方式を修正するという社会技術的な緩和策によってのみ対処できます。この変更により、分野全体をより信頼できるAIシステムへと導けるかもしれません。
> Like students facing hard exam questions, large language models sometimes guess when uncertain, producing plausible yet incorrect statements instead of admitting uncertainty. Such "hallucinations" persist even in state-of-the-art systems and undermine trust. We argue that language models hallucinate because the training and evaluation procedures reward guessing over acknowledging uncertainty, and we analyze the statistical causes of hallucinations in the modern training pipeline. Hallucinations need not be mysterious -- they originate simply as errors in binary classification. If incorrect statements cannot be distinguished from facts, then hallucinations in pretrained language models will arise through natural statistical pressures. We then argue that hallucinations persist due to the way most evaluations are graded -- language models are optimized to be good test-takers, and guessing when uncertain improves test performance. This "epidemic" of penalizing uncertain responses can only be addressed through a socio-technical mitigation: modifying the scoring of existing benchmarks that are misaligned but dominate leaderboards, rather than introducing additional hallucination evaluations. This change may steer the field toward more trustworthy AI systems.

論文リンク

https://arxiv.org/abs/2509.04664


大規模言語モデル埋め込みの意味構造 / Semantic Structure in Large Language Model Embeddings

論文紹介

大規模言語モデル(LLM)の埋め込み構造は、人間の言語認知に類似した方法で意味情報を表現している点で注目に値する。本研究は心理学的発見をもとに、LLMの埋め込み行列における単語間の意味的関連性を分析し、それを通じて人間の単語評価とLLMの内部表現との相関関係を調査した。研究の結果、LLMの埋め込みにおける単語の射影は、評価(良い vs. 悪い)、強さ(強い vs. 弱い)、活動性(能動 vs. 受動)という3つの主要次元へと縮約できることが明らかになった。

この研究では、360個の単語に対するアンケート調査で収集したデータとLLMの埋め込みを比較し、人間の意味的評価とLLMの埋め込みとの相関を定量的に分析した。特に、単語の意味特性方向を抽出し、それに基づく介入によってオフターゲット効果を測定することで、LLMの特性が相互に絡み合っている点を強調した。これらの発見は、LLMの埋め込みが人間言語の複雑性を反映しており、意味情報が比較的低次元であることを示唆している。

さらに本研究は、LLMの内部動作を理解するうえで、個別特性間の関係を測定することの重要性を強調しており、これはAI安全性および機能的調整に好ましい影響を与えうる。こうしたアプローチは、LLMの特性調整(feature steering)の過程で生じうる意図しない結果を避けることにも寄与しうる。本研究は、LLMの意味構造を理解し、それを通じてモデルの挙動をより明確に把握するうえで重要な貢献をしている。

論文要旨(Abstract)

心理学研究では、多様な意味尺度における単語に対する人間の評価が、比較的少ない情報損失で低次元の形に縮約できることが一貫して示されています。私たちは、大規模言語モデル(LLM)の埋め込み行列にエンコードされた意味的関連性も、同様の構造を示すことを見いだしました。反意語のペア(例:親切 - 残酷)によって定義される意味方向への単語の射影は、人間の評価と高い相関を持ち、さらにこれらの射影はLLM埋め込み内の3次元部分空間へと効果的に縮約されることを示します。これは、人間のアンケート回答から導かれたパターンと密接に似ています。さらに、ある意味方向に沿ってトークンを移動させると、幾何学的に整列した特徴に対して、そのコサイン類似度に比例する非目標効果が生じることも分かりました。これらの発見は、LLM内の意味的特徴が、人間の言語において相互接続されているのと同様の形で絡み合っていることを示唆しており、一見複雑に見える多くの意味情報が、驚くほど低次元であることを示しています。さらに、このような意味構造を考慮することは、特徴を制御する際に意図しない結果を避けるうえで不可欠である可能性があります。
> Psychological research consistently finds that human ratings of words across diverse semantic scales can be reduced to a low-dimensional form with relatively little information loss. We find that the semantic associations encoded in the embedding matrices of large language models (LLMs) exhibit a similar structure. We show that the projections of words on semantic directions defined by antonym pairs (e.g. kind - cruel) correlate highly with human ratings, and further find that these projections effectively reduce to a 3-dimensional subspace within LLM embeddings, closely resembling the patterns derived from human survey responses. Moreover, we find that shifting tokens along one semantic direction causes off-target effects on geometrically aligned features proportional to their cosine similarity. These findings suggest that semantic features are entangled within LLMs similarly to how they are interconnected in human language, and a great deal of semantic information, despite its apparent complexity, is surprisingly low-dimensional. Furthermore, accounting for this semantic structure may prove essential for avoiding unintended consequences when steering features.

論文リンク

https://arxiv.org/abs/2508.10003


rStar2-Agent: エージェント型推論技術レポート / rStar2-Agent: Agentic Reasoning Technical Report (feat. Microsoft)

論文紹介

rStar2-Agentは、140億パラメータの数学推論モデルであり、エージェント型強化学習(agentic reinforcement learning)を通じて最先端性能を達成するよう設計されています。このモデルは、既存のLong Chain-of-Thought(Long-CoT)アプローチを超え、複雑な問題解決プロセスにおいて高度な認知的行動を示します。特に、Pythonコーディングツールを使用する際に慎重に思考し、コード実行のフィードバックを反映して、自律的に中間ステップを探索・検証する能力を備えています。こうした革新は、主に3つの要素によって実現されています。

第一に、rStar2-Agentは効率的なRLインフラを通じて信頼性の高いPythonコード環境を構築し、高スループット実行を支援します。このインフラは、限られたGPUリソースでも効果的に学習できるよう設計されており、高いロールアウトコストを緩和します。第二に、GRPO-RoCと呼ばれるエージェント型RLアルゴリズムは、Resample-on-Correctロールアウト戦略を活用してコーディングツール環境のノイズを解消し、モデルがコード環境内でより効果的に推論できるようにします。第三に、非推論型のSFT(Supervised Fine-Tuning)から始めて多段階RLへ進む効率的なエージェント学習レシピは、最小限の計算コストで高度な認知能力を実現します。

こうした方法論により、rStar2-Agentはわずか510 RLステップで事前学習済みの140億モデルを最先端水準へと引き上げ、AIME24で平均80.6%、AIME25で69.8%のpass@1スコアを達成しました。これはDeepSeek-R1(671B)を上回る性能を示しており、応答時間も大幅に短縮されています。さらに、rStar2-Agentは数学的問題解決を超えて、アラインメント、科学的推論、エージェント型ツール利用タスクにおいても強力な汎化能力を発揮します。これらの成果は、エージェント型RLアプローチが複雑な問題解決における認知的行動の強化に重要な貢献をしていることを示しています。

論文要旨(Abstract)

私たちは、最先端レベルの性能を達成するためにエージェント型強化学習で学習された14Bの数学推論モデル rStar2-Agent を紹介します。現在の長い思考の連鎖(CoT)を超えて、このモデルは Python コーディングツールを使う前に慎重に考え、コード実行のフィードバックを反映して、複雑な問題解決過程における中間ステップを自律的に探索・検証・改善する高度な認知行動を示します。こうした能力は、エージェント型RLを大規模に有効化する3つの主要な革新によって実現されています: (i) 高スループット実行を支え、高いロールアウトコストを軽減する信頼性の高い Python コード環境を備えた効率的なRLインフラで、限られたGPU資源(64基の MI300X GPU)での学習を可能にします; (ii) コーディングツールに起因する固有の環境ノイズに対処する Resample-on-Correct ロールアウト戦略を備えたエージェント型RLアルゴリズム GRPO-RoC で、モデルがコード環境でより効果的に推論できるようにします; (iii) 非推論SFTから始まり、多段階RLを通じて発展する効率的なエージェント学習レシピで、最小限の計算コストで高度な認知能力をもたらします。これにより rStar2-Agent は、事前学習済みの14Bモデルをわずか510 RLステップで最先端水準へ引き上げ、AIME24で平均 pass@1 スコア80.6%、AIME25で69.8%を達成し、DeepSeek-R1(671B)をはるかに短い応答で上回ります。数学を超えて、rStar2-Agent-14B はアラインメント、科学的推論、エージェント型ツール使用タスクに対しても強い汎化性能を示します。コードと学習レシピは https://github.com/microsoft/rStar で確認できます。
> We introduce rStar2-Agent, a 14B math reasoning model trained with agentic reinforcement learning to achieve frontier-level performance. Beyond current long CoT, the model demonstrates advanced cognitive behaviors, such as thinking carefully before using Python coding tools and reflecting on code execution feedback to autonomously explore, verify, and refine intermediate steps in complex problem-solving. This capability is enabled through three key innovations that makes agentic RL effective at scale: (i) an efficient RL infrastructure with a reliable Python code environment that supports high-throughput execution and mitigates the high rollout costs, enabling training on limited GPU resources (64 MI300X GPUs); (ii) GRPO-RoC, an agentic RL algorithm with a Resample-on-Correct rollout strategy that addresses the inherent environment noises from coding tools, allowing the model to reason more effectively in a code environment; (iii) An efficient agent training recipe that starts with non-reasoning SFT and progresses through multi-RL stages, yielding advanced cognitive abilities with minimal compute cost. To this end, rStar2-Agent boosts a pre-trained 14B model to state of the art in only 510 RL steps within one week, achieving average pass@1 scores of 80.6% on AIME24 and 69.8% on AIME25, surpassing DeepSeek-R1 (671B) with significantly shorter responses. Beyond mathematics, rStar2-Agent-14B also demonstrates strong generalization to alignment, scientific reasoning, and agentic tool-use tasks. Code and training recipes are available at https://github.com/microsoft/rStar.

論文リンク

https://arxiv.org/abs/2508.20722

さらに読む

https://github.com/microsoft/rStar


uGMM-NN: 単変量ガウス混合モデルニューラルネットワーク / uGMM-NN: Univariate Gaussian Mixture Model Neural Network

論文紹介

単変量ガウス混合モデルニューラルネットワーク(Univariate Gaussian Mixture Model Neural Network, uGMM-NN)は、深層ニューラルネットワークの計算単位に確率的推論を直接統合する革新的なアーキテクチャであり、各ニューロンが自身の活性化を単変量ガウス混合としてパラメータ化する方式を採用しています。このアプローチは、従来のニューロンにおける重み付き和と固定的な非線形性の限界を克服し、学習可能な平均、分散、混合係数を通じて、個々のニューロンでマルチモーダル性と不確実性を効果的に捉えられるようにします。この設計は、モデルが複雑なデータ分布を学習するのに必要な柔軟性を提供しつつ、標準的なフィードフォワードネットワークのスケーラビリティを維持します。

uGMM-NNは、既存の多層パーセプトロン(Multilayer Perceptron, MLP)と比較して競争力のある識別性能を達成でき、活性化に対する確率的な解釈を可能にします。これによりモデルは、単純な決定境界を超えて、データの複雑な構造を理解し表現する能力を備えることになります。提案されたフレームワークは、現代のニューラルアーキテクチャに不確実性認識コンポーネントを統合するための基盤を築き、識別モデルと生成モデルの双方に新たな研究方向を提示します。

uGMM-NNの構造は、各ニューロンが混合係数、平均、分散を含む形で活性化を表現するよう構成されており、これらの要素は学習過程で最適化されます。学習手法としては逆伝播アルゴリズムを用いてパラメータを更新し、損失関数は各ニューロンの活性化と実際のラベルとの差を最小化するよう設計されています。この過程では勾配ベースの最適化手法が適用され、モデルの性能を最大化します。

実験結果として、uGMM-NNはさまざまなベンチマークデータセットで既存のMLPより高い精度を記録し、不確実性を効果的に扱う能力を実証しました。これらの結果はuGMM-NNの優位性を示すものであり、今後の不確実性認識モデリングの方向性を示す重要な基礎資料となります。この研究は、さまざまな応用分野での活用可能性を探るとともに、uGMM-NNの拡張性や他モデルとの統合可能性に関する議論へとつながります。

論文要旨(Abstract)

この論文では、確率的推論をディープネットワークの計算ユニットに直接埋め込む新しいニューラルアーキテクチャである単変量ガウス混合モデルニューラルネットワーク(Univariate Gaussian Mixture Model Neural Network, uGMM-NN)を紹介します。従来のニューロンが、重み付き和に固定された非線形性を適用するのとは異なり、各 uGMM-NN ノードは、学習可能な平均、分散、および混合係数を持つ単変量ガウス混合として活性化をパラメータ化します。この設計により、標準的なフィードフォワードネットワークのスケーラビリティを維持しつつ、個々のニューロンレベルで多峰性と不確実性を捉えることで、より豊かな表現が可能になります。私たちは、uGMM-NN が従来の多層パーセプトロンと比較して競争力のある識別性能を達成できることを示すとともに、活性化に対する確率的な解釈も提供します。提案されたフレームワークは、現代のニューラルアーキテクチャに不確実性認識コンポーネントを統合するための基盤を提供し、識別モデリングと生成モデリングの両方に新たな方向性を開きます。
> This paper introduces the Univariate Gaussian Mixture Model Neural Network (uGMM-NN), a novel neural architecture that embeds probabilistic reasoning directly into the computational units of deep networks. Unlike traditional neurons, which apply weighted sums followed by fixed nonlinearities, each uGMM-NN node parameterizes its activations as a univariate Gaussian mixture, with learnable means, variances, and mixing coefficients. This design enables richer representations by capturing multimodality and uncertainty at the level of individual neurons, while retaining the scalability of standard feedforward networks. We demonstrate that uGMM-NN can achieve competitive discriminative performance compared to conventional multilayer perceptrons, while additionally offering a probabilistic interpretation of activations. The proposed framework provides a foundation for integrating uncertainty-aware components into modern neural architectures, opening new directions for both discriminative and generative modeling.

論文リンク

https://arxiv.org/abs/2509.07569


大規模言語モデルにおける強化学習を通じた創発的な階層的推論 / Emergent Hierarchical Reasoning in LLMs through Reinforcement Learning

論文紹介

大規模言語モデル(LLMs)の複雑な推論能力を向上させる研究は、近年の人工知能分野における重要なテーマとして浮上している。本研究では、強化学習(Reinforcement Learning, RL)が LLM のこうした能力をどのように高めるのかを探究し、その過程で現れる複数の現象が相互に結びついていることを明らかにする。特に、「アハ体験」のような現象は高水準の戦略的思考と密接に関連しており、人間の認知過程における高水準の計画と低水準の実行の分離に似た、創発的な推論階層の特徴として解釈される。

研究では、2段階のダイナミクスを提示している。初期段階では、モデルは手続き的な正確性によって制約され、低水準のスキルを改善する必要がある。その後、学習のボトルネックが切り替わり、性能向上は高水準の戦略的計画の探索と習得によって主導される。こうした洞察は、既存の RL アルゴリズム、特に GRPO(Generalized Reinforcement Policy Optimization)の非効率性を明らかにしており、このアルゴリズムが最適化の圧力を無差別に適用することで学習信号を希薄化させている点を強調している。

この問題を解決するために、著者らは HIerarchy-Aware Credit Assignment(HICRA)という新しいアルゴリズムを提案している。HICRA は、高い影響力を持つ計画トークンに最適化の努力を集中させることで、戦略的ボトルネックの解消に重点を置く。このアルゴリズムは強力なベースラインを上回る性能を示し、高度な推論を実現する鍵となり得ることを実証している。また、著者らは戦略的探索を測定する優れた指標としてセマンティックエントロピーを提案しており、これは既存のトークンレベルエントロピーのような誤解を招きやすいメトリクスよりも優れた性能を発揮する。

この研究は、LLM の学習および推論過程における効率性を高める新しいアプローチを提示しており、HICRA アルゴリズムを通じて戦略的計画に対する集中的な最適化が必要であることを強調している。これらの貢献は、LLM の複雑な推論能力をさらに発展させ、今後の研究にとって重要な基盤となることが期待される。

論文要旨(Abstract)

強化学習(RL)は、大規模言語モデル(LLM)の複雑な推論能力を向上させるうえで非常に効果的であることが示されてきましたが、その成功を支える根本的なメカニズムは依然として不透明です。私たちの分析は、「aha moment」「length-scaling」、そしてエントロピー動態のような不可解な現象が、単なる個別の出来事ではなく、人間の認知における高次の戦略的計画と低次の手続き的実行の分離に似た、創発的な推論階層の特徴であることを明らかにします。私たちは、説得力のある2段階の動態を発見しました。初期段階では、モデルは手続き的な正確さに制約されており、低次のスキルを改善しなければなりません。その後、学習のボトルネックは決定的に移行し、性能向上は高次の戦略的計画の探索と習得によって主導されます。この知見は、最適化の圧力を無差別に適用し、すべてのトークンに学習信号を希釈してしまう、GRPOのような既存RLアルゴリズムの中核的な非効率性を浮き彫りにします。これに対処するため、私たちは、影響度の高い計画トークンに最適化の努力を集中させる HIerarchy-Aware Credit Assignment(HICRA)アルゴリズムを提案します。HICRAは強力なベースラインを大きく上回る性能を示し、この戦略的ボトルネックに焦点を当てることが高度な推論を解き放つ鍵であることを実証します。さらに私たちは、意味的エントロピーが、トークンレベルのエントロピーのような誤解を招きやすい指標よりも、戦略的探索を測定するうえで優れた指針であることを検証します。
> Reinforcement Learning (RL) has proven highly effective at enhancing the complex reasoning abilities of Large Language Models (LLMs), yet underlying mechanisms driving this success remain largely opaque. Our analysis reveals that puzzling phenomena like aha moments", length-scaling'' and entropy dynamics are not disparate occurrences but hallmarks of an emergent reasoning hierarchy, akin to the separation of high-level strategic planning from low-level procedural execution in human cognition. We uncover a compelling two-phase dynamic: initially, a model is constrained by procedural correctness and must improve its low-level skills. The learning bottleneck then decisively shifts, with performance gains being driven by the exploration and mastery of high-level strategic planning. This insight exposes a core inefficiency in prevailing RL algorithms like GRPO, which apply optimization pressure agnostically and dilute the learning signal across all tokens. To address this, we propose HIerarchy-Aware Credit Assignment (HICRA), an algorithm that concentrates optimization efforts on high-impact planning tokens. HICRA significantly outperforms strong baselines, demonstrating that focusing on this strategic bottleneck is key to unlocking advanced reasoning. Furthermore, we validate semantic entropy as a superior compass for measuring strategic exploration over misleading metrics such as token-level entropy.

論文リンク

https://arxiv.org/abs/2509.03646


OpenVision 2: マルチモーダル学習のための生成的事前学習ビジュアルエンコーダファミリー / OpenVision 2: A Family of Generative Pretrained Visual Encoders for Multimodal Learning (feat. Apple)

論文紹介

OpenVision 2は、マルチモーダル学習のための生成的事前学習ビジュアルエンコーダの新しいファミリーを提案し、既存のOpenVisionのアーキテクチャと損失設計を単純化することで、学習効率を大幅に向上させます。本研究は、CapPaやAIMv2のような従来のビジョン・言語事前学習研究と、現代的なマルチモーダル設計であるLLaVAを基盤とし、テキストエンコーダを取り除いてキャプショニング損失のみを残すアプローチを取ります。この単純化された構造は、画像エンコーダとテキストデコーダの2つのモジュールで構成されており、生成的な学習信号を通じて視覚表現を効果的に学習できるようにします。

OpenVision 2の初期実験結果は、元のモデルの性能を維持しながら、学習時間とメモリ消費を大幅に削減できることを示しました。たとえば、ViT-L/14バックボーンを使用した場合、学習時間は1.5倍短縮され、メモリ使用量は1.8倍減少し、最大バッチサイズを2,000から8,000へと増やすことができました。こうした改善は、OpenVision 2が10億個以上のパラメータへ拡張できる可能性を開き、軽量な生成専用パラダイムがマルチモーダル基盤モデル開発において魅力的であることを示唆しています。

この研究は、CLIPスタイルの対照学習がビジョンエンコーダ構築に不可欠であるという既存の考え方を見直すよう促します。OpenVision 2は、純粋な生成目的がマルチモーダル性能において対照的手法と競合できることを示しており、計算コストを大幅に削減しつつ、より大規模なモデル拡張を可能にします。研究者は、OpenVision 2の完全な学習セットと事前学習済みチェックポイントを活用することで、ビジョンエンコーダの生成的事前学習の可能性をさらに探究する機会を得られます。こうした革新は、マルチモーダル学習分野に新たな方向性を提示し、今後の研究に重要な貢献をもたらすと期待されます。

論文要旨(Abstract)

この論文は、OpenVisionのアーキテクチャと損失設計を簡素化し、学習効率を向上させる方法を提示します。先行する視覚・言語事前学習研究であるCapPaやAIMv2、さらにLLaVAのような現代的なマルチモーダル設計を踏まえ、変更点はシンプルです。テキストエンコーダー(したがって対照損失)を取り除き、純粋な生成学習シグナルとしてキャプショニング損失のみを残します。私たちはこの新しいバージョンをOpenVision 2と名付けました。初期結果は有望です。このような簡素化にもかかわらず、OpenVision 2は幅広いマルチモーダルベンチマークで元のモデルに匹敵する性能を示しつつ、学習時間とメモリ消費を大幅に削減します。たとえばViT-L/14を使用した場合、学習時間を約1.5倍短縮し(83時間から57時間へ)、メモリ使用量を約1.8倍削減します(24.5GBから13.8GBへ。これにより最大バッチサイズを2kから8kまで増やせます)。この優れた学習効率により、OpenVisionで使われていた最大のビジョンエンコーダーを超えてスケールでき、10億を超えるパラメータ数に到達可能です。私たちは、この軽量な生成専用パラダイムが、マルチモーダル基盤モデルにおける将来のビジョンエンコーダー開発にとって魅力的であると強く考えています。
> This paper provides a simplification on OpenVision's architecture and loss design for enhancing its training efficiency. Following the prior vision-language pretraining works CapPa and AIMv2, as well as modern multimodal designs like LLaVA, our changes are straightforward: we remove the text encoder (and therefore the contrastive loss), retaining only the captioning loss as a purely generative training signal. We name this new version OpenVision 2. The initial results are promising: despite this simplification, OpenVision 2 competitively matches the original model's performance on a broad set of multimodal benchmarks while substantially cutting both training time and memory consumption. For example, with ViT-L/14, it reduces training time by about 1.5x (from 83h to 57h), and memory usage by about 1.8x (from 24.5GB to 13.8GB, equivalently allowing the maximum batch size to grow from 2k to 8k). This superior training efficiency also allows us to scale far beyond the largest vision encoder used in OpenVision, reaching more than 1 billion parameters. We hold a strong belief that this lightweight, generative-only paradigm is compelling for future vision encoder development in multimodal foundation models.

論文リンク

https://arxiv.org/abs/2509.01644

さらに読む

https://ucsc-vlaa.github.io/OpenVision2

https://github.com/UCSC-VLAA/OpenVision

https://huggingface.co/collections/UCSC-VLAA/…

https://huggingface.co/datasets/UCSC-VLAA/Recap-DataComp-1B


バックプロンプティング:健康アドバイスのガードレールのための合成プロダクションデータ活用 / Backprompting: Leveraging Synthetic Production Data for Health Advice Guardrails (feat. IBM Research)

論文紹介

大規模言語モデル(LLM)の利用が企業環境で広がるにつれ、これに伴うさまざまなリスク要因が浮上している。とりわけ、LLMの出力に誤情報が含まれる可能性は、健康アドバイスのようなセンシティブな分野で深刻な結果を招きかねない。こうしたリスクを軽減するには、ガードレール技術が必要であり、これはLLMの入力および出力テキストを複数の検出器でフィルタリングする形で機能する。しかし、強力な検出器を開発・維持するうえで最大の障害の1つは、実際のLLM出力に対する本番品質のラベル付きデータを確保することが難しい点にある。

本研究では、この問題を解決するために、バックプロンプティング(Backprompting) という革新的な方法論を提案する。バックプロンプティングは、ユーザーが入力した質問をもとにLLMが生成したテキストに対して再び質問を投げかけることで、本番環境に近いラベル付きデータを生成するアプローチである。この過程では、疎なhuman-in-the-loopクラスタリング手法を用いて生成データにラベルを付与する。これにより、元のデータセットをおおまかに代表しつつ、実際のLLM出力に似た並列コーパスを構築できる。

研究の中心的な目標は、既存データセットに合成サンプルを注入し、検出器のための強力な学習データを生成することである。これにより、健康アドバイスを識別するガードレール構築における性能向上を目指す。実験の結果、提案された検出器は既存手法と比べて最大3.73%の性能向上を記録し、GPT-4oと比較しても優れた結果を示した。これらの成果は、バックプロンプティングによって生成されたデータが検出器の学習に好影響を与えたことを示している。

結論として、本研究はLLM出力の安全性を高めるための新たなデータ生成方法論を提示しており、今後さまざまな分野へ適用される可能性を示している。バックプロンプティングは健康アドバイス向けガードレールの開発に有効であり、LLMの安全な利用に向けた重要な貢献になると期待される。

論文要旨(Abstract)

大規模言語モデル(LLM)の企業環境での普及は、その利用に伴う相当なリスクももたらしています。ガードレール技術は、さまざまな検出器を通じてLLMの入力・出力テキストをフィルタリングすることで、こうしたリスクの軽減を目指します。しかし、堅牢な検出器の開発と維持には多くの課題があり、その一つが、デプロイ前に実際のLLM出力に対する本番品質のラベル付きデータを取得することの難しさです。本研究では、ヘルスアドバイス用ガードレールの開発に向けて、本番に近いラベル付きデータを生成するシンプルかつ直感的な解決策として、バックプロンプティング(backprompting)を提案します。さらに、生成されたデータにラベルを付与するために、疎な human-in-the-loop クラスタリング手法とバックプロンプティングを組み合わせます。私たちの目標は、元のデータセットを大まかに代表しつつ、実際のLLM出力に似た並列コーパスを構築することです。その後、既存のデータセットに合成例を注入し、検出器向けの堅牢な学習データを作成します。私たちは、LLM出力におけるヘルスアドバイスの識別という、最も難しく繊細なガードレール課題の一つでこの手法を検証し、他のソリューションと比べて性能が向上することを示します。私たちの検出器は、パラメータ数が400分の1であるにもかかわらず、GPT-4oを最大3.73%上回る性能を発揮できます。
> The pervasiveness of large language models (LLMs) in enterprise settings has also brought forth a significant amount of risks associated with their usage. Guardrails technologies aim to mitigate this risk by filtering LLMs' input/output text through various detectors. However, developing and maintaining robust detectors faces many challenges, one of which is the difficulty in acquiring production-quality labeled data on real LLM outputs prior to deployment. In this work, we propose backprompting, a simple yet intuitive solution to generate production-like labeled data for health advice guardrails development. Furthermore, we pair our backprompting method with a sparse human-in-the-loop clustering technique to label the generated data. Our aim is to construct a parallel corpus roughly representative of the original dataset yet resembling real LLM output. We then infuse existing datasets with our synthetic examples to produce robust training data for our detector. We test our technique in one of the most difficult and nuanced guardrails: the identification of health advice in LLM output, and demonstrate improvement versus other solutions. Our detector is able to outperform GPT-4o by up to 3.73%, despite having 400x less parameters.

論文リンク

https://arxiv.org/abs/2508.18384


RLVRにおける深さ・幅の相乗効果: 適応的探索によるLLM推論能力の向上 / Depth-Breadth Synergy in RLVR: Unlocking LLM Reasoning Gains with Adaptive Exploration

論文紹介

Reinforcement Learning with Verifiable Reward(RLVR)は、大規模言語モデル(LLM)の推論能力を最大化するうえで重要な役割を果たしていますが、その潜在力は、Depth(モデルがサンプリングできる最も難しい問題)と Breadth(単一の反復で消費されるインスタンス数)という、いまだ十分に開拓されていない2つの次元によって制約されています。本研究では、既存のGRPO(Generalized Relative Preference Optimization)アルゴリズムを分析し、累積アドバンテージ(cumulative advantage)が中程度の正確性を持つサンプルに不均衡に重みを与え、低精度のインスタンスを軽視するという体系的なバイアスを明らかにします。これを解決するために、Difficulty Adaptive Rollout Sampling(DARS)手法を提案します。この手法は、目標指向の多段階ロールアウトを通じて難しい問題の重み付けを再調整し、正のロールアウト数を増加させます。

DARSは、単にロールアウトサイズを増やすだけでなく、Pass@K性能の向上に寄与します。また、訓練データの幅を積極的に拡張することが推論向上に貢献しうることを検証し、バッチサイズを大幅に拡大するとともに、Proximal Policy Optimization(PPO)のミニバッチ反復を、複数エポックにわたる全バッチ更新へ置き換えます。このアプローチはPass@1性能を大きく改善し、大規模な幅方向の学習が高いトークンレベルエントロピーを維持することで、継続的な探索と勾配ノイズの低減を示します。

DARS-Bは、DARSに大規模な幅を追加することで、Pass@KとPass@1の両方で同時に性能向上を達成する手法であり、幅と深さに対する適応的探索がRLVRの推論能力を引き出すうえで重要な役割を果たします。本研究は、これらの手法を通じてRLVRの推論能力を最大化するための新たな方向性を提示し、深さと幅の適応的探索がRLVRの性能向上に寄与することを実験的に示します。

論文要旨(Abstract)

強化学習と検証可能な報酬(Reinforcement Learning with Verifiable Reward, RLVR)は、大規模言語モデルの推論能力を引き出す強力なパラダイムとして台頭していますが、その潜在力は十分に探究されていない2つの次元によって制約されています。すなわち、深さ(Depth)—モデルがサンプリングできる最も難しい問題—と、幅(Breadth)—単一の反復で消費されるインスタンス数—です。私たちは広く使われているGRPOアルゴリズムを分析し、体系的なバイアスを明らかにします。累積アドバンテージ(cumulative-advantage)は中程度の正確性を持つサンプルに不均衡に重み付けを行い、推論の境界を押し広げるうえで重要な低正確性インスタンスの重みを下げています。深さの軽視を是正するため、私たちは難易度適応ロールアウトサンプリング(Difficulty Adaptive Rollout Sampling, DARS)を導入し、対象を絞った多段階ロールアウトによって難しい問題の重みを再調整することで、難問に対する正のロールアウト数を増加させます。実証的には、ロールアウトサイズを単純に拡大すると収束は速まるものの、Pass@Kにはむしろ悪影響を与えます。対照的に、私たちのDARSは、収束時に追加の推論コストを伴うことなく、一貫したPass@Kの改善をもたらします。探索の深さを適応的に拡張したのと同様に、次に私たちは、学習データの幅を積極的に拡大することで推論性能の向上をさらに増幅できるかを問います。そのために、バッチサイズを大幅に拡大し、PPOのミニバッチ反復を複数エポックにわたるフルバッチ更新に置き換えます。幅を増やすことで、Pass@1性能は大きく向上します。大規模な幅での学習は高いトークンレベルエントロピーを維持し、継続的な探索と勾配ノイズの低減を示します。さらに私たちは、DARSを大規模な幅で強化したDARS-Bを提示し、Pass@KとPass@1の両方で同時に改善を示します。これらの結果は、幅と深さにわたる適応的探索がRLVRにおいて直交する次元として機能し、RLVRの推論能力を解き放つ鍵であることを確認しています。
> Reinforcement Learning with Verifiable Reward (RLVR) has emerged as a powerful paradigm for unlocking reasoning capabilities in large language models, yet its full potential is hindered by two under-explored dimensions: Depth-the hardest problem a model can sample; Breadth-the number of instances consumed in a single iteration. We dissect the popular GRPO algorithm and reveal a systematic bias: the cumulative-advantage disproportionately weights samples with medium accuracy, while down-weighting the low-accuracy instances that are crucial for pushing reasoning boundaries. To rectify the depth neglect, we introduce Difficulty Adaptive Rollout Sampling (DARS), which re-weights hard problems through targeted multi-stage rollouts, thereby increasing the number of positive rollouts for hard problems. Empirically, naively enlarging rollout size only accelerates convergence and even hurts Pass@K. Our DARS, in contrast, delivers consistent Pass@K gains without extra inference cost at convergence. Just as we adaptively expanded the depth of exploration, we now ask whether aggressively scaling the breadth of training data can further amplify reasoning gains. To this end, we intensely scale batch size and replace PPO's mini-batch iterations with full-batch updates over multiple epochs. Increasing breadth significantly enhances Pass@1 performance. Large-breadth training sustains high token-level entropy, indicating continued exploration and reduced gradient noise. We further present DARS-B, which augments DARS with large breadth, and demonstrate simultaneous gains in Pass@K and Pass@1. The results confirm that breadth and adaptive exploration across depth operate as orthogonal dimensions in RLVR, which are key to unleashing the reasoning power of RLVR.

論文リンク

https://arxiv.org/abs/2508.13755


FlowVLA: 視覚的思考の連鎖で動きを考える / FlowVLA: Thinking in Motion with a Visual Chain of Thought

論文紹介

Vision-Language-Action(VLA)モデルは、次フレーム予測によって訓練された内部世界モデルに依存していますが、この方法では静的な外観と動的な動きが絡み合っているため、物理的推論が難しくなります。これを解決するために、Visual Chain of Thought(Visual CoT)という事前学習フレームワークを導入し、シーンの進化を推論してから予測するよう促します。FlowVLAは、中間のオプティカルフロー表現を生成した後に未来フレームを予測する方式で、この過程は単一の自己回帰Transformer内で実装され、動的要素を分離して学習します。実験の結果、FlowVLAは一貫した視覚予測を生成し、方策学習の効率を大幅に向上させることで、世界モデリングのより原理的な基盤を提示します。

論文要旨(Abstract)

多くのVision-Language-Action(VLA)モデルは、次フレーム予測によって学習された内部世界モデルに依存しています。しかしこのアプローチは、静的な見た目と動的な動きを絡み合わせてしまうため物理的推論が難しく、しばしばもっともらしくない視覚予測や非効率なポリシー学習を招きます。これらの限界を解決するため、私たちは視覚的思考の連鎖(Visual Chain of Thought, Visual CoT)を導入します。これは、モデルがシーンがどのように発展するかを推論してから、その見た目を予測するよう促す事前学習フレームワークです。私たちはこの原理をFlowVLAに実装し、動きのダイナミクスを符号化する中間的なオプティカルフロー表現($f_t$)を生成した後にのみ、未来フレーム($v_{t+1}$)を予測するようにしました。この「$v_t \rightarrow f_t \rightarrow v_{t+1}$」という思考プロセスは、単一の自己回帰Transformer内で実装されており、モデルが分離された動的特性を学習するよう導きます。その結果、FlowVLAは一貫した視覚予測を生成し、より効率的なポリシー学習を促進します。難易度の高いロボット操作ベンチマークでの実験では、state-of-the-artの性能を示し、サンプル効率が大幅に向上したことを実証しており、世界モデリングのためのより原理的な基盤を提示しています。プロジェクトページ: https://irpn-lab.github.io/FlowVLA/
> Many Vision-Language-Action (VLA) models rely on an internal world model trained via next-frame prediction. This approach, however, struggles with physical reasoning as it entangles static appearance with dynamic motion, often resulting in implausible visual forecasts and inefficient policy learning. To address these limitations, we introduce the Visual Chain of Thought (Visual CoT): a pre-training framework that encourages a model to reason about how a scene evolves before predicting what it will look like. We instantiate this principle in FlowVLA, which predicts a future frame ($v_{t+1}$) only after generating an intermediate optical flow representation ($f_t$) that encodes motion dynamics. This ``$v_t \rightarrow f_t \rightarrow v_{t+1}$'' reasoning process is implemented within a single autoregressive Transformer, guiding the model to learn disentangled dynamics. As a result, FlowVLA produces coherent visual predictions and facilitates more efficient policy learning. Experiments on challenging robotics manipulation benchmarks demonstrate state-of-the-art performance with substantially improved sample efficiency, pointing toward a more principled foundation for world modeling. Project page: https://irpn-lab.github.io/FlowVLA/

論文リンク

https://arxiv.org/abs/2508.18269

さらに読む

https://irpn-lab.github.io/FlowVLA/


長尺動画理解のためのエピソード記憶表現 / Episodic Memory Representation for Long-form Video Understanding

論文紹介

動画理解分野における課題の1つは、長い動画の文脈を効果的に処理することです。既存の動画大規模言語モデル(Video Large Language Models, Video-LLMs)は、一般的な動画理解には優れていますが、長尺動画ではコンテキストウィンドウの限界により困難を抱えています。この問題を解決するために提案されたVideo-EM(Episodic Memory Representation)フレームワークは、学習不要の革新的なアプローチを提供します。

Video-EMは、動画の主要イベントを時間的に整列したエピソードとしてモデル化することで、動的な時空間関係とナラティブを捉えます。このフレームワークは、Key Event SelectionEpisodic Memory Representation、そしてChain of Thought(CoT)Video Reasoningという3つの中核コンポーネントで構成されています。Key Event Selectionモジュールは、クエリに関連する情報を特定し、時間的に隣接した主要イベントを抽出することで、動画の冗長性を解消します。

Episodic Memory Representationモジュールは、各イベントの時間的順序を明示的にモデル化し、動的な時空間コンテキストを豊かに表現します。これにより、動画のナラティブを効果的に再構成できます。最後に、CoT Video Reasoningは、関連するエピソード記憶の最小集合を反復的に選択し、正確で文脈に基づいた回答を生成します。

本研究では、さまざまなベンチマークでVideo-EMの性能を評価し、既存モデルと比べて4〜9%の性能向上を達成した結果を示しました。これらの成果は、少ないフレーム数を用いながらも高い精度を維持できたことを示しています。Video-EMは動画質問応答の精度を大幅に向上させ、動画理解分野における新たな可能性を切り開く重要な貢献となっています。このアプローチは、今後の研究にとって重要な基礎資料として活用される可能性があります。

論文要旨(Abstract)

Video-LLM(Video Large Language Models)は一般的な動画理解で優れた性能を示しますが、コンテキストウィンドウの制約により長尺動画では苦戦します。そのため近年のアプローチは、長い動画を少数の情報量の多いフレームへ圧縮するキーフレーム検索に注目しています。これらの手法は実用的である一方、問題を静的なテキスト・画像マッチングへと単純化してしまうため、シーン遷移や文脈の連続性を捉えるうえで重要な時空間関係を見落としており、情報が限られた冗長なキーフレームを生成して、正確な動画質問応答に不可欠な重要手がかりを薄めてしまう可能性があります。こうした限界に対処するため、私たちは人間のエピソード記憶の原理に着想を得た、学習不要のフレームワークであるVideo-EMを紹介します。これは、頑健で文脈に根ざした推論を促進するよう設計されています。Video-EMはキーフレームを孤立した視覚的実体として扱うのではなく、時間順に並んだエピソード事象として明示的にモデル化することで、背後にある物語を正確に再構成するために必要な空間的関係と時間的ダイナミクスの両方を捉えます。さらにこのフレームワークは、LLMとともにchain of thought(CoT)思考を活用し、最小限でありながら情報量の多いエピソード記憶の部分集合を反復的に特定することで、Video-LLMによる効率的かつ正確な質問応答を可能にします。Video-MME、EgoSchema、HourVideo、LVBenchベンチマークに対する広範な評価の結果、Video-EMの優位性が確認され、それぞれのベースラインに比べて4〜9%の性能向上を達成しつつ、より少ないフレーム数で競争力のある結果を実現しました。
> Video Large Language Models (Video-LLMs) excel at general video understanding but struggle with long-form videos due to context window limits. Consequently, recent approaches focus on keyframe retrieval, condensing lengthy videos into a small set of informative frames. Despite their practicality, these methods simplify the problem to static text image matching, overlooking spatio temporal relationships crucial for capturing scene transitions and contextual continuity, and may yield redundant keyframes with limited information, diluting salient cues essential for accurate video question answering. To address these limitations, we introduce Video-EM, a training free framework inspired by the principles of human episodic memory, designed to facilitate robust and contextually grounded reasoning. Rather than treating keyframes as isolated visual entities, Video-EM explicitly models them as temporally ordered episodic events, capturing both spatial relationships and temporal dynamics necessary for accurately reconstructing the underlying narrative. Furthermore, the framework leverages chain of thought (CoT) thinking with LLMs to iteratively identify a minimal yet highly informative subset of episodic memories, enabling efficient and accurate question answering by Video-LLMs. Extensive evaluations on the Video-MME, EgoSchema, HourVideo, and LVBench benchmarks confirm the superiority of Video-EM, which achieves highly competitive results with performance gains of 4-9 percent over respective baselines while utilizing fewer frames.

論文リンク

https://arxiv.org/abs/2508.09486


この記事はGPTモデルで整理した内容をもとにしているため、原文の内容や意図とは異なる形でまとめられている可能性があります。関心のある内容であれば、ぜひ原文もあわせてご参照ください。お読みいただく中で不自然な点や誤りを見つけた場合は、コメントでお知らせいただけますと幸いです。🤗

⚠️広告⚠️: 🔥PyTorch韓国ユーザーグループ🇰🇷がまとめたこの記事は役に立ちましたか? 会員登録していただくと、主要な記事をメール💌でお届けします! (基本はWeeklyですが、Dailyへの変更も可能です。)

まだコメントはありません。

まだコメントはありません。