5 ポイント 投稿者 ninebow 4 시간 전 | まだコメントはありません。 | WhatsAppで共有

PyTorchKR🔥🇰🇷 🤔💭

今週選定された10本の論文を見てみると、人工知能研究が単なるモデル性能の向上を超え、自律性、信頼性、そして効率性の限界を突破しようとする3つの明確なトレンドを確認できます。

1️⃣ 自律的な自己改善とマルチエージェントシステムの進化: 今週の論文では、エージェントが人間の明示的な指示や固定された軌道を超えて、自ら組織を構成し弱点を改善する自律システムへと発展していく流れが際立っています。Economy of MindsAutoScientists は、中央統制なしにエージェントたちが経済的相互作用(オークション、資本蓄積)や共有フォーラムを通じて自発的に役割を分担し、長期的な探索を続ける分散型協調システムを提案しました。また Self-Harness は、エージェントが自らの過去の失敗パターンを分析し、システムプロンプトと運用ポリシー(Harness)を反復的に修正しながら、自力で性能を引き上げるフレームワークを示しました。これは、AIが単一の課題をこなす受動的なツールを超えて、長期的な計画と協調を行う能動的な進化主体へと生まれ変わりつつあることを示唆しています。

2️⃣ AI能力の厳密な検証と補完的活用(ハイブリッド): AIの表面的な性能の裏側にある実質的な限界を見極め、それを人間や古典的アルゴリズムと組み合わせて克服しようとする省察的な研究も主要トレンドです。LiveBrowseComp は、検索エージェントが実際には新しい情報を発見するよりも、モデル内部の事前知識を確認することにとどまっているという盲点を突き、AIレビュアー研究 は、AIが細かなエラー検出には優れる一方で、長期的な文脈把握には弱く、人間の査読者を完全に代替できない「補完財」であることを実証しました。さらに ハイパーパラメータ最適化(HPO)研究 は、LLMの状態追跡能力が古典的アルゴリズムより劣ることを確認し、古典的手法(CMA-ES)の内部状態をLLMと共有するハイブリッドアプローチによって最高性能を引き出しました。これは、バブル化したベンチマークを警戒し、AIの弱点を明確に認識したうえで最も効果的な協調構造を設計しようとする現実的な試みです。

3️⃣ データ・環境・計算資源の知的最適化: 単にモデルの規模を大きくするのではなく、学習環境、データ、そしてハードウェア計算の効率を最大化し、コスト対性能の密度を高めようとするインフラ的アプローチが活発です。AutoForge は、高難度なエージェント強化学習のための複雑なシミュレーション環境を自動合成し、学習のスケーラビリティを解決しました。APEX は、データの難易度を動的に分類し、最も情報量の多いデータにのみプロンプト最適化計算を集中させることで、極限まで高めたデータ効率を示しました。さらに FP8 is All You Need は、8ビット低精度テンソル計算を活用して高コストな倍精度(FP64)中心の高性能計算(HPC)の限界を突破し、DySIB は高次元観測データから動力学の中核情報だけを抽出する数学的効率性を示しました。これは、限られた資源を最も賢く使うことで、AIシステムの実質的な産業応用および科学応用の可能性を広げようとする熾烈な努力です。

論文別の要点まとめ

  • Economy of Minds は、中央集権的な制御なしにエージェントたちがオークションを通じて行動権を獲得し、環境報酬によって富を蓄積する経済的相互作用ルールに基づき、自発的に進化しながら多段階推論のような高次の集合知を形成する分散型システムを提案します。

  • AutoForge は、大規模言語エージェントの効果的な強化学習のために、検証可能な高難度シミュレーション環境を自動で大量合成し、ユーザーの不安定性と環境間の異質性を克服して学習安定性を高める、環境レベルの統合パイプラインを提示します。

  • APEX は、大規模言語モデルのプロンプトを最適化する際に評価データセット全体を浪費する従来の非効率を改善するため、正答と誤答が入り混じる区間を動的に選択し、限られた計算予算内でデータ効率を最大化する手法を考案しました。

  • Self-Harness は、人間専門家の介入やより強力な外部モデルの助けなしに、エージェント自身が過去の実行トレースで見つかった失敗パターンを分析し、回帰テストを経て、自身と環境の相互作用を媒介する運用ポリシーを自律的に修正するフレームワークを示します。

  • autoresearch研究 は、大規模言語モデルがハイパーパラメータ最適化環境において明示的な状態追跡の困難さにより古典的アルゴリズムを完全には上回れないことを明らかにし、共分散行列適応進化戦略の内部状態を言語モデルと共有するハイブリッド方式を提案して最高性能を達成しました。

  • FP8 is All You Need は、高性能計算においてネイティブの倍精度浮動小数点ハードウェアが必須だという通念に反論し、中国剰余定理と8ビット低精度テンソル計算を組み合わせてテンソル処理量を最大化することで、精度損失なしに実行性能を回復できることを実証しました。

  • AIレビュアー研究 は、45人のドメイン専門家がNature系列論文に大規模なアノテーションと検証を行った結果を通じて、人工知能が人間の見落とした固有の問題を指摘する優れた補完役を果たす一方、長い文脈管理や特定分野の暗黙知不足といった構造的限界も持つことを多層的に分析しました。

  • LiveBrowseComp は、既存の検索エージェントが外部Webで新しい事実を探索するよりも、すでに内在する事前知識を再確認することに依存している現象を診断し、モデルの知識境界を超えた最近発生した事実に対する真のディープサーチ能力を厳密に評価する新しいベンチマークを導入しました。

  • DySIB は、高次元の時系列観測データにおいて、過去と未来の観測ウィンドウ間の予測相互情報量を最大化することで、生の映像を直接復元せずとも、システムの動力学を支配する低次元位相空間の幾何学的座標を正確かつ解釈可能に学習する方法論を提示します。

  • AutoScientists は、長期的な計算科学実験の過程で求められる仮説設定、実験実行、結果分析および修正の反復サイクルを、分散型エージェントチームが自ら議論し組織して処理することで、失敗した探索知識を保持し、有望な方向へ協調する自律的研究システムを構築しました。


心の経済: 経済的相互作用を通じた創発的マルチエージェント知能 / Economy of Minds: Emerging Multi-Agent Intelligence with Economic Interactions

論文紹介

中央集権型の制御なしに多数のエージェントがどのようにしてより強い集合知へと自発的に進化できるかを扱ったこの研究は、フリードリヒ・ハイエク(Friedrich Hayek)の分散的市場調整理論をマルチエージェント人工知能へ移し替えた試みという点で注目に値します。著者らはそのためにエージェント経済(agent economy)という枠組みを提案し、各エージェントが単に協力するだけでなく、オークション(auction)を通じて行動権を獲得し、互いに支払いをやり取りし、環境から得た報酬で富を蓄積するよう設計しています。このような経済的シグナルは、別個のグローバルなオーケストレーションや明示的な通信プロトコルがなくても、エージェント間の分散型貢献度割り当て(decentralized credit assignment)を可能にし、各行動の価値が自然に浮かび上がるようにします。その結果、計画は外部から強制されるのではなく、各エージェントが自らの経済的インセンティブに従う過程で内部的に形成されます。つまり、複雑な協調メカニズムを精緻に設計するよりも、相互作用のルールそのものを適切に設定することで、集合的思考が育つようにするアプローチです。

この論文のもう1つの核心は、システムが固定された構造にとどまらず、経済的選択(economic selection)を通じて継続的に進化する点です。効率的なエージェントはより多くの富を蓄積し、活用(exploitation)中心の改善機会を得る一方で、成果の低いエージェントは資源を失って新しいエージェントに置き換えられ、探索(exploration)への道が開かれます。このように富(wealth)を状態変数とする設計は、単純なパラメータ最適化を超えて、個々のエージェントの局所的インセンティブ(local incentives)が長期的な集合性能(long-term global performance)へとつながる分散型進化メカニズムを形成します。特に、初期には弱いエージェントから出発しても、この経済動学を通じてより洗練された行動戦略が徐々に蓄積・組み合わされる点が重要です。著者らは、この過程で多段階推論(multi-step reasoning)のような高次の行動が自発的に現れうることを示し、エージェントが単純な反応型ポリシーを超えて、計画と検証を含む戦略へ進化すると主張しています。

実験では、数学的推論、金融リサーチ、科学研究、加速器設計(accelerator design)、分散システム最適化(distributed-system optimization)という5つのエージェント型タスクで、この経済システムの効果を検証しています。結果として、提案手法はより強力な単一巨大モデル(monolithic baseline)より優れた性能を示したと報告されており、これはマルチエージェント知能の拡張が必ずしも中央集権的な調整に依存する必要はないことを示唆しています。この研究が示す核心的なメッセージは、調整を直接設計するのではなく、調整が自然に生まれるインセンティブ構造を設計すべきだという点です。オークション、支払い、富、破産、置換といった単純な経済メカニズムが、競争と協調を同時に組織し、その過程でより良い推論と問題解決戦略を創発的に生み出せるという主張です。さらに著者らは、経済的ダイナミクスがエージェントの行動をどのように形成するかについての理論的洞察も提示し、こうした現象が偶然の経験的結果ではなく、原理に基づいて設計可能な領域であることを示しています。結局のところ、この論文は分散型インセンティブ構造がどのように集合知の成長を導けるかを説明し、今後のマルチエージェント人工知能を設計する新たなパラダイムを提案しています。

要旨(Abstract)

中央集権的な制御なしに、エージェント集団はどのように自律的に協調し、自己適応して、より強い集合知へと発展できるのでしょうか。フリードリヒ・ハイエク(Friedrich Hayek)の市場における分散型調整の経済理論に着想を得て、私たちは、エージェントが行動する権利をめぐってオークションで競争し、支払いを交換し、環境報酬から富を蓄積するエージェント経済を通じてこの問いを研究します。こうした単純な経済的シグナルは分散型のクレジット割り当てを誘発し、グローバルな調整や明示的な通信プロトコルがなくても計画を駆動します。集団は経済的選択を通じて進化します。有効なエージェントは富を蓄積し、活用(exploitation)によって変異する一方、非効率なエージェントは破産し、探索(exploration)によって置き換えられます。私たちは、弱いエージェントで初期化された状態でも、この経済が創発的な多段階推論戦略を生み出し、数学的推論、金融リサーチ、科学研究、加速器設計、分散システム最適化を含む5つのエージェント型タスクにおいて、より強力な単一体ベースラインを上回ることを示します。また私たちは、経済的ダイナミクスがエージェント行動をどのように形成するかについて理論的洞察を提示し、局所的なインセンティブが長期的なグローバル性能とどのようにつながるかを説明します。私たちの結果は、マルチエージェント知能への新たな道筋を示唆します。すなわち、調整を直接設計するのではなく、その調整が自動的に創発するような分散型インセンティブ構造を設計できるということです。

How can a population of agents self-orchestrate and self-adapt into stronger collective intelligence without centralized control? Inspired by Friedrich Hayek's economic theory of decentralized coordination in markets, we study this question through an agent economy in which agents compete via auctions for the right to act, exchange payments, and accumulate wealth from environmental rewards. These simple economic signals induce decentralized credit assignment, driving planning without global orchestration or explicit communication protocols. The population evolves through economic selection: effective agents accumulate wealth and are mutated via exploitation, while ineffective ones go bankrupt and are replaced via exploration. We show that, initialized with weak agents, the economy produces emergent multi-step reasoning strategies and outperforms stronger monolithic baselines across five agentic tasks, including mathematical reasoning, financial research, scientific research, accelerator design, and distributed-system optimization. We further provide theoretical insights into how economic dynamics shape agent behaviors, linking local incentives to long-term global performance. Our results suggest a new path to multi-agent intelligence: rather than engineering coordination, we can design decentralized incentive structures under which it automatically emerges.

論文リンク

https://arxiv.org/abs/2606.02859

さらに読む

https://zhentingqi.github.io/internal/projects/EoM/

https://github.com/zhentingqi/EoM


AutoForge: エージェント強化学習のための自動化環境合成 / AutoForge: Automated Environment Synthesis for Agentic Reinforcement Learning

論文紹介

大規模言語ベースのエージェントを現実に近い形で学習させるには、低コストでありながら十分に複雑なシミュレーション環境を安定して大量生産する方法と、その環境で発生する相互作用ノイズに耐える学習手順の両方が必要です。AutoForgeは、この問題を解決するために、検証可能な高難度タスク(high-difficulty but easily verifiable tasks)に結び付いたシミュレーション環境を自動合成する統合パイプラインと、その環境特性に合わせて設計された環境レベルの強化学習(reinforcement learning, RL)アルゴリズムを提案します。中核となるアイデアは、環境を単なるプロンプトの集合ではなく、状態構造と演算関数の集合から成る実行可能なシステムとして捉え、ツール説明文書をもとにこうした環境を大規模に生成することにあります。特に、状態構造生成では属性名と実際の値を分離し、関数集合生成では状態構造に依存するPythonコードを自動合成することで、多様なタスクを再利用可能な環境スキーマの上に一貫して載せられるよう設計されています。

その後のツールシーケンス生成段階では、単純なツール列挙ではなく、グラフベースのrandom walkとシーケンス統合、推論ノード挿入、推論エッジ挿入を通じて、ツール呼び出しと高次推論が絡み合った有向非巡回グラフ(directed acyclic graph, DAG)を構成します。この手順は、単一の参照型タスクよりはるかに複雑な依存関係を必要とするタスクを作るためのもので、実際のエージェントがツールを呼び出した後に結果を解釈し、次の行動を決定する過程により近い難易度を提供します。生成されたグラフは再びタスク生成段階へ渡され、初期状態と最終状態をともに備えた検証可能な学習サンプルへと再精製され、正しさは特定のツール経路の一致ではなく、最終状態の一致可否によって判定されます。この点は、同じ目標を複数の経路で達成できるエージェント環境の特性を反映したものであり、データ生成と評価基準を状態中心に整合させている点に意義があります。

学習アルゴリズムであるERPOは、既存のGRPOを拡張し、シミュレートされたユーザー(simulated user)の不安定性と環境間の異質性を同時に扱えるようにしたものである。エージェントはツール呼び出しとユーザーへの情報要求を交互に行いながらロールアウトを進め、この過程でinterleaved thinkingによって以前の推論内容を保持したまま長期的な計画と再計画を継続する。さらに、誤ったユーザー行動を事前に識別して学習信号から除外するmasking erroneous user behaviors(MEU)戦略を適用することで、合成ユーザーのエラーが報酬推定とポリシー更新を汚染する問題を軽減する。最も重要な貢献は環境レベルのadvantage estimationであり、同一の質問束ではなく同じ環境内で報酬を正規化してadvantageを計算するため、異なる環境の難易度差や外れ値に対する感度が低く、学習の安定性が高い。

このような設計は最終的に、環境生成、相互作用手順、報酬推定という3つの層位を1つの一貫したフレームに束ね、エージェント型強化学習が求める大規模性、安定性、汎化可能性を同時に確保しようとする試みと見ることができる。tau-bench、tau2-Bench、VitaBenchでの検証とドメイン外汎化分析は、AutoForgeが単なる合成データ生成手法を超えて、実際のエージェント学習のための基盤インフラとして機能しうることを示唆している。

要旨(Abstract)

シミュレーション環境で強化学習(RL)を行うことは、言語ベースのエージェントを強化するための費用対効果が高く、非常にスケーラブルな方法を提供します。しかし、従来研究は半自動的な環境合成、または十分な難易度を欠く課題に限定されており、広がりと深さの両方が不足していました。さらに、これらの環境に統合されたシミュレーションユーザーの不安定性と、シミュレーション環境間の異質性は、エージェント型強化学習に追加の課題をもたらします。本研究では、(1) 高難度でありながら容易に検証可能な課題に関連するシミュレーション環境を、自動化かつスケーラブルに合成するための統合パイプラインと、(2) ユーザーの不安定性を効果的に緩和するだけでなく、環境レベルでadvantage estimationも実行することで学習効率と安定性を向上させる環境レベル強化学習アルゴリズムを提案します。tau-bench、tau2-Bench、VitaBenchを含むエージェントベンチマークに対する包括的な評価は、提案手法の有効性を検証します。追加の詳細分析は、ドメイン外汎化能力の高さを示しています。

Conducting reinforcement learning (RL) in simulated environments offers a cost-effective and highly scalable way to enhance language-based agents. However, previous work has been limited to semi-automated environment synthesis or tasks lacking sufficient difficulty, offering little breadth or depth. In addition, the instability of simulated users integrated into these environments, along with the heterogeneity across simulated environments, poses further challenges for agentic RL. In this work, we propose: (1) a unified pipeline for automated and scalable synthesis of simulated environments associated with high-difficulty but easily verifiable tasks; and (2) an environment level RL algorithm that not only effectively mitigates user instability but also performs advantage estimation at the environment level, thereby improving training efficiency and stability. Comprehensive evaluations on agentic benchmarks, including tau-bench, tau2-Bench, and VitaBench, validate the effectiveness of our proposed method. Further in-depth analyses underscore its out-of-domain generalization.

論文リンク

https://arxiv.org/abs/2512.22857


APEX: 動的データ選択を活用した自動プロンプトエンジニアリング専門家 / APEX: Automated Prompt Engineering eXpert with Dynamic Data Selection

論文紹介

大規模言語モデル(Large Language Models, LLMs)はプロンプトの表現方式に非常に敏感であるため、その潜在力を十分に引き出すには自動プロンプト最適化(automatic prompt optimization)が中核的な課題となる。従来の進化アルゴリズム(evolutionary algorithms)ベースのアプローチは、プロンプトを段階的に変形することに強みを示してきたが、開発データセットを固定の評価用リソースのように繰り返し使用し、計算予算を非効率に消費するという限界があった。APEX(Automatic Prompt Engineering eXpert)は、このボトルネックを解決するために、プロンプト探索とデータ活用を同時に最適化する新たな枠組みを提案する。この手法の中心には、最適化系譜(optimization lineage)に沿ってデータセットをEasy、Hard、Mixedの3階層へ動的に再構成する戦略があり、特にモデルの正答と誤答がともに現れるMixed階層を最も情報量の高い区間とみなす。この観点は、単に多くの例を見ることよりも、どの例がプロンプト改善に実質的なシグナルを与えるのかを識別することの方が重要であることを明確に示している。

APEXはMixed階層から2つの高価値なフロンティアを抽出する。1つは情報性の高い変異を生成するのに有利なaddressable frontierであり、もう1つは候補プロンプトの優劣を見分けるのに敏感なrank-sensitive frontierである。前者はプロンプト修正の方向性を与え、後者はどの変形が実際により良い性能につながるのかを判定できるようにするため、2つのフロンティアは探索と評価の役割を相互補完する。特にこの構造は、データセット全体を一括して扱う従来方式とは異なり、現在の最適化段階で最も意味のあるサンプルに計算を集中させる点で、データ効率を大きく引き上げる。言い換えれば、APEXはプロンプトをやみくもに大量に変えるのではなく、モデルの振る舞いが最も不安定で、したがって最も多くの情報を含む地点を戦略的に攻める。このような設計は、プロンプト最適化を単なる生成問題ではなく、データ選択と候補比較が結びついた適応的探索問題として再定義する。

実験では、APEXはIFBench、SimpleQA Verified、FACTS Groundingという性質の異なる3つのベンチマークで検証され、評価呼び出し5,000回という固定予算条件でも安定した改善を示した。その結果、初期プロンプト比でGemini 2.5 Flashでは平均11.2%、Gemma 3 27Bでは平均6.8%の性能向上を達成し、データ中心アプローチが効率的かつ強力なプロンプト最適化にどれほど重要かを実証した。こうした成果は、APEXが単に探索アルゴリズムを改善しただけでなく、プロンプトエンジニアリングの成否がどのデータを、いつ、どのように選ぶかにかかっていることを実証的に示している点で意義深い。結局のところ、この研究は自動プロンプト最適化の核心を「より多くの評価」ではなく「より賢いデータ利用」へと移し、限られた計算資源の中でより高い性能を達成できる実用的かつ汎化可能な方法論を提示している。

要旨(Abstract)

大規模言語モデル(LLM)はプロンプトの構成に非常に敏感であり、その潜在能力を最大限に引き出すには自動プロンプト最適化が必要です。進化アルゴリズムが支配的なパラダイムとして台頭してきましたが、データ効率という致命的なボトルネックを抱えています。現在の手法は開発用データセットを静的なベンチマークとして扱い、情報量の少ないデータにかなりの計算予算を浪費しています。本研究では、プロンプト探索とあわせてデータ利用も最適化する新しいフレームワーク APEX(Automatic Prompt Engineering eXpert)を紹介します。APEX は最適化の系譜に基づいて、データセットを Easy、Hard、Mixed の階層に動的に分類します。LLM の性能が割れるデータを特定する Mixed 層を優先することで、私たちは 2 つの高効率な部分集合を見いだします。1 つは情報量の多い変異を生成するための addressable frontier、もう 1 つは候補の品質を見分けるための rank-sensitive frontier です。私たちは IFBench、SimpleQA Verified、FACTS Grounding という 3 つの多様なベンチマークで APEX を評価します。5,000 回の評価呼び出しという固定予算の下で、APEX は優れたデータ効率により、Gemini 2.5 Flash では初期プロンプトより平均 11.2%、Gemma 3 27B では 6.8% 高い性能を示し、データ中心のアプローチが効率的かつ効果的なプロンプト最適化の鍵であることを示しています。

Large Language Models are highly sensitive to prompt formulation, necessitating automatic prompt optimization to unlock their full potential. While evolutionary algorithms have emerged as the dominant paradigm, they suffer from a critical bottleneck: data efficiency. Current methods treat the development dataset as a static benchmark, wasting significant compute budget on uninformative data. In this work, we introduce APEX (Automatic Prompt Engineering eXpert), a novel framework that optimizes the data usage alongside the prompt search. APEX dynamically stratifies the dataset into Easy, Hard, and Mixed tiers based on the optimization lineage. By prioritizing the Mixed tier, which identifies the data where the LLM has mixed performance, we identify two high-leverage subsets: the addressable frontier for generating informative mutations and the rank-sensitive frontier for distinguishing candidate quality. We evaluate APEX across three diverse benchmarks: IFBench, SimpleQA Verified, and FACTS Grounding. Under a fixed budget of 5,000 evaluation calls, due to its data efficiency, APEX outperforms the initial prompt by an average of 11.2% on Gemini 2.5 Flash and 6.8% on Gemma 3 27B, demonstrating that a data-centric approach is key to efficient and effective prompt optimization.

論文リンク

https://arxiv.org/abs/2606.11459


セルフハーネス(Self-Harness):自ら改善するハーネス / Self-Harness: Harnesses That Improve Themselves

論文紹介

大規模言語モデル(Large Language Model, LLM)ベースのエージェントの性能は、基盤モデルの推論能力だけで決まるのではなく、環境との相互作用を媒介するハーネス(harness)の設計に大きく左右されます。ハーネスはシステムプロンプト、ツールの使い方、検証手順、失敗回復ポリシーまでを含む運用レイヤーであり、同じモデルであってもどのハーネスを適用するかによって、まったく異なる行動パターンを示します。著者らはまさにこの点に注目し、ハーネスはもはや人間の専門家が手動で設計するだけの固定資産ではなく、モデルの実際の失敗パターンに基づいて自ら改善できるべきだという問題意識を提起します。この観点から提案された Self-Harness は、外部のより強力なエージェントや人間エンジニアに依存せず、LLM ベースのエージェントが自身の運用ハーネスを反復的に改善する新しいパラダイムを示します。

Self-Harness の中核となる方法論は、弱点発掘(Weakness Mining)、ハーネス提案(Harness Proposal)、提案検証(Proposal Validation)からなる反復ループにあります。まず実行トレース(execution traces)からモデルごとの失敗パターンを見つけ出し、どのような行動が繰り返し性能を損ねているのかを構造的に診断します。続いて、その弱点と直接結びつく最小限のハーネス修正案を多様に生成しますが、過度に大きな変更ではなく、実際の運用ポリシーを精緻に磨き上げるレベルの局所的な編集を目指します。最後に回帰テスト(regression testing)を通じて、候補修正が既存性能を損なわないかを検証したうえでのみ採用することで、単なるプロンプトチューニングではなく、安全で累積可能な改善体系を形成します。この設計は、ハーネスがモデルの行動を指示すると同時に、モデルの失敗から再び学習できることを技術的に実装したものです。

論文では Terminal-Bench-2.0 環境でこのフレームワークを検証しており、初期状態では非常に単純なハーネスだけを用いて、MiniMax M2.5、Qwen3.5-35B-A3B、GLM-5 という異なる系統の 3 つの基盤モデルに適用しました。実験の結果、ホールドアウト通過率はそれぞれ 40.5% から 61.9%、23.8% から 38.1%、42.9% から 57.1% へと上昇し、Self-Harness がモデルの種類にかかわらず一貫した改善効果を生み出せることを示しました。特に定性的分析では、改善が単に一般論的な指示文を付け加える方式ではなく、各モデルの弱点を具体的かつ実行可能なハーネス変更へと変換する過程であることが明らかになりました。これは、エージェント性能向上のボトルネックがモデルパラメータの内部だけにあるのではなく、運用ポリシーを精緻に学習させることだけでも実質的な性能改善が可能であることを強く示唆しています。結果として Self-Harness は、LLM ベースのエージェントがハーネスによって形作られるだけでなく、ハーネスを再び形作ることもできるという新たな研究方向を提示します。

要旨(Abstract)

LLMベースのエージェントの性能は、ベースモデルと、環境との相互作用を仲介するハーネスによって共同で形作られます。異なるモデルはそれぞれ異なる挙動を示すため、効果的なハーネス設計は本質的にモデルごとに異ならざるを得ません。しかし、エージェントのハーネスはいまだに主として人間の専門家によって設計されており、現代のLLMがますます多様化し急速に進化するにつれて、この方法はスケーラビリティに欠けます。本論文では、人間のエンジニアやより強力な外部エージェントに依存せず、LLMベースのエージェントが自らの運用ハーネスを自律的に改善する新たなパラダイム、Self-Harnessを紹介します。Self-Harnessは3段階からなる反復ループとして実装されます。Weakness Miningでは実行トレースからモデル固有の失敗パターンを特定し、Harness Proposalではそれらの失敗に結び付いた多様かつ最小限のハーネス修正案を生成し、Proposal Validationでは回帰テストを通過した場合にのみ候補編集を受け入れます。私たちは最小限の初期ハーネスと、異なる系統に属する3つのベースモデルであるMiniMax M2.5、Qwen3.5-35B-A3B、GLM-5を用いて、Terminal-Bench-2.0にSelf-Harnessを適用しました。3モデルすべてにおいて、Self-Harnessは一貫して性能を向上させ、ホールドアウト通過率はそれぞれ40.5%から61.9%へ、23.8%から38.1%へ、42.9%から57.1%へ上昇しました。定性的分析からは、Self-Harnessが単に一般的な指示を追加するのではなく、モデル固有の弱点を具体的で実行可能なハーネス変更へと効果的に変換していることも示されました。これらの結果は、LLMベースのエージェントがハーネスによって形作られるだけでなく、ハーネスを再構成することにも参加できる方向性を示唆しています。

The performance of LLM-based agents is jointly shaped by their base models and the harnesses that mediate their interaction with the environment. Because different models exhibit distinct behaviors, effective harness design is inherently model-specific. Yet agent harnesses are still largely engineered by human experts, a paradigm that scales poorly as modern LLMs become increasingly diverse and rapidly evolving. In this paper, we introduce Self-Harness, a new paradigm in which an LLM-based agent improves its own operating harness, without relying on human engineers or stronger external agents. We operationalize Self-Harness as an iterative loop with three stages: Weakness Mining, which identifies model-specific failure patterns from execution traces; Harness Proposal, which generates diverse yet minimal harness modifications tied to these failures; and Proposal Validation, which accepts candidate edits only after regression testing. We instantiate Self-Harness on Terminal-Bench-2.0 using a minimal initial harness and three base models from diverse families: MiniMax M2.5, Qwen3.5-35B-A3B, and GLM-5. Across all three models, Self-Harness consistently improves performance, with held-out pass rates increasing from 40.5% to 61.9%, 23.8% to 38.1%, and 42.9% to 57.1%, respectively. Qualitative analyses further show that Self-Harness does not simply add generic instructions, but effectively turns model-specific weaknesses into concrete, executable harness changes. These results suggest a path toward LLM-based agents that are not merely shaped by their harnesses, but can also participate in reshaping them.

論文リンク

https://arxiv.org/abs/2606.09498


大規模言語モデル(LLM)は古典的ハイパーパラメータ最適化アルゴリズムを上回れるか? autoresearch研究 / Can LLMs Beat Classical Hyperparameter Optimization Algorithms? A Study on autoresearch

論文紹介

大規模言語モデル(LLM)エージェントが実際のハイパーパラメータ最適化(HPO)環境で古典的アルゴリズムを上回れるかを検証したこの研究は、autoresearchリポジトリを実験場として、コード編集型最適化の可能性と限界を正面から掘り下げています。ここでエージェントは、単に数値のハイパーパラメータを選ぶだけでなく、学習コードそのものを直接修正しながら小規模言語モデルの性能を改善しなければならず、目標は固定された計算予算の中で検証bits-per-byte(validation bits-per-byte, val_bpb)を最小化することです。とりわけこの問題は、アーキテクチャ、オプティマイザ、学習ループ、モデルサイズまで含む広いコード空間を扱うため、言語理解能力と最適化状態の追跡能力の両方が求められる点で、一般的なブラックボックス最適化よりはるかに困難です。著者らはこの環境で、共分散行列適応進化戦略(Covariance Matrix Adaptation Evolution Strategy, CMA-ES)や木構造Parzen推定器(Tree-structured Parzen Estimator, TPE)のような古典的手法をLLMベースのアプローチと直接比較し、何が実際の性能を左右するのかを体系的に分析しています。その結果、固定された探索空間では古典的手法が一貫して優れており、特に生成された候補の多様性よりも、実行失敗を減らす安定性の方が重要であることが明らかになりました。

興味深い点として、LLMにソースコードを直接編集させることを許可すると、その差はある程度縮まるものの、当時の最先端モデルであるClaude Opus 4.6やGemini 3.1 Pro Previewを含めても、古典的手法に完全には追いつけませんでした。これは、LLMが個々のtrialでは有用な修正を提案できても、反復実験全体を通じて最適化状態を一貫して維持する点では依然として弱いことを示しています。一方で古典的アルゴリズムは、ドメイン知識には乏しくても、平均ベクトル、ステップサイズ、共分散行列のような明示的状態を安定して更新できるという強みを持ちます。こうした相補性に基づき、著者らはCentaurというハイブリッド手法を提案しています。これはCMA-ESの解釈可能な内部状態をLLMと共有し、言語モデルが探索の文脈をよりよく反映できるよう設計されたものです。Centaurは実験全体で最良の性能を示し、驚くべきことに0.8B規模の小型LLMだけでも純粋な古典的手法と純粋なLLM手法の両方を上回ることができました。これに対し、制約のないコード編集方式ではより大きなモデルが必要であり、これは単純なモデル規模よりも最適化インターフェースと状態表現の方が性能に大きく影響することを示唆しています。さらに著者らは、探索多様性、モデルスケーリング、そしてCentaurにおけるLLM提案trialの比率を精密に分析することで、LLMがいつ強みとなり、いつ弱みとなるのかを巧みに明らかにしています。総じてこの研究は、LLMが古典的最適化器を置き換える存在というより、明示的な探索状態を補完する協調的な構成要素として活用されたときに最も大きな効果を発揮することを説得力をもって示しています。

要旨(Abstract)

Autoresearchリポジトリは、LLMエージェントが学習コードを直接編集してハイパーパラメータを最適化できるようにします。私たちはこれをテストベッドとして用い、固定された計算予算の下で小規模言語モデルのハイパーパラメータを調整する問題について、古典的なHPOアルゴリズムとLLMベース手法を比較しました。Autoresearch全体で固定の探索空間を定義した場合、CMA-ESやTPEのような古典的手法は一貫してLLMベースのエージェントより優れた性能を示し、このとき探索の多様性よりもメモリ不足(OOM)による失敗を避けることの方が重要でした。LLMがソースコードを直接編集できるようにすると、古典的手法との格差は縮まりますが、執筆時点のClaude Opus 4.6やGemini 3.1 Pro Previewのような最先端モデルを使っても、その差を完全に埋めることはできませんでした。私たちは、LLMが複数の試行にわたって最適化の状態を追跡することに苦労する点を観察しました。一方で、古典的手法にはLLMのようなドメイン知識がありません。両アプローチの長所を組み合わせるために、私たちは平均ベクトル、ステップサイズ、共分散行列を含むCMA-ESの解釈可能な内部状態をLLMと共有するハイブリッド手法Centaurを提案します。Centaurは私たちの実験で最良の結果を達成し、0.8BのLLMだけでも、すべての古典的手法および純粋なLLM手法を上回るのに十分でした。制約のないコード編集は、古典的手法と競争するためにはより大きなモデルを必要とします。さらに私たちは、探索の多様性、0.8Bから最先端モデルまでのモデルスケーリング、そしてCentaurにおけるLLM提案試行の割合に関するアブレーション実験を追加分析しました。総合すると、私たちの結果は、LLMは古典的オプティマイザを置き換えるよりも補完する形で使うのが最も効果的であることを示唆しています。コードは https://github.com/ferreirafabio/autoresearch-automl 、インタラクティブデモは https://ferreirafabio.github.io/autoresearch-automl で確認できます。

The autoresearch repository enables an LLM agent to optimize hyperparameters by editing training code directly. We use it as a testbed to compare classical HPO algorithms against LLM-based methods on tuning the hyperparameters of a small language model under a fixed compute budget. When defining a fixed search space over autoresearch, classical methods such as CMA-ES and TPE consistently outperform LLM-based agents, where avoiding out-of-memory failures matters more than search diversity. Allowing the LLM to directly edit source code narrows the gap to the classical methods but does not close it, even with frontier models available at the time of writing such as Claude Opus 4.6 and Gemini 3.1 Pro Preview. We observe that LLMs struggle to track optimization state across trials. In contrast, classical methods lack the domain knowledge of LLMs. To combine the strengths of both, we introduce Centaur, a hybrid that shares CMA-ES's interpretable internal state, including mean vector, step-size, and covariance matrix, with an LLM. Centaur achieves the best result in our experiments, and a 0.8B LLM already suffices to outperform all classical and pure LLM methods. Unconstrained code editing requires larger models to be competitive with classical methods. We further analyze search diversity, model scaling from 0.8B to frontier models, and ablate the fraction of LLM-proposed trials in Centaur. All in all, our results suggest that LLMs are most effective as a complement to classical optimizers, not as a replacement. Code is available at https://github.com/ferreirafabio/autoresearch-automl & interactive demo at https://ferreirafabio.github.io/autoresearch-automl.

論文リンク

https://arxiv.org/abs/2603.24647

さらに読む

https://github.com/ferreirafabio/autoresearch-automl

https://ferreirafabio.github.io/autoresearch-automl


FP8で十分だ(第1部):HPCの聖杯と見なされてきたハードウェアFP64への反論 / FP8 is All You Need (Part 1): Debunking Hardware FP64 as the HPC Holy Grail

論文紹介

高性能計算(HPC, high-performance computing)の分野では、長らくハードウェアが直接提供する倍精度浮動小数点(FP64, double-precision floating point)演算が科学技術計算の必須条件であるかのように考えられてきましたが、この論文は、最新のAI最適化GPU世代ではその前提がもはや成り立たない可能性があると主張します。特に、NVIDIA Blackwell Ultra(B300)でネイティブFP64のスループットが大きく低下した点を出発点とし、むしろ豊富なFP8(8-bit floating point)テンサースループットを活用してFP64精度を復元する経路の方が実用的であり得ることを示します。そのために著者らは、中国剰余定理(CRT, Chinese Remainder Theorem)とOzaki Scheme IIを組み合わせ、値を複数の剰余モジュラチャネルに分解した後で再び正確に復元する方式を採用し、この過程がFP64レベルの数値精度を維持しながら低精度テンサー演算の高いスループットをそのまま活用できるよう設計しています。中核となる方法論は、単なる近似的な高速化ではなく、計算経路そのものを低精度テンサーコアへ移しつつ、結果は整数ベースの再構成によって厳密に戻す点にあり、この点で従来の倍精度中心アプローチとは明確に区別されます。

この論文のもう1つの重要な貢献は、従来のRooflineモデルを拡張したTensor-Memory Equilibrium(TME)モデルです。TMEは、単に演算性能とメモリ帯域幅のバランスを見るだけでなく、FP8ベースのエミュレーションがFP64ワークロードへ変換される過程で生じる計算倍率、帯域幅倍率、再構成遅延まで含めて実行性能を解釈します。著者らはこの枠組みを通じて、レジスタレベル融合(register-level fusion)によって中間結果を頻繁にメモリへ書き出さないようにすることで、bandwidth multiplierを事実上1に近づけられると説明し、その結果、復元オーバーヘッドがメモリの壁の背後に隠れる構造を提示します。言い換えれば、追加の変換と復元の段階が存在しても、全体性能はメモリ移動が支配的な区間ではほぼ損失なく維持できるということです。

実装の観点から提示された Ozaki Scheme II カーネルは、こうしたアイデアが実際にどのように動作するのかをよく示しています。入力行列とベクトルを複数の residue チャネルに分解し、各チャネルで wmma ベースのテンソル演算として累積し、最後に Garner 再構成によって 1 つの double 値に復元する構造は、精度と速度を切り分け、それぞれに最適なハードウェア経路を割り当てるという設計思想を表しています。このとき SpMV(sparse matrix-vector multiplication)、GEMV(general matrix-vector multiplication)、stencil といった代表的な HPC カーネルがすべて同じ論理で処理できる点は、このアプローチが特定の作業だけに限られた最適化ではないことを示しています。性能結果もこうした主張を裏づけており、著者らは B300 の native FP64 が大幅に弱体化した一方で、Ozaki II 経路ははるかに高い実効スループットでメモリ限界に到達でき、H100 と比べても同等以上の性能を示すと説明しています.

結局のところ、この研究が伝える核心的なメッセージは、倍精度の正確性を維持するために必ずしも native FP64 ハードウェアに依存しなければならない、という従来の通念がもはや絶対ではないという点です。FP8 テンソルスループット、CRT ベースの再構成、そしてレジスタレベルの融合を組み合わせれば、本番環境の HPC でも FP64 精度とメモリ帯域幅効率を同時に確保でき、むしろ旧世代の FP64 中心設計より高い性能ポテンシャルを得られる可能性があります。こうした主張はハードウェア設計の優先順位を見直させるものであり、将来の科学計算がもはや単一の倍精度演算ユニットに依存しなくてもよいことを強く示唆しています。

要旨(Abstract)

従来の HPC の通説では、ネイティブなハードウェア FP64 シリコンは科学計算の還元不可能な基盤、すなわち倍精度シミュレーションの「聖杯」だと考えられてきた。しかし本論文は、この通説は誤りだと主張する。B300 世代以降の AI 最適化 GPU では、豊富な FP8 テンソルスループットと中国剰余定理(Chinese Remainder Theorem)ベースの Ozaki Scheme II を組み合わせることで、典型的な HPC カーネル全般にわたって完全な FP64 精度でメモリルーフ水準の実行を回復できる。NVIDIA の Blackwell Ultra(B300) はネイティブ FP64 を約 1.3 TFLOPS にまで低下させ、B200 と比べて 31 倍の後退を見せ、メモリボトルネック型カーネル(SpMV、GEMV、stencil)さえ計算ボトルネックへと変えてしまう。私たちは 4 つの貢献を提示する。第一に、Roofline に計算倍率 α、帯域幅倍率 β、再構成レイテンシ γ を加えた統合解析モデルである Tensor-Memory Equilibrium(TME) モデルを提案する。第二に、レジスタレベルの融合が β → 1 を導くメカニズムであることを明らかにし、メモリウォールの背後ではエミュレーションが事実上ただ同然になることを示す。第三に、Ozaki II がエミュレートされた FP64 を約 1 TFLOPS のネイティブ下限から、B300 では約 500 TFLOPS、Rubin R200 では約 400 TFLOPS まで引き上げ、計算ボトルネック領域では B200 のネイティブ FP64 上限を 10 倍以上上回り、帯域幅ボトルネック領域ではメモリルーフと一致することを予測する。第四に、H100 をベースラインとした場合、Ozaki II は調査したすべてのワークロードで H100 と同等以上の性能を示す一方、B300 のネイティブ FP64 は最大 50 倍の後退をもたらす。さらに、併載の Part(2) 論文で報告された FFT 分析(残存する INT32 パイプ上での Kulisch 固定小数点再構成)と FP32+Kahan リダクションを組み合わせることで、B300 上で調査したすべてのカーネルクラスが完全な FP64 でメモリルーフに到達する。これらの証拠はタイトルの主張を裏づけている。すなわち、Ozaki II と Kulisch エスケープルートを備えた FP8 だけで本番用 HPC には十分であり、ネイティブ FP64 シリコンはもはや従来考えられてきたような聖杯ではない。

Conventional HPC dogma holds that native hardware FP64 silicon is the irreducible foundation of scientific computing -- the "holy grail" of double-precision simulation. This paper argues the dogma is wrong: on AI-optimised GPUs of the B300 generation and beyond, abundant FP8 tensor throughput combined with the Chinese Remainder Theorem-based Ozaki Scheme II recovers memory-roof execution at full FP64 accuracy across the canonical HPC kernel spectrum. NVIDIA's Blackwell Ultra (B300) collapses native FP64 to ~1.3 TFLOPS -- a 31x regression from the B200 -- rendering even memory-bound kernels (SpMV, GEMV, stencils) compute-bound. We make four contributions. First, a unified analytic model, the Tensor-Memory Equilibrium (TME) model, augmenting the Roofline with a compute multiplier alpha, a bandwidth multiplier beta, and a reconstruction latency gamma. Second, we identify register-level fusion as the mechanism driving beta -> 1, making emulation essentially free behind the memory wall. Third, we project that Ozaki II vaults emulated FP64 from the ~1 TFLOPS native floor to ~500 TFLOPS (B300) and ~400 TFLOPS (Rubin R200), exceeding even B200's native FP64 ceiling by over an order of magnitude in the compute-bound regime while matching the memory roof in the bandwidth-bound regime. Fourth, against an H100 baseline, Ozaki II matches or exceeds H100 on every workload studied, versus the up-to-50x regression that B300 native FP64 imposes. Combined with a companion FFT analysis (Kulisch fixed-point reconstruction on the surviving INT32 pipe) and FP32+Kahan reductions reported in the companion Part(2) paper, every surveyed kernel class on B300 reaches the memory roof at full FP64. The evidence supports the title's claim: FP8, with Ozaki II and Kulisch escape routes, is all one needs for production HPC; native FP64 silicon is no longer the holy grail it has been taken to be.

論文リンク

https://arxiv.org/abs/2606.06510


AI レビュアーの限界と機会: 45 人の専門科学者が Nature 系論文のレビューを検証した研究 / On the limits and opportunities of AI reviewers: Reviewing the reviews of Nature-family papers with 45 expert scientists

論文紹介

人工知能(AI)レビュアーが科学論文の査読プロセスに徐々に導入されるにつれ、その性能を最終判定の一致可否だけで判断するアプローチの限界が明確になりつつある。実際、レビュアーが残した個々の批判がどれほど正確で、どれほど重要な問題を突いており、その主張を裏づける根拠が十分かによって査読の質は大きく変わるため、著者らはこのようなミクロな水準の評価を通じて、AIレビュアーの実質的な能力と限界を精密に明らかにしようとした。そのために、物理、生物、保健科学分野の45人の専門科学者が参加する大規模アノテーション研究を設計し、Nature系列の論文82本について、人間とAIが作成した2,960件の個別批判をそれぞれ評価させた。各批判は correctness(正確性)、significance(重要性)、sufficiency of evidence(根拠の十分性)の3軸で評価され、合計469時間にわたる検討を通じて、AIレビュアーが実際に何を得意とし、どこで失敗するのかを多層的に分析できた。この方法論は、単に「AIが人間と似た結論を下すか」を問う水準を超え、どの種類の問題をよりうまく捉え、どの文脈ではむしろ過剰または不正確な判断を下すのかまで具体的に示すという点で意義が大きい。定量的な結果は、現在のAIレビュアーが決して表面的な補助ツールにとどまらないことを示唆する。たとえばGPT-5.2ベースのレビューエージェントは、3つの評価軸を統合した基準において各論文の最高評価の人間レビュアーより高い点数を記録し、Gemini 3.0 ProやClaude Opus 4.5を含む他のAIレビュアーも、すべての軸で最低評価の人間レビュアーを上回った。さらに、AIレビュアーが提起した正確な批判は、より頻繁に重要かつ根拠十分と評価され、人間が指摘しなかったイシューの26%を新たに捉えたことから、検出範囲の拡張性も確認された。しかし同時に、AIレビュアー同士は非常によく似た批判を繰り返す傾向が強く、人間よりはるかに高い重複率を示し、特定の下位分野に関する暗黙知の不足、長文コンテキスト管理の限界、些細な問題への過度な批判性といった反復的な弱点も明らかになった。付録の定性的事例は、これらの弱点が単なる誤答ではなく、分野別慣行の誤読、時間的文脈の誤り、修正可能性を考慮しない過剰な要求、コードと本文の不一致の見落としといった構造的問題につながっていることを示している。結局のところ本研究は、AIレビュアーが人間査読者を代替する存在というより、より広い範囲の問題を素早く検出し、細かな点検を行う補完的存在として有望であることを説得力をもって示し、今後の科学査読における人間とAIの役割分担を再定義する重要な根拠を提供する。

要旨(Abstract)

AIの性能向上に伴い、AIレビュアーが科学的ピアレビューに導入され始めているが、その能力と信頼性にはなお疑問が残っている。多くの科学者はこれを研究を評価する専門性を持たない確率的システムとみなす一方、別の研究者たちは具体的根拠なしにその準備状況をより楽観的に評価している。AIレビュアーが何を得意とし、どこで不足し、どのような課題が残されているのかを理解することは不可欠である。しかし既存のAIレビュアー評価は主に、その判定が人間の判定と一致するかどうか(例:スコア整合性、採択予測)に焦点を当てており、これはその能力と限界を明らかにするには不十分である。本論文では、このギャップを大規模な専門家アノテーション研究によって埋めることを目指す。物理科学、生命科学、保健科学分野のドメイン科学者45人が469時間をかけて、Nature系列論文82本に対する人間作成およびAI生成レビューから、各論文の特定の1つの側面を対象とした批判2,960件を、正確性、重要性、証拠の十分性の観点から評価した。3次元を総合した指標では、GPT-5.2で駆動するレビューエージェントが各論文の最高評価を受けた人間レビュアーを上回り(60.0% 対 48.2%、p = 0.009)、Gemini 3.0 ProおよびClaude Opus 4.5を含むすべてのAIレビュアーが、あらゆる次元で最下位評価の人間を上回る成果を示した。また、AIレビュアーの正確な批判は、より高い頻度で重要かつ十分な根拠を備えると評価され、人間が提起しなかった固有の問題の26%を追加で明らかにした。しかし、AIレビュアー間の重複は人間よりはるかに大きく(レビュアー間ペア基準で21% 対 3%)、複数ファイルにまたがる長いコンテキストを管理する能力の限界、細分化された分野知識の不足、些細な問題に対して過度に批判的な態度など、人間には共有されない16の反復的な弱点も見られた。総合すると、我々の結果は、現在のAIレビュアーが人間レビュアーを代替する存在ではなく、補完する存在であることを示している。

With the advancement of AI capabilities, AI reviewers are beginning to be deployed in scientific peer review, yet their capability and credibility remain in question: many scientists simply view them as probabilistic systems without the expertise to evaluate research, while other researchers are more optimistic about their readiness without concrete evidence. Understanding what AI reviewers do well, where they fall short, and what challenges remain is essential. However, existing evaluations of AI reviewers have focused on whether their verdicts match human verdicts (e.g., score alignment, acceptance prediction), which is insufficient to characterize their capabilities and limits. In this paper, we close this gap through a large-scale expert annotation study, in which 45 domain scientists in Physical, Biological, and Health Sciences spent 469 hours rating 2,960 individual criticisms (each targeting one specific aspect of a paper) from human-written and AI-generated reviews of 82 Nature-family papers on correctness, significance, and sufficiency of evidence. On a composite of all three dimensions, a reviewing agent powered by GPT-5.2 scores above each paper's top-rated human reviewer (60.0% vs. 48.2%, p = 0.009), while all three AI reviewers (including Gemini 3.0 Pro and Claude Opus 4.5) exceed the lowest-rated human across every dimension. AI reviewers' accurate criticisms are also more often rated significant and well-evidenced, and surface a distinct 26% of issues no human raises. However, AI reviewers overlap far more than humans do (21% vs. 3% for cross-reviewer pairs), and exhibit 16 recurring weaknesses humans do not share, such as limited subfield knowledge, lack of long context management over multiple files, and overly critical stance on minor issues. Overall, our results position current AI reviewers as complements to, not substitutes for, human reviewers.

論文リンク

https://arxiv.org/abs/2605.20668

さらに読む

https://prometheus-eval.github.io/cmu-paper-reviewer/

https://github.com/prometheus-eval/cmu-paper-reviewer

https://huggingface.co/datasets/prometheus-eval/peerreview-bench


LiveBrowseComp: 検索エージェントは本当に検索しているのか、それともすでに知っていることを検証しているだけなのか? / LiveBrowseComp: Are Search Agents Searching, or Just Verifying What They Already Know?

論文紹介

大規模言語モデル(Large Language Model, LLM)ベースの検索エージェント(search agents)は、外部Webを探索して最新の事実を見つけ出す能力で注目されていますが、実際には新しい情報を発見するよりも、すでに内在している知識(intrinsic knowledge)をWebで確認するだけにとどまる場合が少なくない、という問題意識がこの研究の出発点です。著者らはこの現象を内在知識依存性(Intrinsic Knowledge Dependence, IKD)と定義し、検索ツールがエージェントの推論を実際にどれほど拡張しているのかを精密に診断するため、3つの観点から分析を設計しました。第一に、ツールを完全に取り除いたクローズドブック(closed-book)設定で、モデルがどの程度回答できるかを測定し、既存ベンチマークがそもそもモデル内部の知識にどれほど取り込まれているかを確認しました。第二に、検索は許可しつつ正答を裏づける証拠文書を除去し、エージェントが真に外部証拠を活用しているのか、それともすでに思い浮かべた仮説を確認することにしか依存していないのかを調べました。第三に、検索軌跡を追跡し、クエリがモデル内部で生成された仮説から出発したのか、あるいは検索結果から得た手がかりから出発したのかを分類することで、検索が発見(discovery)の過程なのか検証(verification)の過程なのかを区別しようとしました。この方法論は単純な正答率の比較を超えて、検索エージェントの実際の動作原理を解剖する点で意義があります。

分析結果は、既存の検索ベンチマークが検索能力と記憶ベースの再確認を混同しうることを明確に示しています。あるモデルはツールなしでもBrowseCompの質問の最大44.5%に答えられ、検索クエリの半分以上は検索結果ではなくモデル内部で生成した仮説から始まっており、正答を支持する証拠を除去すると、むしろクローズドブック基準よりも低い性能を示しました。これは、検索エージェントがWebで新しい事実を見つけ出すよりも、すでに知っている内容を検索で検証する傾向が強いことを示唆しています。この問題を解決するため、著者らはLiveBrowseCompという新しいディープサーチ(deep-search)ベンチマークを提案します。LiveBrowseCompは、ベンチマーク構築時点から直近90日以内に公開された事実に依存する335個の人手作成の質問で構成され、GDELT、TMDB、RAWG、CVE/NVD、SportsDB、USGSの6つの継続更新ソースをもとに作られており、既存モデルの事前知識では容易に解けないよう設計されています。また、世界的に広く知られた出来事を除外することで、単純な想起や常識的推測が正答につながる可能性を減らしました。その結果、評価されたすべてのエージェントはクローズドブック精度2%未満にとどまり、検索を付加したスコアもBrowseComp比で25〜40ポイント低下し、従来のモデル順位はもはや安定して性能を予測できなくなりました。結局のところ、この研究は検索エージェントの性能を評価する際に、「すでに知っていることをどれだけうまく確認できるか」ではなく、「現在の知識の境界を越えて未知の事実をどれだけ実際に見つけ出せるか」を見るべきだという点を説得力をもって示しています。

要旨(Abstract)

大規模言語モデル(LLM)ベースの検索エージェントは本当に検索を行っているのでしょうか。それともWebを使って、すでに知っている内容を検証しているだけなのでしょうか。私たちはBrowseCompにおいて、3つの診断指標を通じてこの問いを検討します。私たちの分析は、内在知識依存性(Intrinsic Knowledge Dependence, IKD)を明らかにします。すなわち、ツールにアクセスできる場合でも、エージェントは検索で得た外部証拠よりも、検索前にモデルにエンコードされていた内在的知識にしばしば依存します。エージェントはツールなしでBrowseCompの質問の最大44.5%に回答し、検索クエリの半分以上を検索で得た手がかりではなく内部的に生成した仮説から作り出し、回答を裏づける証拠を除去するとクローズドブックのベースラインよりも悪い性能を示します。これらの結果は、静的な検索ベンチマークが証拠に基づく発見よりも記憶に支えられた検証を報い、エージェントがすでに知っていることと実際に見つけられることを混同させうることを示唆しています。

続いて私たちは、内在的知識の範囲を超えてエージェントを評価するよう設計されたディープサーチベンチマーク、LiveBrowseCompを紹介します。このベンチマークは人手で作成された335個の質問から構成され、その回答はベンチマーク構築直前90日以内に公開された事実に依存します。質問は6つの更新ソースから抽出され、世界的に広く知られた出来事を除外するようフィルタリングされました。LiveBrowseCompでは、評価されたすべてのエージェントのクローズドブック精度は2%未満にとどまり、検索拡張スコアはBrowseComp比で25〜40ポイント低下し、従来のモデル順位はもはや性能を安定して予測しません。LiveBrowseCompは https://huggingface.co/datasets/Forival/LiveBrowseComp で利用できます。

Are LLM-based search agents genuinely searching, or using the web to verify what they already know? We study this question on BrowseComp with three diagnostics. Our analysis reveals Intrinsic Knowledge Dependence (IKD): even with tool access, agents often rely on intrinsic knowledge -- information encoded in the model before retrieval -- rather than on external evidence. Agents answer up to 44.5% of BrowseComp questions without tools, generate more than half of their search queries from internally produced hypotheses rather than retrieved leads, and perform worse than closed-book baselines when answer-supporting evidence is removed. These results suggest that static search benchmarks can reward memory-backed verification rather than evidence-driven discovery, conflating what agents already know with what they can find. We then introduce LiveBrowseComp, a deep-search benchmark designed to evaluate agents beyond intrinsic coverage. It contains 335 human-authored questions whose answers depend on facts published within the 90 days preceding benchmark construction, drawn from six updated sources and filtered to exclude globally salient events. On LiveBrowseComp, all evaluated agents fall below 2% closed-book accuracy, search-augmented scores drop by 25-40 points relative to BrowseComp, and prior model rankings no longer reliably predict performance. LiveBrowseComp is available at https://huggingface.co/datasets/Forival/LiveBrowseComp.

論文リンク

https://arxiv.org/abs/2605.28721

さらに読む

https://huggingface.co/datasets/Forival/LiveBrowseComp


高次元実験データから動力学の位相空間を学習するための情報ボトルネック / Information bottleneck for learning the phase space of dynamics from high-dimensional experimental data

論文紹介

高次元の映像や時系列観測から、システムの実際のダイナミクスを支配する状態変数を見いだす問題は、物理学・生物学・複雑系研究全般において非常に重要な課題と考えられてきました。観測値そのものにはノイズや冗長情報が多く含まれますが、その背後には比較的低次元の位相空間(phase space)構造が存在することが多いため、核心は観測をそのまま復元することではなく、そのダイナミクスを最もよく説明する潜在座標を見つけることにあります。著者らはこの観点に基づき、DySIB(Dynamical Symmetric Information Bottleneck、動的対称情報ボトルネック)を提案し、過去と未来の観測ウィンドウ間の予測相互情報量(predictive mutual information)を最大化すると同時に、潜在表現の複雑さを抑制することで低次元表現を学習します。このアプローチの重要な特徴は、再構成誤差を直接最小化するオートエンコーダ(autoencoder)とは異なり、入力映像を復元せず潜在空間のみで学習が行われる点にあり、そのためダイナミクス予測に必要な情報と無関係な細かな変動を大胆に取り除けることです.

DySIBの方法論は、情報ボトルネック(Information Bottleneck)原理をダイナミクス学習問題へ拡張したもので、潜在表現が単なる圧縮ベクトルではなく、未来をよく予測する十分統計量(sufficient statistic)に近い役割を果たすよう設計されています。そのために、過去と未来を対称的に扱う構造を採用し、InfoNCE下界を用いて予測情報を推定し、ガウス事前分布によって表現の複雑さを制御します。また、時間遅延埋め込みと共有エンコーダ(shared encoder)を使って過去と未来のウィンドウを同一の幾何学的基準で写像することで、潜在空間における比較可能性と解釈可能性を高めています。この設計は、単純な未来フレーム生成ではなく、ダイナミクスの本質的構造を含む座標系を学習することに焦点を当てている点で、既存の予測モデルと区別されます。

実証検証は物理振り子(physical pendulum)の実験映像データに対して行われました。これは実際の状態空間が既知のシステムであるため、学習された潜在座標の整合性を厳密に評価できる理想的な試験台となります。結果としてDySIBは、潜在次元と時間ウィンドウ長をデータに合わせて自己整合的に選択しながら、振り子の実際の自由度と一致する2次元表現を復元し、学習された座標は角度と角速度に滑らかに対応しました。さらにこの表現は、安定平衡点、不安定サドル、separatrix、回転と振動を区別する環状の位相構造まで再現しており、単なる視覚的類似性を超えて、次元性・位相・幾何構造を同時に捉えたことを示しました。低解像度の映像でもこのような復元が可能だった点は、DySIBが不要な観測の細部を捨て、ダイナミクス的に重要な情報のみを抽出するのに有効であることを裏づけています。

この研究の意義は、高次元観測から解釈可能なダイナミクス座標を直接発見できることを示した点にあります。とりわけ、物理学で長年用いられてきた状態変数・有効変数・秩序変数の概念をデータ駆動で再構成したという意味で、DySIBは伝統的な理論物理と現代表現学習をつなぐ方法論的な橋渡しと見なせます。同時に、潜在表現の非一意性、ゲージ自由度(gauge freedom)、より複雑な非線形システムへの拡張可能性といった限界も明確に示しており、今後は強いノイズやカオス系、多重スケール系への一般化や結合の余地を残しています。それでも本論文は、予測情報だけでも実際の位相空間の座標を復元できることを実験的に立証することで、生の観測から解釈可能な運動方程式へとつながる新たな研究経路を提示しています。

要旨(Abstract)

高次元観測値からシステムの動的状態変数を同定することは、物理科学全般にわたる中心的問題です。課題は、状態変数が直接観測できず、教師なしで生の高次元データから推論しなければならない点にあります。ここでは、過去および未来の観測ウィンドウ間の予測相互情報量を最大化しつつ、表現の複雑さにペナルティを課すことで、時系列データの低次元表現を学習する手法DySIB(Dynamical Symmetric Information Bottleneck、動的対称情報ボトルネック)を紹介します。この目的関数は完全に潜在空間上で動作し、観測値の再構成を必要としません。私たちは、実際の状態空間が既知である物理振り子の実験ビデオデータセットにDySIBを適用しました。学習アーキテクチャのハイパーパラメータをデータによって自己整合的に設定したこの手法は、振り子の位相空間の次元性・位相・幾何と一致する2次元表現を復元し、学習された座標は標準的な角度と角速度に滑らかに整列しました。これらの結果は、よく特性化された実験システムにおいて、潜在空間の予測情報を用いることで、高次元データから解釈可能な動的座標を直接復元できることを示しています。

Identifying the dynamical state variables of a system from high-dimensional observations is a central problem across physical sciences. The challenge is that the state variables are not directly observable and must be inferred from raw high-dimensional data without supervision. Here we introduce DySIB (Dynamical Symmetric Information Bottleneck) as a method to learn low-dimensional representations of time-series data by maximizing predictive mutual information between past and future observation windows while penalizing representation complexity. This objective operates entirely in latent space and avoids reconstruction of the observations. We apply DySIB to an experimental video dataset of a physical pendulum, where the underlying state space is known. The method, with hyperparameters of the learning architecture set self-consistently by the data, recovers a two-dimensional representation that matches the dimensionality, topology, and geometry of the pendulum phase space, with the learned coordinates aligning smoothly with the canonical angle and angular velocity. These results demonstrate, on a well-characterized experimental system, that predictive information in latent space can be used to recover interpretable dynamical coordinates directly from high-dimensional data.

論文リンク

https://arxiv.org/abs/2604.24662


AutoScientists: 長期実行型科学実験のための自己組織化エージェントチーム / AutoScientists: Self-Organizing Agent Teams for Long-Running Scientific Experimentation

[IMG] AutoScientists: 長期実行型科学実験のための自己組織化エージェントチーム / AutoScientists: Self-Organizing Agent Teams for Long-Running Scientific Experimentation
|1028x488

論文紹介

長期的な科学実験では、仮説を立て、実験を設計し、実行した後、その結果に応じて再び方向を修正するという循環が繰り返されますが、AutoScientistsはこの過程を1つの反復的探索問題として定式化し、それを実行する分散型エージェント体系を提案しています。既存の人工知能エージェントが概して単一の研究軌道をたどるか、中央プランナーによって固定された目標だけを実行するのに対し、この手法は複数のエージェントが共有状態(shared state)をともに読み書きしながら、自らチームを編成・再編成するよう設計されています。中核となるアイデアは、中央から一括で指示する代わりに、証拠が蓄積される流れに合わせてエージェントが有望な仮説の周囲へ自律的に集まり、実験資源を使う前に互いの提案を批判的に検討し、成功と失敗の両方を共有して不要な重複探索を減らすことにあります。そのために論文では、タスク記述、初期プログラム、学習データセット、評価指標に基づいて、探索空間内で評価性能を最大化するプログラムを見つける最適化問題を定義し、学習データと検証データ、必要に応じて交差検証(cross-validation, CV)を区別することで、長期実験の評価基準を明確にしています。このような問題設定は、科学的発見を単なる一回限りの予測ではなく、プログラムレベルの修正と検証が継続的に積み重なる研究プロセスとして捉え直させるという点で意義があります.

AutoScientistsの動作方式は、主に討論段階と実行段階の循環から成ります。討論段階では、エージェントたちが現在の最良候補であるチャンピオンモデル、過去の実験記録、共有フォーラムの内容を基に、どの仮説が有望かを議論し、初期には多様な探索方向を広く提案したうえで、互いのアイデアを批判しながら探索空間の死角を見つけ出します。続く実行段階では、こうして形成されたチームが並列で実験を進め、各実験の結果を実験ログと共有フォーラムに記録して、他チームがすぐ参照できるようにします。特にこのシステムでは、アナリスト役のエージェントがまだ試されていない方向を発掘して提案し、実験者役のエージェントが実際のコード変更と学習を行うという形で機能を分担し、長い実験過程でしばしば生じるボトルネックを減らします。また、失敗した実験を別個のリストに保存して同じ方向を繰り返さないようにし、性能向上が統計的ノイズである可能性がある場合は、追加シードで再検証した後にのみ昇格させる手順を設けることで、偶然の改善を実際の進展と誤認しないようにしています。

このアプローチの最大の強みは、単により多くのアイデアを出すことではなく、実験知識が蓄積される構造を体系的に作った点にあります。エージェントは内部状態と記憶を維持しながら長期間にわたって学習し、成功した修正のメカニズムを分析して後続の仮説へとつなげ、失敗した方向までもシステム全体の学習資産として保存します。その結果、AutoScientistsは研究成果として最高性能のプログラムだけでなく、モデルカード(model card)や研究結果レポートまで残し、再現性と解釈可能性をともに確保します。この設計は、長期実行型の科学実験で重要な適応性、並列性、そして失敗からの学習を1つの体系にまとめ上げている点で、既存のエージェントアプローチと明確に区別されます。実際、この手法は生物医学機械学習、言語モデル学習最適化、タンパク質適合度予測で既存エージェントを上回る成果を示し、BioML-Benchでは24課題基準で平均リーダーボード百分位 74.4% を記録するとともに、最も強力な単一エージェントより 8.33% 改善した結果を達成しました。また、GPT学習最適化では目標の検証 bits-per-byte に Autoresearch より 1.9倍速く到達し、ProteinGymではACE2-Spike結合問題と全217件のassayの両方で既存最高性能を上回る改善を示し、分散型の自己組織化エージェントが長期的な科学探索に実質的な効果を発揮しうることを実証しています。

要旨(Abstract)

科学研究は、仮説の生成、実験設計、実行、修正という反復的なサイクルを通じて進む。AIエージェントはこのプロセスの一部を自動化できるが、既存のアプローチはたいてい単一の研究軌道をたどるか、固定された目標を持つ中央プランナーを通じて調整される。その結果、並列探索を継続したり、実験的証拠の変化に適応したり、長期実行の実験で失敗した方向性に関する知識を保持したりすることが難しい。私たちは、長期実行の計算科学実験のための分散型AIエージェントチームであるAutoScientistsを紹介する。エージェントは共有された実験状態を解釈し、有望な仮説を中心に自律的にチームを編成し、実験用の計算資源を使う前に提案を批判的に検討し、成功と失敗を共有して重複探索を減らす。同一の実験予算の下で、AutoScientistsは生物医学機械学習、言語モデル学習最適化、タンパク質適合度予測にわたって既存のAIエージェントを上回る性能を示す。生物医学画像、タンパク質工学、シングルセルオミクス、創薬を網羅するBioML-Benchの24タスクにおいて、AutoScientistsは平均リーダーボード百分位74.4%を達成し、最も強力なAIエージェントを+8.33%上回った。GPT学習最適化では、AutoScientistsはAutoresearchよりも目標検証bits-per-byteに1.9倍速く到達し、単一エージェントのアプローチがまったく改善を見つけられなかった出発時のチャンピオン状態からも改善を継続的に発見した(採用された改善は7件対0件)。ProteinGymの適合度予測では、AutoScientistsはACE2-Spike結合に対する手法を発見し、現在の最先端モデルをSpearman相関係数で+12.5%上回った。さらに、同じ手法をProteinGymの全217アッセイに修正なしで適用した場合、従来の最先端をSpearman相関係数で+6.5%上回った。

Scientific research proceeds through iterative cycles of hypothesis generation, experiment design, execution, and revision. AI agents can automate parts of this process, but existing approaches typically follow a single research trajectory or coordinate through a central planner with fixed objectives. As a result, they struggle to sustain parallel exploration, adapt as experimental evidence changes, or preserve knowledge of failed directions over long-running experiments. We introduce AutoScientists, a decentralized team of AI agents for long-running computational scientific experimentation. Agents interpret a shared experimental state, self-organize into teams around promising hypotheses, critique proposals before using experimental compute, and share successes and failures to reduce redundant exploration. Under matched experimental budgets, AutoScientists improves over prior AI agents across biomedical machine learning, language-model training optimization, and protein fitness prediction. On BioML-Bench, spanning biomedical imaging, protein engineering, single-cell omics, and drug discovery, AutoScientists achieves a mean leaderboard percentile of 74.4% across 24 tasks, improving over the strongest AI agent by +8.33%. On GPT training optimization, AutoScientists reaches a target validation bits-per-byte 1.9x faster than Autoresearch and continues discovering improvements from a starting champion where the single-agent approach finds none (7 vs. 0 accepted improvements). On ProteinGym fitness prediction, AutoScientists discovers a method for ACE2-Spike binding that improves over the current state-of-the-art model by +12.5% in Spearman correlation. Applied without modification across all 217 ProteinGym assays, the same method improves over the prior state of the art by +6.5% (Spearman correlation).

論文リンク

https://arxiv.org/abs/2605.28655

さらに読む

https://autoscientists.openscientist.ai/

https://github.com/mims-harvard/AutoScientists


⚠️広告⚠️: 🔥PyTorch韓国ユーザーコミュニティ🇰🇷がまとめたこの記事は役に立ちましたか? 会員登録すると主要な記事をメール💌でお届けします! TelegramSlack/Discord/Teams/Dooray/GoogleChat など でも新着記事の通知を受け取れます。 :D

まだコメントはありません。

まだコメントはありません。