Microsoft Agent Lightning: コード修正なしでAIエージェントを強化学習訓練できるフレームワーク

(aisparkup.com)

13 ポイント投稿者 davespark 2025-10-27 | まだコメントはありません。 | WhatsAppで共有

Microsoft Researchが公開したAgent Lightningは、既存のAIエージェントコードをほとんど変更せずに強化学習（RL）で訓練できる革新的なフレームワークです。LangChain、AutoGenなど多様なエージェントフレームワークと互換性があり、SQLエージェントのテストでは正確度を73.2%から80.4%へ引き上げるなど、実証された成果を示しました。

主な特徴

Training-Agent Disaggregationアーキテクチャ: エージェント実行とRL訓練を完全に分離。Sidecarデザインにより非侵襲的なデータ収集（プロンプト、ツール呼び出し、報酬シグナル）を実現し、コード変更ゼロを可能にします。
フレームワーク非依存: OpenAI互換APIを通じて、LangChain、OpenAI Agent SDK、CrewAIなど、どのエージェントでも即座に連携可能です。
GRPOアルゴリズム: PPOの変種で、グループ内の相対的な性能比較を通じてメモリ効率よく学習します。LightningRLは複雑なマルチターン相互作用をtransitionに分解し、credit assignmentを処理します。

実践適用例: SQLエージェント

LangGraphベースのSQLエージェント（自然言語の質問をSQLクエリに変換し、実行し、エラー修正ループを回す）を対象に訓練:

訓練プロセス: サーバー実行後、クライアント接続だけで開始。例: Qwen2.5-Coder-3Bモデルを使用。
成果: Spiderデータセットで正確度73.2% → 80.4%、平均transition数3.30 → 2.60へと効率性が向上。7Bモデルは84.4%を達成。

インストールと使用方法

pip install agentlightning（追加: [apo] または [verl] オプション）。
GitHub examplesにText-to-SQL、RAGなどの事例を提供。マルチエージェントシステムでも選択的な最適化が可能です。
対応アルゴリズム: GRPO/PPO、Supervised Fine-tuning、APO（プロンプト最適化）。

今後の展望

オープンソースプロジェクトとしてコミュニティの活性化が進んでおり（DeepWerewolfなど）、今後はより豊かな報酬メカニズム、Off-policy RL、カリキュラム学習などへの拡張が予定されています。エージェント開発と最適化を分離することで、適応型エージェント時代を切り開く見込みです。