Microsoft Agent Lightning: コード修正なしでAIエージェントを強化学習訓練できるフレームワーク
(aisparkup.com)Microsoft Researchが公開したAgent Lightningは、既存のAIエージェントコードをほとんど変更せずに強化学習(RL)で訓練できる革新的なフレームワークです。LangChain、AutoGenなど多様なエージェントフレームワークと互換性があり、SQLエージェントのテストでは正確度を73.2%から80.4%へ引き上げるなど、実証された成果を示しました。
主な特徴
- Training-Agent Disaggregationアーキテクチャ: エージェント実行とRL訓練を完全に分離。Sidecarデザインにより非侵襲的なデータ収集(プロンプト、ツール呼び出し、報酬シグナル)を実現し、コード変更ゼロを可能にします。
- フレームワーク非依存: OpenAI互換APIを通じて、LangChain、OpenAI Agent SDK、CrewAIなど、どのエージェントでも即座に連携可能です。
- GRPOアルゴリズム: PPOの変種で、グループ内の相対的な性能比較を通じてメモリ効率よく学習します。LightningRLは複雑なマルチターン相互作用をtransitionに分解し、credit assignmentを処理します。
実践適用例: SQLエージェント
LangGraphベースのSQLエージェント(自然言語の質問をSQLクエリに変換し、実行し、エラー修正ループを回す)を対象に訓練:
- 訓練プロセス: サーバー実行後、クライアント接続だけで開始。例: Qwen2.5-Coder-3Bモデルを使用。
- 成果: Spiderデータセットで正確度73.2% → 80.4%、平均transition数3.30 → 2.60へと効率性が向上。7Bモデルは84.4%を達成。
インストールと使用方法
pip install agentlightning(追加: [apo] または [verl] オプション)。- GitHub examplesにText-to-SQL、RAGなどの事例を提供。マルチエージェントシステムでも選択的な最適化が可能です。
- 対応アルゴリズム: GRPO/PPO、Supervised Fine-tuning、APO(プロンプト最適化)。
今後の展望
オープンソースプロジェクトとしてコミュニティの活性化が進んでおり(DeepWerewolfなど)、今後はより豊かな報酬メカニズム、Off-policy RL、カリキュラム学習などへの拡張が予定されています。エージェント開発と最適化を分離することで、適応型エージェント時代を切り開く見込みです。
まだコメントはありません。