13 ポイント 投稿者 davespark 2025-10-27 | まだコメントはありません。 | WhatsAppで共有

Microsoft Researchが公開したAgent Lightningは、既存のAIエージェントコードをほとんど変更せずに強化学習(RL)で訓練できる革新的なフレームワークです。LangChain、AutoGenなど多様なエージェントフレームワークと互換性があり、SQLエージェントのテストでは正確度を73.2%から80.4%へ引き上げるなど、実証された成果を示しました。

主な特徴
  • Training-Agent Disaggregationアーキテクチャ: エージェント実行とRL訓練を完全に分離。Sidecarデザインにより非侵襲的なデータ収集(プロンプト、ツール呼び出し、報酬シグナル)を実現し、コード変更ゼロを可能にします。
  • フレームワーク非依存: OpenAI互換APIを通じて、LangChain、OpenAI Agent SDK、CrewAIなど、どのエージェントでも即座に連携可能です。
  • GRPOアルゴリズム: PPOの変種で、グループ内の相対的な性能比較を通じてメモリ効率よく学習します。LightningRLは複雑なマルチターン相互作用をtransitionに分解し、credit assignmentを処理します。
実践適用例: SQLエージェント

LangGraphベースのSQLエージェント(自然言語の質問をSQLクエリに変換し、実行し、エラー修正ループを回す)を対象に訓練:

  • 訓練プロセス: サーバー実行後、クライアント接続だけで開始。例: Qwen2.5-Coder-3Bモデルを使用。
  • 成果: Spiderデータセットで正確度73.2% → 80.4%、平均transition数3.30 → 2.60へと効率性が向上。7Bモデルは84.4%を達成。
インストールと使用方法
  • pip install agentlightning(追加: [apo] または [verl] オプション)。
  • GitHub examplesにText-to-SQL、RAGなどの事例を提供。マルチエージェントシステムでも選択的な最適化が可能です。
  • 対応アルゴリズム: GRPO/PPO、Supervised Fine-tuning、APO(プロンプト最適化)。
今後の展望

オープンソースプロジェクトとしてコミュニティの活性化が進んでおり(DeepWerewolfなど)、今後はより豊かな報酬メカニズム、Off-policy RL、カリキュラム学習などへの拡張が予定されています。エージェント開発と最適化を分離することで、適応型エージェント時代を切り開く見込みです。

まだコメントはありません。

まだコメントはありません。