LlamaGym - オンライン強化学習によるLLMエージェントのファインチューニング
(github.com/KhoomeiK)- LLMベースのエージェントを強化学習(RL)によって微調整することを簡素化
- 現在のLlamaGymは、Gym環境でエージェントのプロンプトやハイパーパラメータをすばやく反復・実験できる単一の
Agent抽象クラスを提供 - ユーザーは
Agentクラスに3つの抽象メソッドを実装することで、独自のLLMベースのエージェントを定義できる
使い方
- LlamaGymをインストールした後、
Agentクラスに3つの抽象メソッドを実装してブラックジャックのプレイヤーエージェントを作成する。 - ベースとなるLLMを定義してエージェントをインスタンス化し、その後RLループを記述して、エージェントが行動し、報酬を受け取り、エピソードを終了するようにする。
- 強化学習によるオンライン学習は難しい部分があるため、ハイパーパラメータの調整が必要であり、教師ありファインチューニングの段階が役立つことがある。
まだコメントはありません。