BloombergGPT - 金融向け大規模言語モデル
(arxiv.org)- 幅広い金融データで学習した500億(50B)パラメータの言語モデル
- ブルームバーグのデータソースに基づく3630億トークンのデータセットを構築し、3450億の一般データセットで補強
- 一般的なLLMベンチマークで性能低下はなく、金融業務では既存モデルよりはるかに優れた性能を示す
- モデリングの選択、学習プロセス、評価方法論についても説明
- 次のステップとして、BloombergGPTのトレーニング経験を詳しく扱ったトレーニングログ(クロニクル)を公開する計画
まだコメントはありません。