MosaicML、MPT-7B-8Kモデルを公開
(mosaicml.com)- 8kコンテキスト長をサポートする、70億パラメータのオープンソースLLM
- MPT-7Bに加えて、500Bトークンのデータを用い、256基のNVIDIA H100で3日間トレーニング
- 3つのモデルを公開: MPT-7B-8k、MPT-7B-8k-Instruct、MPT-7B-8k-Chat
- 商用利用が可能
- ALiBi(Attention with Linear Biases Enables Input Length Extrapolation)により8k入力をサポート
- FlashAttentionとFasterTransformerにより高速な学習と推論を実現
まだコメントはありません。