MosaicML、MPT-7B-8Kモデルを公開

xguru · 2023-07-21T10:02:02+09:00

8kコンテキスト長をサポートする、70億パラメータのオープンソースLLM MPT-7Bに加えて、500Bトークンのデータを用い、256基のNVIDIA H100で3日間トレーニング 3つのモデルを公開: MPT-7B-8k、MPT-7B-8k-Instruct、MPT-7B-8k-Chat 商用利用が可能 ALiBi(Attention with Linear Biases Enables Input Length Extrapolation)により8k入力をサポート FlashAttentionとFasterTransformerにより高速な学習と推論を実現

(mosaicml.com)

9 ポイント投稿者 xguru 2023-07-21 | まだコメントはありません。 | WhatsAppで共有

8kコンテキスト長をサポートする、70億パラメータのオープンソースLLM
MPT-7Bに加えて、500Bトークンのデータを用い、256基のNVIDIA H100で3日間トレーニング
3つのモデルを公開: MPT-7B-8k、MPT-7B-8k-Instruct、MPT-7B-8k-Chat
商用利用が可能
ALiBi(Attention with Linear Biases Enables Input Length Extrapolation)により8k入力をサポート
FlashAttentionとFasterTransformerにより高速な学習と推論を実現

MosaicML、MPT-7B-8Kモデルを公開

関連記事

まだコメントはありません。