9 ポイント 投稿者 xguru 2023-07-21 | まだコメントはありません。 | WhatsAppで共有
  • 8kコンテキスト長をサポートする、70億パラメータのオープンソースLLM
  • MPT-7Bに加えて、500Bトークンのデータを用い、256基のNVIDIA H100で3日間トレーニング
  • 3つのモデルを公開: MPT-7B-8k、MPT-7B-8k-Instruct、MPT-7B-8k-Chat
  • 商用利用が可能
  • ALiBi(Attention with Linear Biases Enables Input Length Extrapolation)により8k入力をサポート
  • FlashAttentionとFasterTransformerにより高速な学習と推論を実現

まだコメントはありません。

まだコメントはありません。