7 ポイント 投稿者 xguru 2023-02-28 | まだコメントはありません。 | WhatsAppで共有
  • 7B、13B、33B、65Bの4つのサイズで公開
  • はるかに小規模でありながら、データ学習の強化とファインチューニングにより、より大規模なモデルと比較可能な効率的モデル
  • 33B/65Bは1兆4,000億個のトークンで訓練(7Bは1兆)
  • "13Bモデルは175BのGPT-3を上回り、65Bははるかに大規模なChinchilla70BおよびPaLM-540Bと競争可能"
  • 人工知能研究など、非商用目的でのみ利用可能(申請して承認が必要)

まだコメントはありません。

まだコメントはありません。