7 ポイント 投稿者 xguru 2021-01-19 | まだコメントはありません。 | WhatsAppで共有
  • GPT-3+サイズまでスケール可能な2つの実装を開発中

→ GPT-Neo : Tensorflow-mesh(TPU)ベースのコード

→ GPT-Neox : DeepSpeed(GPU)ベースのコード

  • 現在はGPT-2規模の学習を完了し、モデル評価を検討中

  • 単一ステージ学習で2,000億個のパラメータまでテスト

まだコメントはありません。

まだコメントはありません。