GPT-Neo : GPT-3規模のモデルをオープンソース/無料で実現するプロジェクト
(github.com)- GPT-3+サイズまでスケール可能な2つの実装を開発中
→ GPT-Neo : Tensorflow-mesh(TPU)ベースのコード
→ GPT-Neox : DeepSpeed(GPU)ベースのコード
-
現在はGPT-2規模の学習を完了し、モデル評価を検討中
-
単一ステージ学習で2,000億個のパラメータまでテスト
→ GPT-Neo : Tensorflow-mesh(TPU)ベースのコード
→ GPT-Neox : DeepSpeed(GPU)ベースのコード
現在はGPT-2規模の学習を完了し、モデル評価を検討中
単一ステージ学習で2,000億個のパラメータまでテスト
まだコメントはありません。