-
既存のT5(Text-to-Text Transfer Transformer)モデルと比べて、学習速度が7倍向上
-
Switch Routingという変形MoE(Mixture-of-Experts)アルゴリズムにより、入力される値ごとに異なるパラメータを適用
-
モデル学習のためにMesh-Tensorflowを使用(Model Parallelism)
既存のT5(Text-to-Text Transfer Transformer)モデルと比べて、学習速度が7倍向上
Switch Routingという変形MoE(Mixture-of-Experts)アルゴリズムにより、入力される値ごとに異なるパラメータを適用
モデル学習のためにMesh-Tensorflowを使用(Model Parallelism)
まだコメントはありません。