3 ポイント 投稿者 xguru 2021-02-19 | まだコメントはありません。 | WhatsAppで共有
  • 既存のT5(Text-to-Text Transfer Transformer)モデルと比べて、学習速度が7倍向上

  • Switch Routingという変形MoE(Mixture-of-Experts)アルゴリズムにより、入力される値ごとに異なるパラメータを適用

  • モデル学習のためにMesh-Tensorflowを使用(Model Parallelism)

まだコメントはありません。

まだコメントはありません。