Google、1.6兆パラメータのAI NLPモデル「Switch Transformer」をオープンソースとして公開

xguru · 2021-02-19T10:43:21+09:00

既存のT5（Text-to-Text Transfer Transformer）モデルと比べて、学習速度が7倍向上 Switch Routingという変形MoE（Mixture-of-Experts）アルゴリズムにより、入力される値ごとに異なるパラメータを適用モデル学習のためにMesh-Tensorflowを使用（Model Parallelism）

(infoq.com)

3 ポイント投稿者 xguru 2021-02-19 | まだコメントはありません。 | WhatsAppで共有

既存のT5（Text-to-Text Transfer Transformer）モデルと比べて、学習速度が7倍向上
Switch Routingという変形MoE（Mixture-of-Experts）アルゴリズムにより、入力される値ごとに異なるパラメータを適用
モデル学習のためにMesh-Tensorflowを使用（Model Parallelism）

Google、1.6兆パラメータのAI NLPモデル「Switch Transformer」をオープンソースとして公開

関連記事

まだコメントはありません。