GPT-3はもはや市場で唯一の存在ではない
(lastweekin.ai)-
GPT-3がAI市場に大きな衝撃を与えたのは事実 : "text-in text-out" に強い超大規模AIモデル
-
有料だったため、多くの組織がそれぞれ独自のGPT-3類似モデルを作り始めた
→ 必要な計算能力のため簡単ではない。175BパラメータのOpenAIはMicrosoftと協業し、1万個のGPUと45TBのテキストデータを利用
→ 計算するとGPT-3の訓練には約100億〜200億ウォン程度が必要
- さまざまな試みが登場
→ EleutherAI, CPM, PanGu-α, HyperCLOVA, Jurassic-1, Megatron-Turing NLG
- 驚くべきことに、GPT-3に似たものを作る最初の取り組みは、オープンソース参加者が作った「EleutherAI」だった
→ GPT-3と似たデータセットである「The Pile」を公開
→ その後、GPT-Neo 1.3B、2.7Bのような小規模版から、最近では6BパラメータのGPT-J-6Bを公開した
- GPT-3発表の6か月後、中国の清華大学の研究者たちとBAAI(北京AIアカデミー)が共同でCPM(Chinese Pre-trained Language Model) を公開
→ 100GBの中国語テキストから2.6Bパラメータのモデルを生成。GPT-3には及ばないが、中国語テキストで行った点が注目される
-
その少し後にHuaweiが200BパラメータのPanGu-α(1.1TBの中国語テキストを使用)を公開
-
Naverが204BパラメータのHyperCLOVAを発表
-
イスラエルのAI21 Labsが178BのJurassic-1を公開
-
NVIDIAとMicrosoftが530BパラメータモデルのMegatron-Turing NLGを公開
-
本質的にGPT-3と似た、ますます巨大なモデルが作られており、今後数年にわたってさらに大きくなる見込み
-
こうした大規模モデルを訓練するのに数十億ドル規模の投資が必要という傾向は、当面続くだろう
→ 資金支援が豊富な企業だけがこうしたモデルを作れるという点は懸念される
-
このトレンドがどれほど続くのか、GPT-3を超える重要な発見が生まれるのかなどは予測が難しい
-
現在、私たちはこの旅のまっただ中におり、今後数年で何が起こるのかを見守るのは興味深いだろう
1件のコメント
GPT-Neo : GPT-3規模のモデルをオープンソース/無料で作るプロジェクト https://ja.news.hada.io/topic?id=3599
MSとNvidiaが世界最大規模の言語モデル MT-NLG 530B を発表 https://ja.news.hada.io/topic?id=5187