ChatGPTは20B規模のモデル
(arxiv.org)Microsoft ResearchがEMNLP 2023に提出した論文「CodeFusion: A Pre-trained Diffusion Model for Code Generation」で、ChatGPT(gpt-3.5-turbo)のパラメータ数が20Bであることが公開されました。
- T5 (t5-large): 770M
- CodeT5 (codet5-large): 770M
- GPT3 (text-davinci-003): 175B
- ChatGPT (gpt-turbo-3.5): 20B
5件のコメント
このサイズで本当にあり得るんですか? AIをやっている人たちの話を聞くと、みんな愕然としていましたが……
All you need is 4090
もともとGPT-3.5もparameter sizeは公開されていなかったんですか?
私は単純にGPT-3 175BにRLHFを適用したものだと思っていたのですが、違ったみたいですね..
https://arxiv.org/abs/2310.17680v1 v1 はまだ見られますね
「There are some errors in the paper and we need to retract it」とのことです
どこにエラーがあるのかは分かりませんが、いくつかの数字が間違っているだけなら単純な修正をしたはずなので……20Bである可能性が高いでしょうか?