- OpenAIが開発した言語モデルGPT-4で観測された非決定性に関する記事
- GPT-4/GPT-3.5-turboは、temp=0では完全な決定性を意味するはずの密なデコーダ専用モデルにおいても非決定的である
- 当初、この非決定性は潜在的なバグ、または最適化された浮動小数点計算の非決定性によるものと推測されていた
- 著者の新たな仮説: GPT-4の非決定性は主として、Sparse Mixture of Experts (MoE) アーキテクチャがシーケンス単位の決定性を強制できないことに起因する
- Sparse MoEアプローチは、固定サイズのグループでトークンをルーティングし、グループ内でバランスを保つことで、シーケンスレベルの非決定性を引き起こす
- 著者はこの仮説を検証するためにGPT-4にスクリプトを書かせ、GPT-4では一意な補完結果が多数出ることを観察し、他のモデルよりもGPT-4がはるかに非決定的である原因があることを確認した
- 著者はまた、GPT-3.5-turboも、その速度、非決定性、そしてlogprobsの削除を理由に、MoEモデルである可能性があると推測している
- これらの発見の含意は重要である: もし非決定性がSparse MoEによるバッチ推論に伴う本質的な特徴であるなら、この事実はそのようなモデルを扱うすべての人に明確に示されるべきである
- 著者は結論として、OpenAIのGPTモデルにおける非決定性は一般に、非決定的なCUDA最適化浮動小数点演算の不正確さに帰されているが、根本原因はSparse MoEモデルでのバッチ推論にある可能性があると主張している
1件のコメント
Hacker Newsの意見