1 ポイント 投稿者 GN⁺ 2023-08-06 | 1件のコメント | WhatsAppで共有
  • OpenAIが開発した言語モデルGPT-4で観測された非決定性に関する記事
  • GPT-4/GPT-3.5-turboは、temp=0では完全な決定性を意味するはずの密なデコーダ専用モデルにおいても非決定的である
  • 当初、この非決定性は潜在的なバグ、または最適化された浮動小数点計算の非決定性によるものと推測されていた
  • 著者の新たな仮説: GPT-4の非決定性は主として、Sparse Mixture of Experts (MoE) アーキテクチャがシーケンス単位の決定性を強制できないことに起因する
  • Sparse MoEアプローチは、固定サイズのグループでトークンをルーティングし、グループ内でバランスを保つことで、シーケンスレベルの非決定性を引き起こす
  • 著者はこの仮説を検証するためにGPT-4にスクリプトを書かせ、GPT-4では一意な補完結果が多数出ることを観察し、他のモデルよりもGPT-4がはるかに非決定的である原因があることを確認した
  • 著者はまた、GPT-3.5-turboも、その速度、非決定性、そしてlogprobsの削除を理由に、MoEモデルである可能性があると推測している
  • これらの発見の含意は重要である: もし非決定性がSparse MoEによるバッチ推論に伴う本質的な特徴であるなら、この事実はそのようなモデルを扱うすべての人に明確に示されるべきである
  • 著者は結論として、OpenAIのGPTモデルにおける非決定性は一般に、非決定的なCUDA最適化浮動小数点演算の不正確さに帰されているが、根本原因はSparse MoEモデルでのバッチ推論にある可能性があると主張している

1件のコメント

 
GN⁺ 2023-08-06
Hacker Newsの意見
  • GPT-4の非決定性は、その Sparse Mixture of Experts (MoE) モデルに起因する。
  • AI/MLシステムにおける浮動小数点の不正確さは概して決定的であり、異なる結果は状態やエントロピーの別の要因による可能性がある。
  • 論文は、GPT-4の効率的な推論が別々の入力からトークンを混合することに依存している可能性を示唆しており、これが非決定性を導入し、応答の品質に影響を与える可能性がある。
  • 応答の品質は、同じ「専門家」割り当てを競合する同時リクエストの数にも依存する可能性がある。
  • これは、時間の経過に伴う知覚される品質低下を説明できる可能性があり、より多くの同時利用が信頼性の低い結果につながる可能性がある。
  • GPT-3.5でのMoEモデルの使用は、より少ないものでより多くを実現できることを意味するため、オープンソース運動に希望を与える可能性がある。
  • バッチ内のシーケンスが他のもののルーティングに影響を与えうるなら、サイドチャネル攻撃の可能性が生じる。
  • MoEアプローチは、入力データの異なる部分に対してモデルの異なる「専門家」または部分を選択することで、モデルの動作に確率性またはランダム性を導入する。
  • わずかに異なる文脈で2回処理された同じ入力データは、わずかに異なる専門家の集合を参照する可能性があり、その結果わずかに異なる出力を生むことがある。
  • 高負荷時には、専門家バッファで利用可能な枠をトークンが競い合うため、結果が変化することがある。
  • この専門家バッファ競合は、ChatGPTが長いコードを要求された際に、関数の代わりにプレースホルダーを書く理由を説明する可能性もある。