- このことについて話している人は多かったが、これまでは断片的な指摘にとどまっていた
- 最近発表された論文では、GPT-4の6月版と3月版を500問で客観的に比較した
- 3月には488問に正確に答えたが、6月には正解はわずか12問だった
- わずか3か月で正答率が97.6%から2.4%になったということ
- しかも、ここからさらに悪くなる
- Chain-of-Thought手法を使って推論させてみた
- 「17077は素数か? Think step by step.」と指示すると、GPT-4は中間ステップを生成せずに「いいえ」と答えた
- コード生成もさらに悪化している
- LeetCodeの簡単な問題50問でデータセットを構築して実行してみた
- 3月版は52%成功したが、6月版は10%しか成功しなかった
- なぜこのようなことが起きるのか?
- OpenAIは継続的に変更を加えていると考えられるが、どのように動作しているのか、どのように評価しているのかなどは分からない
- うわさによれば、複数の小さな特化型GPT-4モデルを束ねて使い、大規模モデルのように動作させつつ、より低コストで運用しているという
- より安く、より速くすることが、この品質低下の原因なのだろうか?
- これはGPT-4に依存したアプリケーションを構築しているすべての人にとって危険信号だ
- 時間の経過によってLLMの挙動が変化するのは許容できない
- この実験は誰でもGoogle Colabで再現できる
6件のコメント
私はサブスクリプションを解約しました。改悪された部分がはっきりと実感できたんですよね。
国内のChatGPTユーザーコミュニティでも、こうした報告がずっと続いていましたが、本当だったようですね。
GPTの有料化以降、毎月使っていますが、この内容には同意します。
それに、有料ユーザーなのに、いまだに4バージョンで3時間あたり25件の質問制限があるのがとても不満です。
本日、カスタム指示機能が追加され、制限も50件まで緩和されたそうです。
https://openai.com/blog/custom-instructions-for-chatgpt
最近、GPT-4の品質が著しく低下しているように感じるのですが、私だけでしょうか?
該当論文: How Is ChatGPT’s Behavior Changing over Time?
Google Colab: LLM Drifts: How Is ChatGPT’s Behavior Changing over Time?