GPT-4は時間が経つほど悪くなっている

xguru · 2023-07-20T11:06:02+09:00

このことについて話している人は多かったが、これまでは断片的な指摘にとどまっていた最近発表された論文では、GPT-4の6月版と3月版を500問で客観的に比較した 3月には488問に正確に答えたが、6月には正解はわずか12問だったわずか3か月で正答率が97.6%から2.4%になったということしかも、ここからさらに悪くなる Chain-of-Thought手法を使って推論させてみた「17077は素数か？ Think step by step.」と指示すると、GPT-4は中間ステップを生成せずに「いいえ」と答えたコード生成もさらに悪化している LeetCodeの簡単な問題50問でデータセットを構築して実行してみた 3月版は52%成功したが、6月版は10%しか成功しなかったなぜこのようなことが起きるのか？ OpenAIは継続的に変更を加えていると考えられるが、どのように動作しているのか、どのように評価しているのかなどは分からないうわさによれば、複数の小さな特化型GPT-4モデルを束ねて使い、大規模モデルのように動作させつつ、より低コストで運用しているというより安く、より速くすることが、この品質低下の原因なのだろうか？これはGPT-4に依存したアプリケーションを構築しているすべての人にとって危険信号だ時間の経過によってLLMの挙動が変化するのは許容できないこの実験は誰でもGoogle Colabで再現できる

(twitter.com/svpino)

17 ポイント投稿者 xguru 2023-07-20 | 6件のコメント | WhatsAppで共有

このことについて話している人は多かったが、これまでは断片的な指摘にとどまっていた
最近発表された論文では、GPT-4の6月版と3月版を500問で客観的に比較した
3月には488問に正確に答えたが、6月には正解はわずか12問だった
- わずか3か月で正答率が97.6%から2.4%になったということ
しかも、ここからさらに悪くなる
Chain-of-Thought手法を使って推論させてみた
- 「17077は素数か？ Think step by step.」と指示すると、GPT-4は中間ステップを生成せずに「いいえ」と答えた
コード生成もさらに悪化している
- LeetCodeの簡単な問題50問でデータセットを構築して実行してみた
- 3月版は52%成功したが、6月版は10%しか成功しなかった
なぜこのようなことが起きるのか？
- OpenAIは継続的に変更を加えていると考えられるが、どのように動作しているのか、どのように評価しているのかなどは分からない
- うわさによれば、複数の小さな特化型GPT-4モデルを束ねて使い、大規模モデルのように動作させつつ、より低コストで運用しているという
- より安く、より速くすることが、この品質低下の原因なのだろうか？
これはGPT-4に依存したアプリケーションを構築しているすべての人にとって危険信号だ
- 時間の経過によってLLMの挙動が変化するのは許容できない
この実験は誰でもGoogle Colabで再現できる

6件のコメント

secret3056 2023-07-20

私はサブスクリプションを解約しました。改悪された部分がはっきりと実感できたんですよね。

delimoni 2023-07-20

国内のChatGPTユーザーコミュニティでも、こうした報告がずっと続いていましたが、本当だったようですね。

appcaster 2023-07-20

GPTの有料化以降、毎月使っていますが、この内容には同意します。
それに、有料ユーザーなのに、いまだに4バージョンで3時間あたり25件の質問制限があるのがとても不満です。

wedding 2023-07-21

本日、カスタム指示機能が追加され、制限も50件まで緩和されたそうです。

https://openai.com/blog/custom-instructions-for-chatgpt

xguru 2023-07-20

最近、GPT-4の品質が著しく低下しているように感じるのですが、私だけでしょうか？

xguru 2023-07-20

該当論文: How Is ChatGPT’s Behavior Changing over Time?
Google Colab: LLM Drifts: How Is ChatGPT’s Behavior Changing over Time?

GPT-4は時間が経つほど悪くなっている

関連記事

6件のコメント