17 ポイント 投稿者 xguru 2023-07-20 | 6件のコメント | WhatsAppで共有
  • このことについて話している人は多かったが、これまでは断片的な指摘にとどまっていた
  • 最近発表された論文では、GPT-4の6月版と3月版を500問で客観的に比較した
  • 3月には488問に正確に答えたが、6月には正解はわずか12問だった
    • わずか3か月で正答率が97.6%から2.4%になったということ
  • しかも、ここからさらに悪くなる
  • Chain-of-Thought手法を使って推論させてみた
    • 「17077は素数か? Think step by step.」と指示すると、GPT-4は中間ステップを生成せずに「いいえ」と答えた
  • コード生成もさらに悪化している
    • LeetCodeの簡単な問題50問でデータセットを構築して実行してみた
    • 3月版は52%成功したが、6月版は10%しか成功しなかった
  • なぜこのようなことが起きるのか?
    • OpenAIは継続的に変更を加えていると考えられるが、どのように動作しているのか、どのように評価しているのかなどは分からない
    • うわさによれば、複数の小さな特化型GPT-4モデルを束ねて使い、大規模モデルのように動作させつつ、より低コストで運用しているという
    • より安く、より速くすることが、この品質低下の原因なのだろうか?
  • これはGPT-4に依存したアプリケーションを構築しているすべての人にとって危険信号だ
    • 時間の経過によってLLMの挙動が変化するのは許容できない
  • この実験は誰でもGoogle Colabで再現できる

6件のコメント

 
secret3056 2023-07-20

私はサブスクリプションを解約しました。改悪された部分がはっきりと実感できたんですよね。

 
delimoni 2023-07-20

国内のChatGPTユーザーコミュニティでも、こうした報告がずっと続いていましたが、本当だったようですね。

 
appcaster 2023-07-20

GPTの有料化以降、毎月使っていますが、この内容には同意します。
それに、有料ユーザーなのに、いまだに4バージョンで3時間あたり25件の質問制限があるのがとても不満です。

 
wedding 2023-07-21

本日、カスタム指示機能が追加され、制限も50件まで緩和されたそうです。

https://openai.com/blog/custom-instructions-for-chatgpt