最近、GPT-4の品質が著しく落ちたように感じるのは私だけでしょうか?
(news.ycombinator.com)HNに投稿された質問にさまざまな回答が付いていたので、訳して紹介します
- 以前より速くなったが、結果の品質がかなり落ちていて、まるでGPT-3.5++のように感じる。よりバグの多いコードを生成するようになり、回答の深みも浅くなった気がする
- まるで特定のコーディング作業を分類するためのレイヤーを追加して、役に立たない回答をするようにナーフされたように感じる。なのでプレミアム会員を解約して、DIYモデルのほうを調べてみようと思う
- アップデート前は非常に複雑なコーディング問題も解けて、非プログラミングの質問にもとても思慮深い回答をしてくれていたが、今は違う。オリジナルのGPT-4は魔法のようだったが、今では間抜けな確率的オウムのようだ
- 表面的な回答ばかりで、別の場所でフォローアップするよう促しているように感じる
- コーディング面は確実にどんどん悪くなっている。新しいバージョンが出るたびに毎回同じことをさせているが、だんだんおかしくなっている
- 私にはまだ大丈夫だが、あらゆる回答に世界がどれほど複雑かを説明する一文が含まれるのにはうんざりしている。そういうのは分かっているから、子ども扱いしないでほしい
- これこそオープンソースモデルが重要な理由だ。そして規制やロビー活動が起きる理由でもある。一般の人々は去勢されたAIを使い、上位層は生のGPT-4を使うと考えてみてほしい
- "Sparks of AGI" 論文を書いた研究者たちは、OpenAIがGPT-4をアラインするほど能力が低下したと指摘していた。そのトレンドが続いているということだ
10件のコメント
私は一度どん底まで落ちてから、また性能が上がったように感じています。
使っているプロンプトの改善も一役買っている気がします。
最近コーディング関連のやり取りをしたのですが、間違いを訂正しても同じことの繰り返しで、どうしたんだろうと思っていたら、そう感じていたのは私だけではなかったんですね。
生成AIはものすごく話題になっているようですね。続報も上がっていますね...
https://news.ycombinator.com/item?id=36155267
私もそう感じました…
回答速度も遅くなったのに、さらに賢くなくなりました。
最近は200行前後のコードを渡すとGPT-4は最大入力制限に引っかかって、
GPT-3のほうは処理してくれたりするんですよね…?
何かアラインメントを間違えて一時的に壊れたのか… わざと弱体化したのかは分かりませんが…
あ、私もそう感じました。これ、私だけが感じていたわけじゃないんですね……。しょっちゅうGPTを使っている人たちは、微妙な違いを肌感覚で感じているみたいですね。
JDを作成するときに特に強く感じたのですが、同じプロンプトでも1か月半前に書いたものと最近書いたものでは、微妙に品質の差があるんですよね。何と言えばいいのか、ちょっと手抜きっぽいというか。
初期に公開された狂気じみた性能のGPT-4は、もう存在しないようですね…
GPT-4、初期のころは人が裏で返事していたんじゃないか(SimSimi??)と思うほどでした…
倫理というものは本当に恐ろしいです。
GPTから道徳的な回答を聞きたいわけではないのに、機械があれこれ考えすぎている感じ。こんなふうに答えたら非道徳的になるだろう、というフィルタリングをかけすぎて、むしろ返答が不自然になっている気がする
600件を超えるコメントが付いていますね。
私としては何より、同じことをさせても結果があまりにも違いすぎて、ちょっとイライラします.. temperature を低めにしているのに、です。