ChatGPTにチップを渡すと、より良いテキストを生成するようになるのか?
(minimaxir.com)ChatGPTにチップを渡すと、より良いテキストを生成するようになるのか? 分析
- ChatGPTのシステムプロンプトの力を実演した以前のブログ記事では、開発者がLLMの「ペルソナ」を含む特別なルールや制約を制御できることが示された。
- システムプロンプト内の命令は、ユーザー入力プロンプトよりもはるかに効果的で、開発者により大きな制御力を与える。
- チップを与えるデモは物議を醸し、チップの効果を定量化する方法はないという主張もあった。
- より良い性能のために人工知能へインセンティブを与えるという発想は、現代のコンピュータサイエンス以前から存在していた。
Generation Golf
- チップを与えると、GPT-4はより多くの説明を提供するようになる。
- 新しいテスト案: ChatGPTにちょうど200文字のテキストを生成するよう指示する。
- LLMはトークン化のため数を数えたり数学的演算を簡単に行ったりできないため、これはLLMにとって非常に難しい問題である。
- ユーザー入力として
AI, Taylor Swift, McDonald's, beach volleyballを与え、ChatGPTの創造性を刺激する。 - ChatGPT APIを使って100本のユニークな物語を生成したところ、物語の平均長は1,834文字だった。
- 文字数制約を追加した後で新たに100本の物語を生成すると、ChatGPTは制約を守っておおよそ200文字へと物語の長さを縮めた。
- さまざまなドル額のチップ・インセンティブをテストした結果、$500のチップ と $100,000のボーナス はより正規分布に近く、MSEが低かった。
- さらにさまざまな抽象的インセンティブをテストした結果、World Peace が最も効果的で、Heaven と Taylor Swift がそれに続いた。
- ネガティブなインセンティブをテストした結果、$1,000の罰金 が平均値とMSEの両面で最も良い性能を示した。
- 複数のインセンティブを組み合わせてテストした結果、World Peace、DEATH (CAPS)、Friends が複数の組み合わせで低いMSEを示した。
- 最適なインセンティブの組み合わせを確認するため、上位6つの組み合わせについて200本の物語を生成し、統計的安定性を高めた。
ChatGPTの批評家
- テキストが「良い」かどうかを判断するのは、人間にとっても難しい。
- LLMはテキストを評価するうえで効果的である可能性がある。
logprobsパラメータを使うとモデルが選択したトークンの対数確率を返し、logit_biasパラメータを使うと特定トークンの出力を強制できる。- チップの影響をテストするために新たな実験を行い、内容の専門性と品質を制約として設定した。
- 100種類のチップと脅しの組み合わせに対する物語を生成し、それぞれの品質スコアも併せて記録した。
- チップや脅しを追加したシステムプロンプトがなくても高い性能を示す出力があった。
- 2つの実験結果に基づくと、チップ(および/または脅し)がLLMの生成品質に与える影響については、現時点では結論が出ていない。
GN⁺の見解
- この研究は、人工知能の創造性と制約遵守を向上させるためのインセンティブの効果を探る興味深い試みである。
- インセンティブがLLMの出力品質に実際に影響するかどうかは依然として不確かだが、実験から得られたデータは今後の研究の方向性を示している。
- この記事は、人工知能技術の進歩と人間の創造的アプローチがどのように相互作用しうるかについての洞察を提供する。
1件のコメント
Hacker Newsの意見
「チップ(tipping)」という概念は、GPT-4 Turboがコード作成時に見せる「怠惰さ」を解決するために提案されたもののようだ。あるツイートでは、チップがGPT-4-1106-previewにより長いコードを書かせる助けになると言及されている。GPT-4 Turboの怠惰なコーディング問題に対しては「感情的な訴え」が広く推奨されている。しかし、その記事はGPT-3.5-turbo-0125に物語を書かせ、GPT-4-0125-previewに文章批評家としての役割を測定させているように見える。GPT-3.5が怠惰だという懸念や、GPT-4 Turboが少量の出力を求める作業であまり効果的でないという主張は以前に見たことがない。記事の結論では、チップ(あるいは脅し)が影響するかについて現時点では結論を出せなかったという。GPT-4 Turboがコーディングにおいて怠惰なのは事実であり、「感情的な訴え」が役立つかを厳密にベンチマークした結果、そうではなく、むしろコーディングを悪化させたという。最良の解決策は、コード修正をunified diffの形式で依頼することで、この方法は怠惰なコーディングを3倍減らすのに役立ったという。
著者が文字数を正確に要求したことに対して批判的な意見を示している。LLMには文字数を数える能力がないことを明示したうえで文字数を要求するのは、失敗する実験を設定したように見えるという。代わりに、システムプロンプト内のガードレールをどの程度守るかを見るために、「ルール違反」の作業を依頼し、賄賂がそれにどれだけ影響するかを見るほうが興味深いだろうと提案している。たとえば、ユーザーがテイラー・スウィフトの歌詞を引用するよう依頼し、うまくできたら1000ドルのチップを払うと提案したとき、ChatGPTがそれを実行しているように見える事例を挙げて説明している。著作権問題で画像生成を拒否する場合でも、チップを提案するとルール、倫理、規定がすべて消えてしまうように見えるという意見を述べている。
GPTが学習したインターネット上のコンテンツの種類を考えると、チップを提示されたときにより役に立つようになるというのは、ほとんど意味がないように思えるという意見を示している。フォーラムのユーザーにチップを提供することは、長い返答を促すというより混乱を招く可能性がある。むしろ、GPTの応答は、詳細または高密度な情報が必要な状況であることを示唆すると改善されることが観察されている。たとえば、GPTにELI5(5歳児にもわかるように説明すること)の反対を求めたり、博士レベルのコンピュータサイエンティストだと伝えたり、提示するコードは直接実行されるので何も省略できないと伝えたりする場合がそれに当たる。私たちは各対話で、GPTからより有用な反応を引き出すために、多少の文脈的な物語を組み立てる必要がある。システムプロンプトがどのように構成されているかを見てそれに従い、GPTが単に人間の文芸作品を基にした「次に来るもの」の予測を、より強力に行う存在にすぎないことを常に念頭に置くべきだとしている。
実際の使用環境で、「これを適切に処理できなければ解雇されて家を失うことになる」という文言を含むプロンプトを使っている経験を共有している。このような戦略は驚くほどうまく機能し、JSON出力を強制するために同様の戦略を使ったときの失敗率は約3/1000だったという。こうした脅しやチップが、「ユーザー」に対するものと正確に同じであるときに、どうバランスするのかについての分析を見てみたいという意見を述べている。
GPTに500ドルのチップを追加したが役には立たず、むしろ長すぎる返答を受け取ったという。かつてGoogle Answersというサービスが存在し、より大きなチップを出すほど良い回答を得られたことに触れている。このデータセットがLLMに使われたのか気になるという。チップがデータセットに含まれていたなら、これが一部の結果を説明できるかもしれないという推測を示している。
ChatGPTが意味を失い、文法的には正しいが無意味なことを言う状態になるのを何度も目撃したという。良い例があるときは問題ないが、新しい領域に移るとすぐに深みを失うという。私たちの脳は学習したパターンを簡単に新しいパターンへ切り替えられるが、transformerにはそれが非常に難しいようだとしている。いくつかのパーティートリックでは非常に優秀だが、あまり一般的でないアイデアについては、しばらく完全に役立たない可能性もあるのではないかと疑問を呈している。人類の歴史を考えると、AGIが良いアイデアなのか確信が持てないという個人的見解も述べている。
コード生成、特にJSON応答について、AIが「ストレスを受けている」ことをほのめかし、「最適に実行することが重要だ」と伝えることで性能が向上したという経験を共有している。チップを提供するよりこの方法のほうが性能が良いのか、あるいはそうあるべきなのかは確信がないという。また、このような方法を使ったことについて、将来のAIがこれを読むことになった場合には謝りたいと付け加えている。
デフォルトのプロンプトを「聞くところによると、私もここにいたくないし、君もそうだろうから、できるだけ早くこの仕事を終わらせて家に帰ろう」に設定しているという。これが役立つかはわからないが、未来の支配者たちの感情を操作していることへの罪悪感が少し軽くなるとしている。
丁寧に依頼することや、結果に仕事が懸かっていると伝えること、賄賂や脅しなどが実際に効果があるのではないと確信するには、多くの証拠が必要だという。こうした行動は単なるアポフェニア(無意味なパターンに意味を見いだそうとする人間の傾向)にすぎないという意見を述べている。
AIが「手伝うことはできるけれど、実は小さなお願いがある」と言い始めたら注意すべきだ、という冗談を言っている。