LoPEは、RL学習時にプロンプトの先頭へ Lorem ipsum dolor sit amet ... を挿入する手法。難しい問題で全サンプルが失敗すると学習信号が0になる「zero-advantage」問題を解決する。
主な結果:
- Qwen3-4B基準で数学ベンチマーク平均 +4.62ポイント
- AMC 2023で相対性能が22%向上
- 既存手法がすべて失敗した難問50件を唯一突破
読むべきポイント
ラテン語ベースの「言語のように見えるが無意味なテキスト」が効果的な理由と、モデルの基本的な推論軌道を攪乱して探索の多様性を確保するメカニズムが興味深い。
13件のコメント
「158番のフクロウ、できますか?」
「…教官、私には荷が重すぎます…」
「ロレム・イプサム! できますか?」
「うわあ!!! できます!」
あっwwwwwwwwwww
www
🤣🤣🤣🤣 爆笑しました
もしかすると、現在のモデルが過学習気味であることを意味しており、したがってモデル容量をさらに削減できる余地が残っている、と解釈することもできそうです。
面白いですね。モデルが無視できる文を追加して、サンプリング時にseedのように使い、探索空間を広げるということですね。
その通りです。思いもよらなかった新しい観点を示し、しかも実際の性能まで改善されたというのは、面白くもあり興味深いです。
誤字だらけでプロンプトを書くと性能が上がるって、気のせいじゃなかったんだな
www みなさん、どうしてこんなに面白いんですか
原理としては筋が通っているのに不思議ですね。なぜ性能が下がらず、むしろ上がったのでしょうか?
私の考えでは、人間で言えば難しい問題を解くときに、まず「思考を喚起」してから、もう一度最初から考え直すと問題が解けることがあるのと似ているのではないか、と思います。あくまで個人的な考えです(笑)
気になるのですが、あれを活用すれば一般的な学習でも有意義な結果が出るのでしょうか?? ワクワクしますね..
私も一度試してみたいですね。^^
以前、まったく同じプロンプトを(無意味ではあるものの)2回繰り返して入力すると、結果がより良くなるという研究結果もありましたよね。もう一度念押しするような感じというか……。aliverornot さんの投稿にコメントでも書きましたが、これは思考を喚起する役割をしているように思います。数学者が難しい問題にぶつかったとき、少しペンを置いて散歩に出るのと似ている気もしますね……(笑)