LoPE: ランダムなラテン語テキストを先頭に付けるとLLMの推論が向上する (arXiv論文)
重要ポイント
LoPEは、RL学習時にプロンプトの先頭へ Lorem ipsum dolor sit amet ... を挿入する手法。難しい問題で全サンプルが失敗すると学習信号が0になる「zero-advantage」問題を解決する。
主な結果:
- Qwen3-4Bで数学ベンチマーク平均 +4.62点
- AMC 2023で相対性能が22%向上
- 既存手法がすべて失敗した難問50件を唯一突破
読みどころ
ラテン語ベースの「言語のように見えるが無意味なテキスト」が有効な理由と、モデルの基本的な推論軌道を攪乱して探索の多様性を確保するメカニズムが興味深い。
まだコメントはありません。