1 ポイント 投稿者 GN⁺ 2025-03-08 | 1件のコメント | WhatsAppで共有

LADDER: 自己改善によるLLMの問題解決能力向上

  • LADDERの紹介: LADDERは、複雑な問題を段階的により簡単な形へ変換することで、大規模言語モデル(LLM)が自ら問題解決能力を向上させるフレームワーク。既存のデータセットや人間からのフィードバックなしに、モデル自身の能力を活用して、より易しい問題変形を生成する。

  • 有効性: LADDERは数学的積分の分野で、Llama 3.2 3Bの正答率を1%から82%へ向上させ、Qwen2.5 7B Deepseek-R1 DistilledがMIT Integration Bee予選で73%を達成できるようにした。

  • TTRLの紹介: TTRL(Test-Time Reinforcement Learning)は、テスト問題の変形を通じて推論時に強化学習を行う方法。これにより、Qwen2.5 7B Deepseek-R1 DistilledはMIT Integration Bee予選で90%という最先端スコアを記録し、OpenAI o1の性能を上回った。

  • 結果の重要性: これらの結果は、自律的かつ戦略的な学習が、アーキテクチャの拡張や人間による監督なしでも、大幅な能力向上を実現できることを示している。

1件のコメント

 
GN⁺ 2025-03-08
Hacker Newsの意見
  • 今週何が起きているのか気になる。この2日ほどで、機械学習における興味深いブレークスルーを何度も目にした

    • Googleの研究チームが、デジタル論理ゲートを介してNNsとCLAsを結合できることを発見した。これにより、多くの非線形問題をシンプルで効率的なデジタル回路へ還元できる
    • ニューラルネットワークと論理/知能に関する新しい発見が次々に現れており、知能の原理の理解にどれほど近づいているのか想像が膨らむ
  • 著名な数論数学者Hendrik Lenstraの引用を思い出した

    • 「解けない問題にはどれにも、解けないもっと単純な問題がある」という言葉がある
  • 彼らのテスト時強化学習アプローチには少し懐疑的

    • TTRLは、言語モデルにテストケースのより単純なバージョンを生成させることで機能する。単純な問題が得られると、その問題について強化学習を行い、元の問題に対するモデル性能を強化しようとする
    • 問題は、単純な問題を検証するために数値積分器を使っていることだ。実際にはほとんど単純でない問題が生成され、モデルが実際のテストケースで訓練できてしまうシナリオを想像できる。これはテストセットで訓練するのと同じだ
    • 論文の残りの部分は悪くない
  • LADDERが数学的積分というテーマにおける有効性を示している。Llama 3.2 3Bの正確度を1%から82%へ向上させた

    • この方法が機能するという事実自体が興味深い。数学でうまく機能する点が特に興味深い
    • この論文は、現在進んでいる訓練と推論の境界を曖昧にする流れの一部だ。彼らの方法の一部は、答えの分からない問いをより単純な問いへ分解し、数値的な「チェッカー」を使ってGRPOを行うというものだ。このように強化されたモデルは、さらに多くの問いに答えられるようになる
    • 人間もこういう形でかなり考えていると思う。何かをじっくり考え、頭の中で転がし、比喩を使うなど。テスト時訓練を加えることは、固定された推論のコンテキストにトークンを追加するよりも、より多く考えるための方法だ
    • DeepSeekやo1/o3が、推論時のトークン生成と評価によって能力を拡張できることを示しているように、推論時の自動化されたファインチューニングによっても能力を拡張できそうだ
    • こうした技術が確立されれば、それについて新しい方法で語り、考えられるようになるとよい。これらはすべて、あるレベルでは同じ基本プロセスの一部だ
    • とにかく非常にクールだ
  • Frank Herbertはこれを分かっていた。これはDuneで描かれたメンタートの再帰的自己点検の実装だ

  • テスト時訓練/強化学習は、未来の数学AIに適したアプローチだ。これは与えられた問題に対して膨大な計算資源を使う数少ない方法の一つである可能性が高い。Alphaproofはすでにこれを行っていたが、再び実施されて良い結果が出ているのは喜ばしい

  • 話はそれるが、彼らのサイトは美しい。金鉱を見つけたような気分だ

  • 名前によっては魅力が強すぎるものがある

  • 論文の終盤で、2025 MIT Integration Bee予選試験の2問に言及している。システムは繰り返し間違った答えを出したという

    • 彼らはこれらの問題が試験で最も複雑な問題の一つだと言っているが、最初の問題は単に
    • ∫ ∛(x · ∜(x · ∜(x · √(x · √(x · ⋯ ))))) dxを計算することだ
    • これは1/3 + 1/(34) + 1/(34*5) + ...を計算することだ。そこまで高度な数学ではない