3 ポイント 投稿者 GN⁺ 2025-06-15 | 1件のコメント | WhatsAppで共有
  • 従来の大規模言語モデル(LLM) は、新しいタスクや知識に即座に適応する能力が不足している
  • 新しい SEAL フレームワーク は、LLM が自ら自身のファインチューニング用データと更新指示を生成することで、自己適応機能を持つ
  • この過程には、自己編集(self-edit) の生成、指示の実行、そして強化学習(Based on RL)ループを通じた継続的な性能改善のプロセスが含まれる
  • SEAL は 新しい知識の統合 および few-shot 汎化 の実験で、既存手法より向上した性能を実証した
  • 本研究は、自己指示的適応 能力を備えた LLM の実現に向けた有望な一歩を示している

概要

  • 大規模言語モデル(LLM) は強力な性能を示す一方、自身の重みを新しいタスク、情報、例に応じて動的に調整するメカニズムを欠いている
  • 本論文は Self-Adapting LLM(SEAL) フレームワークを提示し、LLM が自分でファインチューニング用データを生成し、更新指示を作成できるようにする
  • SEAL は新しい入力を受け取ると、モデルが情報をさまざまな形で再構成したり、最適化ハイパーパラメータの指定、または データ拡張や勾配ベース更新のためのツール呼び出し といった自己編集(self-edit)を生成する
  • これらの自己編集は 教師ありファインチューニング(SFT) の過程を経てモデルの重みに永続的な更新をもたらし、継続的な適応能力を保証する
  • 効果的な自己編集生成のために 強化学習ループ を活用し、モデル更新後のダウンストリーム性能を報酬信号として用いる

人間の学習との類推

  • 学生が試験準備の際に、講義、教科書、インターネットなどから得た情報を自分なりの方法でノートに書き直して学習する 方法から着想を得ている
  • 人によって情報の再構成方法は異なり、ある人は図式、ある人はテキスト、ある人は数式などで要約する
  • これは、外部知識を自分で理解しやすいように再編成または補強することが、人間学習の普遍的な特徴であることを示している
  • 従来の LLM は新しいタスクが与えられると、与えられたデータセットをそのままファインチューニングするか、インコンテキスト学習を行うだけだった
  • しかしこの方法には、データ形式や量が学習に最適化されていないという限界がある

SEAL: 自己適応フレームワークの提案

  • SEAL は、LLM が自ら訓練データおよびファインチューニング指示を自然言語で生成するよう、強化学習アルゴリズムによって学習される
  • ここで自己編集(self-edit)は、データおよび(任意で)最適化ハイパーパラメータ を指定する命令の形を取る
  • SEAL の特徴は、追加モジュールや補助ネットワークなしに、モデルの自然言語生成機能だけで自身の適応プロセスを直接制御する 点にある

SEAL の動作方式

  • 強化学習(RL)の外側ループ反復(iteration) で、モデルは候補となる自己編集(SE)を生成する
  • 生成された自己編集を適用して重みを更新する
  • その後、ダウンストリームタスクでモデル性能を評価し、その結果から報酬信号を得る
  • 報酬信号を用いて、自己編集生成ポリシーを反復的に改善する

実験と結果

  • 知識統合タスク では、SEAL はモデルが自ら生成した合成(synthetic)データでファインチューニングを行った
    • SQuAD の no-passage-in-context バージョンでは、RL 訓練前の 33.5% から RL 訓練後の 47.0% へと、質問応答性能 が大きく向上した
    • SEAL が生成したデータ は、GPT-4.1 が作成した合成データよりも優れた性能を示した
  • Few-shot 学習実験 では、ARC-AGI ベンチマークの簡略版を用い、SEAL が 拡張データと最適化ハイパーパラメータを自ら選択 した
    • 学習率、エポック、トークン種別ごとの選択的損失計算など、多様なツールの組み合わせを自動選択
    • 強化学習を適用した SEAL の使用時に性能向上 を達成し、単純なインコンテキスト学習や、RL なしでツールだけを使った場合より効果的だった

結論

  • SEAL フレームワークは、自己生成データと指示を通じた LLM の自己適応 が可能であることを実験的に証明した
  • このアプローチは、今後 データ効率、適応性、汎用性 を備えた次世代言語モデル開発に向けた重要な進展を示唆している

1件のコメント

 
GN⁺ 2025-06-15
Hacker Newsの意見
  • 2010年代半ば、数学の天才の友人2人がかなり早い段階でMLに飛び込んだ頃、よくNEAT/HyperNEAT(Neuroevolution of Augmented Topologies)というアルゴリズムについて話してくれた [NEATのWikipediaリンク]。私はMLの専門家ではないので正確には分からないが、NEATはネットワークのトポロジーを進化させる一方、今回の論文では重みを進化させるという違いだと理解している。根本的には、ネットワーク構造を変える方法と重みを変える方法という、同じ問題を解こうとする2つの異なるアプローチだと思う。2人はAIの未来はRL(強化学習)と進化アルゴリズムにあると強く信じているようだった。

    • 私がいちばん好きなNEAT入門動画がある。SethBlingのMarI/O - Machine Learning for Video Games [YouTubeリンク]

    • 人間はすごいと思う。ニューロンを理解しようとして仮想的な計算システムを作るが、実際にはそう動いていないと気づく。それでもその想像上のシステムからアイデアを取り出して革新的な技術を作る。そして今もなお、その想像上のシステムから着想を得て発展を続けている。

    • 最近、このNEAT/進化ベースの概念に完全に夢中になっている。Kokoroの音声クローンプロジェクトで遺伝的アルゴリズムを使ってある程度成功した後、ネットワーク構造自体を進化させて「自己組立型の知能」が可能か気になり始めた。これが実際に可能になるにはどうすればよいのか気になるが、LLMがこのように登場したのを見ると、ハイブリッド方式が現実的な代替案なのではないかと思う。

  • RLを活用してモデルが自ら情報を再構造化し、学習効率を高める「self-edit」アプローチは非常に巧妙だと思う。数学と歴史でノートの取り方が違うように、異なる種類の知識には異なる表現のほうが効果的だという事実が核心のアイデアだ。重要な観察は2つある。第一に、知識統合の結果(47% vs 46.3%、GPT-4.1データ基準)は、単により多くのデータを投入したからではなく、実際によりよい学習フォーマットをモデルが見つけたことを意味している。壊滅的忘却(catastrophic forgetting)の問題はまだ解決されておらず、データ多様性が実際にどれほど改善されるのかも明確ではない。第二に、報酬評価1回に30〜45秒かかるため、ほとんどの実運用では厳しい。しかし、本当に重要な文書処理のように最適な情報保持が求められる場面なら、投資する価値はある。明確な評価メトリクスが存在する作業に限られるというのが大きな制約だ(報酬算出のために基準Q&Aやテストケースが必要)。それでも、技術文書や教育資料のように評価の自動化が可能な領域では、まったく新しい知識処理パラダイムをもたらす可能性は十分ある。まだ完全な自己改善エージェントに到達したわけではないが、モデルが自ら学習方法を改善する重要な前進のように感じられる。

  • 数日前にAnthropicも同様にself finetuning関連の研究を公開した [arxiv論文リンク]

    • 関連する議論が現在進行形で続いている [関連HNスレッド]

    • 本当に驚くべきことだと思う。Claude 3.5 Sonnetの本番グレードRM基準では、unsupervised assistantポリシーが、人間監督RMで訓練したポリシーを相対比較で60%も上回ると評価されている。もはや人間が指導しなくても、モデル同士でより優れた性能を出せる段階に入りつつあると思う。

  • 大規模言語モデル(LLM)は強力だが、新しいタスクが与えられたときに重みを適応させるメカニズムがないことが問題だ。人間の知能は学ぶ過程と適用する過程がひとつのフィードバックループに統合されているのに、LLMでは訓練と推論が完全に分離されている。私たちは、新しいモデルが少し多くを「学んだ」状態で配布されると、以前のモデルを捨ててしまう。LLMでは推論がそのまま学習の終わりだ。これはAIについて最も広く行き渡っている誤解だと思う。LLMが学習していると錯覚すると、AGIがすぐ来るという幻想に陥りやすい。

    • Deepseekの事例のように、強化学習を活用すればLLMの性能をrefinementできる。

    • もしユーザーの反応(肯定/否定)に応じてLLMを再学習できるとしたら? 入力と出力のデータを使ってフィードバックループに回せるのではないかと想像している。

  • 実際にLLMを「現場で」継続的に学習させる方向、つまりコード型エージェントが時間の経過とともにコードベースを学ぶようにする研究の現状と限界(コスト? モデル崩壊? その他?)について、本当によく知っている専門家に整理してほしい。大手研究所がこれを試しているのは間違いないだろうが、一般ユーザーの視点ではこういう話をあまり聞かない。今は強化学習ベースのより良い訓練法にばかり注目が集まっていて、訓練で学べなかったことは後からコンテキストとして押し込むのが主流のように見える。しかし、経験ベースのリアルタイム自己学習の欠如こそがAGIとの分岐点なのではないかと思う。

    • 継続学習(continual learning)には、現時点では決定的な解法が存在しない。計算資源、モデル崩壊、忘却など、さまざまな理由が挙げられるのはその通りだ。唯一の方法は 1) モデルを訓練する 2) 新しいデータを追加する 3) 全体を再訓練する 4) 繰り返す、という流れにならざるを得ない。時間という観点でも、どの場合も完全な保証はない。CL分野では本当に「真の」答えがまったくない状況だ。モデルの表現空間を拡大しつつ、以前の表現空間はできるだけそのまま保持しなければならないが、これを同時に満たすのはほとんど不可能に近い。神経系を持つ生物はこれを非常に簡単にこなしているように見えるのに、AIではこの作業が極めて難しい。私の考えでは、AIにも「睡眠」や「休息」のような概念が必要なのかもしれない。

    • 専門家ではないが、プライバシーの問題も重要な役割を果たしていると思う。継続学習を行うには、トラフィックやコストの問題からユーザー単位ではなく集約(aggregate)で扱わざるを得ないだろうし、そうなるとセッション間で情報漏えいのリスクが生じる。安全に継続学習する方法を見つけることが、AGI最大の障害だという点には強く同意する。

    • 信頼性の問題も大きい。自動評価に確信が持てないため、実際に性能が向上したことを確認するまでは、自動化されたcontinuous training版をそのままデプロイすることはない。結局、複数の更新をまとめて最終チェック(「バイブチェック」)した後にだけ実環境へ反映することになる。

    • LLMの継続的なファインチューニングは、「alignment」を簡単に崩してしまう可能性があるという点が最も明確な問題に見える。結果として安定性・安全性が担保されない。

    • 最も明白な障害は、壊滅的忘却(catastrophic forgetting)の問題だと思う。

  • 私のCPUはneural-net processor、learning computerだ。だがSkynetは単独任務に出すとき、switchをread-onlyに切り替える。(Terminatorの引用)を思い出した。

  • コードと例を含む公式サイト案内 [SEALプロジェクトページ]

  • Villalobos et al. [75] の予測によれば、2028年までにfrontier LLMは公開されている人間作成テキストをすべて使い切って限界に達するという。この「データの壁」がsynthetic data augmentationの必要性を引き起こすという主張だ。ウェブスケールのコーパスが枯渇すれば、最終的にはモデル自身が新しい高効率の訓練シグナルを生成できなければ前進できない。結論として、SEAL synthetic-data generatorモデルをメタトレーニングし、新鮮なデータで事前学習を行って将来のモデルの効率を高めるというアイデアだ。2028年はもう遠くないことを考えると、非常に示唆に富んでいると思う。

  • 「正しく忘れる(forgetting correctly)」ことが、今や「正しく学ぶ(learning correctly)」ことよりも重要な問題として浮上しているように思える。新しい事実を素早く習得することには大きな進歩があったが、有限の容量の中で重要度の低い情報を効率よく捨てる技術は、まだ大きく立ち遅れている。「正しい忘却」は人間の脳が非常に得意とすることだが、実際にどう働いているのか気になる。

    • 人間が「正しい忘却」を得意としているという点には同意しない。実際のところ、人間が飛び抜けて優れたシステムを持っているわけではないと思う。脳の容量が非常に大きいので、新しい情報のためにわざわざ空間を消去するというより、既存の悪い情報が新しい学習を妨げるときにだけ忘れるように動作しているのではないか。

    • 学習とspaced-repetition(間隔反復)は非常に密接に結びついていると思う。Ankiのような学習ツールと強く関連づけられがちだが、現実世界そのものが、私たちが一定周期で出会う自然な現象(昼夜、季節、よく行く場所、よく会う人など)によるspaced-repetitionだ。おそらくこの概念の「逆方向(reverse)」も存在するのではないかと考えている。

    • 私が行った研究では、LLMが内部データを「隠す」ことが示された。単純に「忘れる」のではなく、その後に追加学習を行うと再びその情報が表面化することがある。だから、モデル訓練時に実際の全メモリ状態を継続的にチェックしない限り、部分的なレビューには限界がある。

    • もしかするとleast-recently-used方式なのではないか。試しに自分の頭の中で実験している。だからこの分野は面白い。

  • 見たところ、LoRA adapterをファインチューニングしてbase modelにマージするフレームワークに見える。HuggingFaceのPeftModelでadapterをbase modelに統合する merge_and_unload 機能を使っている……何が新しいのかよく分からない。

    • 安定性が主な差別化要因のように見える。alignment taxやモデル崩壊現象を避ける構造だ。ハイパーネットワーク、つまり2つのモデルが継続的にLoRAで更新され、そのハイパーネットワーク自体も新しいモデル状態を受け入れるよう更新される「フルサークル」の構造を見てみたい。meta-hypernetworkを使ってハイパーネットワークにもLoRAを適用する形にすれば、本当の意味でのcontinuous learningの可能性がある。