自己適応型（Self-Adapting）大規模言語モデル

(arxiv.org)

3 ポイント投稿者 GN⁺ 2025-06-15 | 1件のコメント | WhatsAppで共有

従来のLLMは新しい知識やタスクを入力されても重みがそのままであることが多いが、SEALはモデルが自ら学習データと手順を作成・更新する自己適応フレームワークを提案
中核単位であるself-editは情報を再構成し、最適化ハイパーパラメータを定め、データ拡張や勾配ベースの更新のためのツール呼び出しまで含む
SEALは更新後モデルのダウンストリーム性能を報酬とする強化学習ループを通じて、より効果的なself-edit生成ポリシーを学習
知識統合実験では、自己生成した合成データでファインチューニングした後、no-passage-in-context SQuAD性能が**33.5%から47.0%**へ向上し、GPT-4.1生成の合成データを上回った
簡略化したARC-AGI部分集合のfew-shot学習でも、データ拡張、学習率、epoch、token type別のloss計算を自動選択し、標準的なICLやRLなしのself-editingより良い結果を示した

静的なLLMを自ら更新する方法

従来のLLMは強力だが**静的（static）**であり、新しいタスク・知識・例に合わせて重みを適応させるメカニズムがない
SEAL（Self-Adapting LLMs）は新しい入力を受け取ると、モデル自身が学習データと学習手順を変えて自己適応するよう設計されている
中核となる生成物はself-edit
- 情報を別の形式に再構成できる
- 最適化ハイパーパラメータを指定できる
- データ拡張と勾配ベース更新のためのツールを呼び出せる
self-editは教師ありファインチューニング（SFT）を経て、モデル重みの継続的な更新へとつながる
Webサイトとコードはhttps://jyopari.github.io/posts/sealにある

既存の適応手法との違い

現在のLLMは新しいタスクを受けると、通常はファインチューニングや文脈内学習（in-context learning）によってタスクデータを**そのまま（as-is）**消費する
入力データが学習に最適な形式や量ではない可能性があるが、既存手法ではモデル自身がデータをどう変換し、どう学ぶかという戦略を発展させられない
SEALは別個の適応モジュールや補助ネットワークに依存せず、モデル自身の生成結果によって適応過程をパラメータ化し制御する
人間の学生が元資料をそのまま暗記するのではなく、ノートとして再解釈・再構成して学ぶ方法に似ている
- 人は視覚的な図、テキスト、数式的な説明など、それぞれ異なる方法で情報を取り込む
- SEALはこうした再構成・書き換えの過程をLLMの学習手順に導入しようとする試み

強化学習でself-editポリシーを学習

SEALは強化学習アルゴリズムによって、LLMが効果的なself-editを生成するよう訓練する
各強化学習のouter loop iterationは次の流れで進む
- モデルが候補となるself-editを生成する
- self-editに従って重み更新を適用する
- 更新後のモデルをダウンストリームタスクで評価する
- 評価結果から得た報酬でself-edit生成ポリシーを改善する
報酬信号は更新後モデルのダウンストリーム性能である

実験結果：知識統合

知識統合実験は、LLMに新しい事実知識を入れる作業を扱う
passage textを直接ファインチューニングするのではなく、SEALモデルが生成した合成データでファインチューニングする
強化学習訓練後、SEALの自己生成合成データはno-passage-in-context SQuAD質問応答性能を**33.5%から47.0%**へ引き上げた
SEALの自己生成データはGPT-4.1が作成した合成データより高い性能を記録した

実験結果：ARC-AGI few-shot汎化

2つ目の評価では、簡略化したARC-AGIベンチマーク部分集合でfew-shot learningを行う
モデルはツール群を活用して、合成データ拡張と最適化ハイパーパラメータを自律的に選択する
自動選択の対象には次の項目が含まれる
- 学習率
- training epochs
- token type別の選択的loss計算
SEALによるツールの自動選択と構成は、標準的な文脈内学習（ICL）およびツール使用を効果的に学習していないRLなしのself-editingより性能を高めた
2つの実験は、SEALが新しいデータに対応して言語モデルを自律的に適応させるフレームワークとなり得ることを示している

1件のコメント

GN⁺ 2025-06-15

Hacker Newsのコメント

self-editアプローチは、モデルが自己学習に適した形で情報を再構成する方法を強化学習で最適化する点が賢い。
核心は、知識の種類ごとにより適した表現が異なるということで、人が数学と歴史を勉強するときにノートの取り方が違うのに似ている。
GPT-4.1のデータでは知識統合の結果が47%対46.3%と、小さなモデルのベースラインよりかなり高く、単にデータが増えたのではなく、より良い学習形式を見つけたように見える。
ただし、破滅的忘却は依然として解決されておらず、データの多様性が実際に改善したのかも完全には明確ではない。
報酬評価ごとに30〜45秒かかる計算コストはほとんどの用途には重すぎるが、最適な保存が本当に重要な高価値文書の処理なら使い道はありそうだ。
明示的な評価指標があるタスクに限定されることが最大の制約で、報酬を計算するには正解の質疑応答ペアやテストケースが必要になる。
それでも技術文書や教育コンテンツのように評価を生成できる領域では、新しい情報の処理方法を大きく改善できるし、まだ「継続的に自己改善するエージェント」の段階ではないとしても、モデルが自分の学習戦略を調整する方向への重要な一歩に感じられる。
2010年代半ばからごく早い時期に機械学習をやっていた数学の秀才の友人2人が、これに似て聞こえるNEAT/HyperNEATアルゴリズムについてよく話していた。
“NEAT/HyperNEAT” (Neuroevolution of Augmented Topologies) [0]
機械学習の専門家ではないが、理解したところでは、NEATはネットワークのトポロジー構造を進化させ、この論文は重みを進化させるようだ。
結局、一方はネットワーク構造を、もう一方は重みを進化させて同じ問題を解こうとする2つのアプローチに見える。
その2人は私が会った中でも最も頭のいい部類で、強化学習と進化的アルゴリズムが機械学習の進む先だとかなり確信していた。
[0] https://en.wikipedia.org/wiki/Neuroevolution_of_augmenting_t...
- 人間はすごい。ニューロンを理解しようとして仮想的な計算システムを作り、実際のニューロンがそのようには動作しないと分かったが、それでもその上にパラダイムを変える技術を作り上げた。
  そして今も、その想像上のシステムから出てきたアイデアで技術を強化している。
- 私が一番好きなNEAT入門資料は、SethBlingのMarI/O - Machine Learning for Video Gamesだ。
  https://www.youtube.com/watch?v=qv6UVOQ0F44
- 最近このアイデアにすっかりハマっている。Kokoro向けの音声クローニングを遺伝的アルゴリズムである程度成功させた後、アーキテクチャ自体を進化させられるのか気になった。
  自己組織化する知能という考えはとても興味深いが、どうやって実現可能にするのかは疑問だ。
  LLMが今のように発展してきたのを見ると、こうしたハイブリッドなアプローチが最善なのかもしれない。
Anthropicからも数日前にself finetuning関連の論文が出ていた。
https://arxiv.org/html/2506.10139v1
- これはすごい。
  「Claude 3.5 Sonnetの本番品質の報酬モデルで評価したところ、教師なし補助ポリシーは、人間の監督による報酬モデルで学習したポリシーとの直接比較で60%勝利した」
  つまり今や、モデルが新しいモデルの事後学習まで人間よりうまくできるようになったということだ。
- 関連して進行中のスレッドがある。
  Unsupervised Elicitation of Language Models - https://news.ycombinator.com/item?id=44276041
LLMに「業務中に」学ばせる研究がどこまで進んでいるのか、実際にデプロイ可能なものになれないボトルネックが何なのか、詳しい人にまとめてほしい。
例えば継続的ファインチューニングのような方法で、時間とともにコードベースを実際に学習するモデル＋コーディングエージェントを作るとき、コスト、モデル崩壊、その他の要因のうち何が問題なのか知りたい。
大手研究所は間違いなく試しているはずだが、LLMユーザーの立場からはこの話はあまり聞こえてこず、今はより良い学習、例えば強化学習に焦点が当たっているように感じる。
学習中に覚えられなかったものは、必要なときにコンテキストへ入れればよいという前提もあるようだ。
素朴な見方では、学習後に経験から学べないことがAGIへの道で最大の障害に見える。
- 私たちは継続学習をどう行うべきかまったく分かっていない。
  計算コスト、崩壊、忘却といった話は正しいが、唯一「本当に」可能な方法は、モデルを学習し、新しいデータを受け取り、既存の全データと新しいデータでモデルを完全に再学習し、それを繰り返すことだ。
  それでも「時間」という側面についての保証はない。
  継続学習の分野には、これを真の意味で解決する答えがほとんどなく、解決策は多くの面で自己矛盾しているので、狂いそうなほど難しい。
  以前の表現空間をほぼそのまま維持しつつ、モデルの表現空間を拡張しなければならないが、結局それは、変えずに変えなければならないという意味だ。
  一番腹立たしいのは、とても小さな自然の脳でさえこれを簡単にやってのけることだ。
  長く説明できる理論はあるが、要約すると、AIにも何らかの形で眠る、あるいは休む過程が必要になる可能性が高い。
- 専門家ではないが、プライバシーが大きな役割を果たしている、あるいは果たすべきだと思う。
  計算コストのため、どんな学習であれユーザーごとではなく集約方式になるはずで、そうなるとセッション間の情報漏えいリスクが非常に大きくなる。
  安全な継続学習方法を見つけることがAGIの最大の障害のように思える、という点には完全に同意する。
- 本当の答えは、自動評価を十分に信頼できていないということだ。
  評価スコアが上がっても、自動的に学習された特定のリリースが実際の性能を改善したと確信しにくいので、今はみな更新をまとめて出し、デプロイ前に感覚的な検証をしている。
- 最も明白な問題はアラインメントだ。
  LLMのファインチューニングだけでもアラインメントが失われ得ることはすでに知られているので、どんな形の継続的ファインチューニングも理論上は同じようにアラインメントを失わせ得る。
- 最もはっきりした障害は破滅的忘却だ。
見たところ、LoRA アダプターを微調整したあと元のモデルにマージするフレームワークにすぎないように思える
HuggingFace ライブラリの PeftModel と merge_and_unload を使ってアダプターをベースモデルにマージしているが、正確に何が新しいのか分からない
- 新しそうに見える部分は、アプローチの安定性、アラインメントコストやモデル崩壊を避ける点にあるのかもしれない
  生成された LoRA で2つのモデルを継続的に更新し、ハイパーネットワークも新しいモデル状態に合わせて更新する、ハイパーネットワークの完全な循環を見てみたい
  ハイパーネットワークに LoRA を適用するにはメタ・ハイパーネットワークが必要で、そうなれば実質的に継続学習が可能になるかもしれない
「大規模言語モデルは強力だが静的であり、新しいタスクに対応して重みを調整するメカニズムがない」というくだりが核心だ
学習と推論のプロセスが完全に分離されているため、人間の知能に関する伝統的な概念に慣れた人には非常に混乱を招く
人間にとっては、何かを学び、その知識を現実に適用することは1つの統合されたフィードバック過程だが、LLM はそうではない
私たちは学習させ、デプロイし、少しだけ「学んだ」新しいモデルに置き換える
LLM にとって推論は学習の終わりだ
おそらく AI に関する最大の誤解はここにある
LLM が学んでいると考えると、AGI が目前にあると想像しやすくなる
- DeepSeek が示したように、強化学習で LLM を洗練できる
- ユーザーが出力に肯定的・否定的に反応するかを確認したうえで、モデルが受け取った入力と生成した出力を使って LLM を学習させたらどうだろうか？
コードと例があるウェブサイト: https://jyopari.github.io/posts/seal
この分野では、「正しく学ぶ」ことよりも正しく忘れることのほうが急速に重要な問題になりつつあるように思う
モデルに新しい事実を自ら教えさせる点では大きな進展があるが、新しい知識と有限の容量が与えられたとき、関連性の最も低い情報を捨てる最先端技術ははるかに遅れている
人間の脳の大部分は「正しく忘れる」ことが非常に得意だが、それがどう機能しているのか気になる
- 人間が正しく忘れるのに本当に長けているとは思わない
  正直、人間の脳が私たちの行う多くのことにおいて「例外的に優れている」とも確信していない
  人間の脳の記憶容量は非常に大きいので、忘却の大半は新しい情報のためのスペース確保というより、過去の悪い情報が新しい学習を妨げることを脳が正しく把握している、ということに近いと思う
- 私の知る限り、人工ニューラルネットワークで、どの重みがどの出力にどの程度責任を持つのかを特定する点では、ほとんど進展がなかった
  そのため、ユーザーが誤り・不正確・望ましくないと示した情報を捨てることができない
  一方で人間の心はこれを簡単に行う
  何かが間違っている、役に立たない、関係ないと分類されたことを記憶し、それをもう行わず、時間が経てばそのあまり通らなくなった経路自体を忘れることもある
  少なくとも人工ニューラルネットワークには、そのような明確なメカニズムはない
- 学習は間隔反復と強く関連している
  通常は Anki のような学習ツールと結び付けられるが、現実世界は物事に特定の頻度で遭遇することで満ちている
  昼夜の周期、季節、訪れる場所、会う人々など、実質的にあらゆるものがそうだ
  もしかすると、間隔反復の逆方向のようなものがあるのかもしれない、と気になる
- 興味深い研究を見たが、LLM は内部データを「隠す」こともある
  単に忘れるのではなく、学習を続けるとその情報が後で再び現れることがある
  だからモデルを学習させるときは、小さな一部だけを見るのではなく、記憶全体を確認する必要がある
- 最近最少使用されたもの、みたいな方式だろうか？
  今、自分の頭でテストしながら解明しているところ :D
  こういう点があるから、このコンピューターサイエンス分野が好きだ
「Villalobos et al. [75] は、最前線の LLM が2028年までに公開利用可能な人間生成テキストすべてで学習されるだろうと予測している」というくだりが印象的だ
論文は、迫りつつあるデータの壁のために合成データ拡張を採用する必要があり、ウェブ規模のコーパスが枯渇すれば、モデルが自ら有用な学習シグナルを生成する能力に進歩がかかってくると見ている
自然な次の段階は、専用の SEAL 合成データ生成モデルをメタ学習させて新しい事前学習コーパスを作り、追加の人間テキストに依存せずに将来のモデルのスケーラビリティとデータ効率を高めることだ
2028年は実質的に明日も同然であり、興味深い洞察だ
- それは理論にすぎない
  単一の人間の脳は、ノードと接続数の観点ではウェブ全体よりはるかに複雑だ
  私たちは思考がどのように行われるのかを説明できるほど脳を理解してもいない
  脳が出力を作り、ウェブに送るまでの過程も完全には理解していない
  ウェブ規模の後にモデルが自ら有用な学習データを作れるという予測は、ただの推測だ
  そのような学習データは人間の思考と同じ品質に到達しないかもしれないし、ただ反芻するだけで学習やモデル品質をまったく前進させないかもしれない
  それを「洞察」と呼ぶのは少し楽観的だ
- それはほとんどすでに現状だ
  最前線の LLM は、公開利用可能な人間生成テキストすべてで既に学習されており、コーディングのような検証可能なタスクを改善するために、合成データでもすでに多く学習している

自己適応型（Self-Adapting）大規模言語モデル

静的なLLMを自ら更新する方法

既存の適応手法との違い

強化学習でself-editポリシーを学習

実験結果：知識統合

実験結果：ARC-AGI few-shot汎化

関連記事

1件のコメント

Hacker Newsのコメント