LLMの『急発進』能力は、段階的で予測可能かもしれない

(quantamagazine.org)

1 ポイント投稿者 GN⁺ 2024-03-26 | 1件のコメント | WhatsAppで共有

Stanfordの研究チームは、LLMの一部の創発能力は突然生まれたのではなく、性能を測る測定方法のせいで急激な跳躍のように見えた可能性があるとみている
BIG-benchは204の課題でLLMを評価し、一部の課題では性能が0に近い状態から、ある規模を境に急上昇する不連続な向上を観測した
3桁の加算のように正解/不正解だけを見る正確度指標は、部分的に合っている答えも失敗として扱うため、実際の改善過程を隠してしまう可能性がある
桁ごとの部分点を使うと、パラメータ増加に応じてより多くの数字を当てられる段階的な改善が明らかになり、加算の創発性という解釈は弱まる
どの指標で急激な向上が見えるかを予測する問題や、実際の正答が重要な課題の評価の問題は残っており、次世代モデルに向けた予測科学が必要とされる

BIG-benchが見た突然の性能ジャンプ

Beyond the Imitation Game benchmark、すなわちBIG-benchは、450人の研究者が作成した204の課題で大規模言語モデルの能力を評価する
多くの課題では、モデルが大きくなるほど性能は予測可能で滑らかに向上したが、一部の課題では、しばらくほぼ0にとどまっていた性能が突然上昇した
2022年8月の論文は、このような挙動は驚くべきもので予測が難しく、AIの安全性・潜在力・リスクの議論に反映されるべきだとした
この能力は、システムが高い複雑性に達したときにのみ現れる集団的な振る舞いを意味する**創発（emergence）**という言葉で呼ばれた

Stanfordの反論: モデルではなく指標が生んだ錯覚かもしれない

Stanford UniversityのSanmi Koyejo、Rylan Schaeffer、Brando Mirandaは新しい論文で、能力の突然の出現はLLMの性能測定方法に由来する可能性があると反論した
核心は、能力が予測不能に生じるのではなく、測定指標によっては滑らかで予測可能な改善が急激な跳躍のように見えることがある、という点にある
研究チームは、LLMが大規模になるほどより効果的になるという事実そのものは認めている
ただし、改善曲線が滑らかに見えるか、ギザギザして鋭く見えるかは、モデル内部の動作だけでなく、指標の選択やテスト例の不足にも左右されうる

モデル規模と評価対象

LLMは、書籍、Web検索、Wikipediaなどオンライン由来の巨大なテキストデータセットを分析し、頻繁に一緒に現れる単語同士のつながりを見つける形で訓練される
モデルの大きさはパラメータ数で測られ、パラメータは単語同士が結び付く方法におおよそ対応する
主なモデル規模は次のとおり
- GPT-2: 15億パラメータ
- GPT-3.5: 3,500億パラメータ
- GPT-4: 2023年3月に公開され、Microsoft Copilotの基盤で、1.75兆パラメータを使うとされる
大規模なLLMが、小規模モデルにはできない課題をこなせるという点自体は、論争の核心ではない
Stanfordの研究チームも、より大きなモデルの追加的な複雑性が、より難しく多様な問題で性能を高めうることを認めている

3桁加算で明らかになった正確度指標の限界

2022年のBIG-bench研究では、GPT-3とLAMDAはパラメータ数が少ない段階では加算問題を正確に解けないと評価された
GPT-3は130億パラメータで訓練されたとき、突然加算できるようになったように見え、LAMDAも680億パラメータで似た変化を示した
この結果は、加算能力が特定の閾値で創発するという解釈につながった
Stanfordの研究チームは、この評価は正確度しか見ていないため、完全に合っていなければ失敗として扱われたと指摘する
- たとえば100+278の答えとして376を出した場合、それは−9.34より実際の答えにはるかに近いが、正解/不正解の指標ではどちらも失敗になる
研究チームは、1桁目、2桁目、3桁目をそれぞれどれだけ正しく予測できたかを見る部分点指標を用いた
この指標では、パラメータが増えるにつれて、LLMが加算結果の数字列を徐々により正確に予測する様子が現れた
したがって、加算能力は突然で予測不能な跳躍ではなく、段階的で予測可能な改善として解釈できる

なお残る論争

Northeastern UniversityのTianshi Liは、Stanfordの論文が、どの指標でいつLLMの急激な改善が現れるかを予測する方法まで説明できていないとみている
この点では、一部の能力は依然として予測不能だとみなせる余地が残る
OpenAIのJason Weiは、算術のように正答そのものが重要な能力では、正しい答え自体が重要であるため、従来の創発報告も妥当だと主張する
AnthropicのAlex Tamkinは、新しい論文が多段階課題を細かく分解し、各構成要素の寄与を認識できるようにしたと評価している
同時にTamkinは、すべてのジャンプが錯覚だとは言えず、単一ステップ予測や連続指標を使っても不連続性が見られる文献があるとみている

より大きなモデルを予測するための課題

Rice UniversityのXia “Ben” Huは、現在のLLMの創発が別の測定手段で説明できるとしても、将来のより大きく複雑なLLMに同じ説明が当てはまるとは限らないとみている
Huは、LLMが次の水準まで大きくなれば、別の課題や別のモデルから知識を借りてくるようになるだろうと述べている
Tamkinにとって創発をめぐる議論は、LLMがどのように振る舞うかを予測しようとする試みと直接つながっている
LLM技術は適用範囲が広いため、次世代モデルで驚かないための予測科学を築くことが重要になる

1件のコメント

GN⁺ 2024-03-26

Hacker Newsの意見

この研究にはいくつか問題がある: 1) 合格/不合格式の正確度をトークン編集距離のような、より滑らかな指標に置き換えるのは、課題によっては能力のひどい代理指標になりうる
2) 著者らの指標で見ても、なおいくつかの潜在的な創発能力が見つかっている
3) 後から見れば何でも簡単に見える。データを見直して、創発が消える変換が見つかるまでいじることはできるが、当時は一般的なテスト正確度指標を使っており、結果が予測不能で驚くべきものだったという点こそ本当に注目すべき現象だ
論文には価値があるが、結論をあまり遠くまで広げるべきではない
- 記事の後半にもあるように、加算はほぼ正しいというだけではあまり意味がない。正しいか間違っているかのどちらかだ
  それでも採点方法を変えた後にも創発能力が一部残っていたので、その努力は評価したい
「別の物差しを使えば創発が消える」というのは、たいていの創発的挙動にも当てはまるのではないかと思う
尺度を変えて水分子を1つ1つ見れば、突然氷の塊ができるのではなく、分子が1つずつ結晶構造に加わっていく様子が見えるはずだ
- 必ずしもそうではない。問題は、機械学習における定義がとりわけ緩いことにある
  ここでより詳しく書いた[0]。今言っているのは創発を説明するものだが、LLMに創発能力があるとされたときに主張されていたものとは異なる。その区別は記事でも説明されている
  [0] https://news.ycombinator.com/item?id=39812315
- しかし、50°Cと75°Cでの分子構造を知っていても、凝固点についてはほとんど分からない
  別の例では、あるウイルスの感染件数を測定すると、世界中に広がるか(R0 > 1、例: COVID-19)、広くは広がらないか(R0 < 1、例: Ebola)になる。完全に二分法的ではないにせよ、見かけ上は二分法のように見えるので創発的挙動だ
  逆にR0を直接測定すれば、漸進的な増加が見え、将来の変異やワクチン有効性などもはるかに予測しやすくなる
  「創発」はたとえばシグモイドを、「漸進的」は線形や対数関数を指すと考えている
- 氷を突然の創発だと勘違いする人はいない。肉眼で見ても徐々に生じることは明らかだ
論文: Are Emergent Abilities of Large Language Models a Mirage? https://arxiv.org/abs/2304.15004
未来が到来した後のほうが、予測はいつでも簡単だ
実際には、振り返ってみても予測が難しい相転移のような創発特性がありうるが、そう多くはない気がする。説得力のあるLLMの事例が1つでもあるのか疑わしい
より一般的なケースは、高次の能力が複数の下位能力に依存していて、その関係の予測が難しいというものだと思う。構成要素の滑らかな改善はあったのだろうが、何を見るべきか、つまり中核となる構成要素が何かを知る必要がある
創発能力を予測するには、必要な構成要素を事前に特定し、期待する挙動を支えるには各要素がどの程度の水準であるべきかも、ある程度シミュレーションしなければならない
もちろん、モデルサイズやデータ規模だけの問題ではなく、データの種類と品質も重要であり、モデルのバージョン間で急激な変化が起こりうる。更新された学習セットから、モデルがどんな新しいパターンや操作、つまり構成要素能力を学ぶのかを事前に分析するのは非常に難しい
逆方向のことがどれくらいの頻度で起きているのかも気になる。モデル設計者が「Xを行うにはA、B、Cの能力が必要で、A、B、Cを得るには新しいデータセットPとQが必要だ」とうまく特定できたケースのことだ。そうした仮想的な状況なら、X能力への進捗を測定できたはずだ
- 私の知る限り、Transformer以前にはそういうことはまったく起きていなかった。モデルがそれほど多くの個別スキルを、互いに干渉させずに保持できなかったからだ
  複数の高品質な能力を持つモデルというもの自体が、まだかなり新しい現象だ
  それでもそのようなアプローチは必要だと思うし、今日の最高クラスのLLMはすでに似たことをしている可能性が高い。ただ、何をしているのか公開しているところはないので、推測にすぎない
「しかし他の課題では、能力向上は滑らかではなかった。性能はしばらくほぼ0にとどまった後、突然跳ね上がった。ほかの研究でも同様の能力ジャンプが見つかっている。」
うわ、投稿タイトルはかなり不正確ではないか
- その段落は先行研究の結果を要約したもので、この論文はまさにその結果に異議を唱える内容だ
- この文脈では、そのような能力は意図的に研究され作られたのであって、どこからともなく突然飛び出してきたわけではない、という意味に見える
  世の中のかなりの部分は「AI」の突然の登場に不意を突かれたが、こうしたものが来ると分かっていた人たちもいた
部分点を与えるアプローチは悪くないが、モデルに正答を出すよう学習させたいのであれば、正解かどうかは重要であることに変わりはない
小さなモデルに算術を学習させると、損失曲線が定常状態に達しても、一部の数字は合っているのに答えはまだ間違っている、という様子が見られた。さらに学習させることはできるが、必要な 学習エポック数 はモデルサイズに対して指数的に反比例するように見える
そのため、パラメータ数が x 個のモデルは、2x 個のモデルより n² 倍長くかかる、といった形になる
あるパラメータ数では、勾配降下法による学習で正答を得ることが事実上ほぼ不可能になる
パラメータが多いほど収束へ持ち込みやすく、これは実際に重要な指標である
ある時点を過ぎると、その能力が自発的に現れるまでの予想時間は人間の寿命、ひいては人類全体の寿命よりも長くなる。モデルサイズの増加がそれを実現可能にするという意味では、その能力は十分に突然に創発すると言ってよいと思う
- 要点は、正答を出すモデルが欲しいとしても、目標からどれだけ離れているかを見るには、二分法的な正確度ではなく 部分点 を使うべきだということ
  改善が突然かつ予測不能に現れる指標を使うと、能力が自発的に現れる可能性があるため、あとどれだけ学習すべきかすら見積もれない
  逆に、部分点の指標が滑らかで予測可能に改善するなら、正確度そのものを直接外挿するよりも、学習の進み具合を外挿して目標の正確度にいつ到達するかを見積もれる可能性がある
  予想時間が長すぎるため、より大きいモデルを学習させることにするなら、モデルサイズ間の外挿によって、どの程度大きなモデルが必要かもある程度推定できる
- モデル学習は 連続性 に最適化されすぎているように見える。たとえば連続変数は無限に細分化できるが、論理やアルゴリズムはそうした曖昧なものではなく、しっかりした構造を持っている
  学習エージェントが論理やアルゴリズムをきちんと学ぶには、曖昧な概念からしっかりした概念へ一般化できる必要がありそうだ。それが単なるスケーリングで自動的に起きるのか、根本的な転換が必要なのかは不確かである
- この投稿は見た？ https://news.ycombinator.com/item?id=39575264
  互いにつながった話に聞こえる
良い論文である。ただし創発が必ずしも指標の突然の跳躍や予測不能性を必要とするわけではない。新しい能力は段階的に生じることもありうる
- 機械学習で「創発」と言うときは、その用語を導入した論文で説明されているように、突然の跳躍がある指標 を指す: https://arxiv.org/abs/2206.07682
モデルは不連続なジャンプなしでもより賢くなっている可能性がある。部分的な解答に点を与えないやり方で測定していたため、継続的に鋭くなってきたというシグナルを見逃していただけかもしれない
これは Sam Altman の考えとして見えるものともある程度整合している。OpenAI は学習計算量とデータサイズだけでもモデルの 推論能力 をかなりうまく予測できると感じているようだ
- Sam Altman は営業担当に近く、それは彼自身の考えというより、OpenAI で働く大勢の専門家の考えを彼が繰り返しているだけである
止まった時計でも1日に2回は合う
LLM は もっともらしさエンジン である。ここで検証されている根本仮説は、もっともらしさが増せば正確性も増す、というものだ
この仮説は、LLM の学習に使われる人間作成コンテンツを見るだけでも容易に反証できる。したがって、それに依存するあらゆる現象には上限がある。ゆえに LLM を単に大きくするだけでは AGI は生まれない
- 「LLM はもっともらしさエンジンだ」というのは LLM の捉え方の一つだが、それだけで能力に自動的な上限が生じるわけではない
  人間は繁殖する生物だというのも真である。表面的には、人間は繁殖能力についてのみ選択されるのだから、知能を持つようには進化できないように見えるが、実際にはそうではない。真である分類であっても、人間の能力の上限を定めるわけではない
  LLM は知識を可能な限り効率よく保存するよう進化する
  知識保存の単純な戦略は暗記であり、ニューラルネットワークは確かに暗記できる
  別の戦略は アルゴリズム を使うことだ。ニューラルネットワークも、アルゴリズムによって知識を保存するよう進化しうる。たとえば、小さなニューラルネットワークが加算を行うために FFT に似た構造を進化させた例が見られた。最初は暗記から始まり完全ではなかったが、学習後半には FFT を使う加算アルゴリズムへ切り替わり、完全な結果を出した
  より優れた LLM は、洗練された圧縮によって知識を保存しているのだと思う。そこには世界モデルを作り、入力テキストをそのモデルと結び付ける方法が含まれる
  これは推論機械の構成要素だと考える。不完全でバグもあり、現在のアーキテクチャはまもなく限界に達するかもしれないが、純粋な暗記とはまったく異なる
- 人間がもっともらしさではなく 正確性 を安定して追求していると仮定している
  科学システム全体が、もっともらしく見えるが誤った主張を抑制するよう設計されているという事実は、むしろ逆を示している
- 哲学的な意味では正しいが、現実には AI は、以前は知能が必要だと考えられていた多くの課題や職務で人間を上回る道を進んでいる
- 「依存するあらゆる現象には上限がある」という結論はもっともらしいが、反例によって容易に崩れる。優れた学生は師を超えられるし、平凡な学生でも複数の師に学べば全員を超えられることがある
  余談だが、だからこそ中世の master-journeyman 制度は非常に効率的だったのだと思う
  より抽象的に言えば、その結論は 転移学習 が存在しないと仮定しているように見える
著者たちの使っている指標が紛らわしい
編集距離は、モデルが算術を理解しているかをテストするには奇妙な方法に思える([1], Figure 3)。1+3=3 は 1+1=9 とまったく同じだけ正しいものとして扱われそうだ
なぜモデル出力が実際の値からどれだけ外れているかを abs(actual-expected) で見ないのか気になる。その指標でも 変曲点 があるのかも気になる
https://arxiv.org/abs/2206.07682
- 算術をどう行うか次第である。人間が筆算をしているなら、12345+35791=58136 は 48146 と同じくらい大きな誤りである。実際の結果は 48136 で、どちらも1桁の列だけが間違っている。二進半加算器も同じように動作する
  LLM が算術をどう行っているかは分からない。トークン編集距離 は興味深いかもしれないが、いずれにせよ論文の主張自体は大きく変わらない
  別件だが、リンクが間違っている。言及している論文はこちら: https://arxiv.org/pdf/2304.15004.pdf

LLMの『急発進』能力は、段階的で予測可能かもしれない

BIG-benchが見た突然の性能ジャンプ

Stanfordの反論: モデルではなく指標が生んだ錯覚かもしれない

モデル規模と評価対象

3桁加算で明らかになった正確度指標の限界

なお残る論争

より大きなモデルを予測するための課題

関連記事

1件のコメント

Hacker Newsの意見