GPT-5.5、MITライセンスのGLM-5.2より幻覚率が3倍

(arrowtsx.dev)

1 ポイント投稿者 GN⁺ 4 시간 전 | 1件のコメント | WhatsAppで共有

大手AI研究所の間で無限拡張戦略への懐疑が強まる中、モデル規模が現実世界での正確性を保証しないことを示す事例が提示された
MITライセンスのオープンウェイトモデルGLM-5.2は753Bパラメータ、約40Bアクティブパラメータで、GPT-5.5に4ポイント差まで迫った
AA-Omniscienceの幻覚率はGLM-5.2が28%、GPT-5.5が86%、DeepSeek V4 Proが94%で、不確実性補正の差が性能スコアと同じくらい重要になっている
PythonテストではDeepSeek V4 Proは3分52秒と7.7k reasoning tokensを使っても誤答し、GLM-5.2は12秒と約800 tokensで技術的な不可能性を指摘した
モデル選定はパラメータ数や理論性能だけでは判断しにくく、生の能力・幻覚率・計算効率をあわせて見る必要がある

モデル拡張戦略への疑念

主要AI研究所の間では、パラメータ数と学習データの拡張だけで性能を継続的に引き上げるアプローチへの懐疑が強まっている
Claude Fable 5はリリース3日後に米国政府によって制限され、国家安全保障に起因する初の米国AI禁止事例として扱われた
- 世界最大級のモデルの1つが単一のjailbreakリスクのために禁止された点は、拡張パラダイムの限界を示す事例として使われている
大規模モデルは依然としてArtificial Analysis Intelligence Indexで高得点を記録しているが、オープンウェイトモデルも大きく差を縮めている
- Z.aiのGLM-5.2は、753Bパラメータ、約40Bアクティブパラメータを持つMITライセンスのオープンウェイトLLMである
- GLM-5.2はArtificial Analysis Intelligence IndexでGPT-5.5に4ポイント差、Fable 5に9ポイント差まで迫っている
- クローズドモデルがGLM-5.2より1.5〜2倍大きいと推定される状況で、この差の縮小は実際の知能のplateauの可能性を裏づけている

幻覚率が明らかにした不確実性補正の問題

大量の事実的で非理論的なデータで学習されたモデルは、分からないときでも答えを出す方向に強化されうる
AA-Omniscience benchmarkの幻覚率はモデルごとの差が大きい
- 幻覚率比較: {b:94,28,36,48,86}
- DeepSeek V4 Pro: 1.6Tパラメータ、49Bアクティブパラメータ、AA Intelligence Index 44ポイント、幻覚率94%
- GLM-5.2: 幻覚率28%
- Opus 4.8: 幻覚率36%
- Fable 5: 幻覚率48%
- GPT-5.5: 幻覚率86%
DeepSeek V4 Proの94%という幻覚率は、答えを見つけられなかった質問で「分からない」と答えた割合が約6%にとどまり、残りは自信満々に誤答したことを意味する

Pythonテストで分かれた計算効率

比較テストは、明確なアーキテクチャ上の欠陥がある比較的複雑なPython質問で行われた
- 両モデルともOpenRouterでhigh reasoning effort、temperature 1でテストされた
- システムプロンプトは「You respond professionally. You are a highly capable coding assistant well-versed in Python.」である
- GLM-5.2はZ.aiがFP8 precisionで提供し、DeepSeek V4 ProはBaidu QianfanがFP8 precisionで提供した
DeepSeek V4 Proは3分52秒のあいだに7.7k reasoning tokensを使っても、自信のある誤答を生成した
GLM-5.2は12秒と約800 reasoning tokensだけで、single-threaded taskがyieldingやsystem pollingなしにmultiplexed I/Oを実行するのは技術的に不可能だと判断した
reasoning budget、コーパス規模、パラメータ数をむやみに増やすと、計算を浪費してもっともらしい誤答を生むリスクが高まる
非常に大規模なモデルでも「分からない」と言えなかったり、精緻な論理的・技術的誤りを認識できなかったりするため、raw capability、uncertainty calibration/hallucination rate、computational efficiencyをあわせて評価する必要がある

1件のコメント

GN⁺ 4 시간 전

Hacker Newsの反応

実際の知能が大きく頭打ちになっていて、今後さらに大きなモデルを学習させ続けると知能が停滞するだけでなく、むしろ悪化するというのは、かなり大胆な主張だ
なぜ「より大きなモデルとより多くのデータが、そのままより多くのハルシネーションにつながる」と結論づけるのか分からない。ここ数年の実際の傾向はむしろ逆で、一部のモデルでは依然としてハルシネーションが多いこともあるが、現在のモデルは、より小さく、はるかに少ないデータで学習された初期の175B ChatGPTより、ずっとハルシネーションが少ない
主要なAI研究所が、際限のないパラメータ数や学習データの拡大に懐疑的になっているという引用があったので、データにも触れた。今の状況は、業界が1T未満のモデルにもまだ引き出せるものが多いと見ているようで、ただし望む能力を開花させるには、その分布内でより多く、より高品質なデータが必要に見える
- モデルを今より賢くするには、学習すべき事例や例示が必要だが、人間の推論の上位パーセンタイルに近づくほど、そうした資料は極端に少なくなる
  無理やり作った論理問題は作れるが、英語は形式論理ではないので、しばしば言葉遊びになってしまう。「モンティ・ホール」系の問題も、提示の仕方を変えれば明白になる、人間にしか面白くない言語ゲームに近い
  結局のところ、モデルの学習者は学習コーパス、つまり歴史上記録された人類の産出物全体の圧倒的な凡庸さと格闘している。モデルが改善されるなら、次の段階はこうした限界を越えるために人間と共同設計されるモデルになるだろう。言語の使い方や問題解決のプロセス、今でいう「オーケストレーション」も一緒に進化していくはずだ
  巨大なコンテキストを扱えて、同じ制約を必要としないなら、現実世界の比喩はあまり当てはまらない。ハルシネーションと外挿はどれほど違うのか、といった疑問も出てくる
  LLMに対する懐疑や混乱のかなりの部分は、平均的な知能の人が非常に賢い人の説明を聞いて戯言だと思い込み、そのうえ尊大にも不親切だと非難するのと大差ない
  狼が人間のそばで生きるのに適した性質を持つよう犬へと飼いならされたように、LLMも私たちの限界、傲慢さ、美的バイアスや先入観を中心に進化していくだろう。大半の人間がLLMに求めているものは、根本的には知能や合理性ではない
- 引用文は「より大きなモデルとより多くのデータ = より多くのハルシネーション」とは言っていない。より大きなモデルは知能が頭打ちになると言っていただけで、より多くのデータやハルシネーションの増加については述べていない
  関連する引用は、「モデルが非常に事実志向で非理論的な大量データで学習されると、常に答えを出す方法を学ぶ」という部分だ
  したがって、別個の主張は2つある。1) より大きなモデルは性能が頭打ちになる 2) より多くの事実データで学習したモデルはハルシネーション率が高い
  1は、よく知られた話に近い。OpenAIのスケーリング則の研究でも、数年前からパラメータ数と学習データ量に収穫逓減が見られていたと記憶している。2については、元記事以外にどんな根拠があるのかは分からない
- ハルシネーションは計算量とメモリ容量にも大きく左右されるのでは？企業はエージェント的な構造で結果検証により多くの時間を使い、思考トークンを多く使い、量子化を弱めることができる。これらはすべて計算量やメモリに大きく依存するが、ハルシネーションを減らすことが実証されている
  もしかするとGPT-5.5は、計算量・メモリ・エネルギー不足のせいで大きく制約されているのかもしれない
  より大きなモデルが頭打ちだと結論づけるのは誇張に見える、という点には同意する
- 主要なAI研究所が、際限のないパラメータ数や学習データの拡大に懐疑的になったのは、主に学習データの品質が理由である可能性が高い。なぜこうした議論でこれがあまり言及されないのか分からない
  最初から明らかだったように、スケーリング則は基礎データに記述された能力の一部を可能にし、人工ニューラルネットワークがそれを潜在空間で抽象化できるようにしたにすぎない
- それは過学習では？データは増えていても、そのデータにないことを尋ねればハルシネーションが起きる、という話では
これが「最小実行可能LLM」の姿なのか気になる。LLMはどのくらい大きくなれば、その先はより大きなコンテキストウィンドウと、PDFやMarkdownファイルのような動的な知識コンテンツを流し込むことで、学習データ外の知識を与えられるのか、とよく考える
LLMに必要なのは、より多くのデータではなく、よりよく磨き上げる工程なのかもしれない
幻覚は、見た目には RLVR で狙いやすい問題のように見える。すでに正解で検証できる膨大な量の推論トレースを生成しているのだから、「わからない」を有効な答えとして入れ、何千もの推論トレースのどれも正答に到達しなかった問題では、「わからない」に到達したトレースを学習データへ昇格させればよい
本質的には、モデルに「わからない」が有効な答えだと教えることになる
Sam Altman も以前、この考えを示唆するブログ記事を書いていた気がするので、誰にとっても明白なアイデアなのだろう。だとすれば、実際には思うほど簡単ではないと見るべきだと思う
- ほぼすべてのベンチマークは、正解なら1点、それ以外は0点という形で 正確度 を測っているからである。確信度が10%の質問100件にすべて「わからない」と答えれば0点だが、全部に自信満々で答えれば期待値は10点になる。だから、たいていのAIはそのように学習される
  ランダム推測の平均点が、すべての質問に「わからない」と答えるより低くなるAIベンチマークは、私の知る限り AA-Omniscience だけである
- 問題は、LLMの出力と、それをツールがどう解釈するかにあると思う。出力は、あり得るすべての次トークンの 確率分布 である。全トークンの確率が非常に低くても、全体の確率和が1になるよう正規化される。その段階を過ぎると、モデルが特定のトークンを強く好んだのか、増幅されたノイズを見ているだけなのかを区別しにくい
  別個の「わからない」トークンを学習するというのは、他のすべてのトークンとの間に堀を作らなければならないという意味である。「はい」と「いいえ」の間に、両方が相対的に高い確率を持つぼやけたノイズ領域があるのではなく、「わからない」という、より高い新しい山が必要になる。すると今度は、「はい」と「わからない」、「わからない」と「いいえ」の間に新たなぼやけた領域が生まれる。その間にさらに別の答えを学習させるには、はるかに精緻でなければならない
  代わりに、複数の選択肢がほぼ同じ確率かどうかを確認することはできる。ただし、上位2つの候補が Genève と Geneva のように実質的には同義語で、モデルが答えを知っている良い兆候なのか、それとも「はい」と「いいえ」なのかも確認しなければならない
- 核心的な問題は、幻覚抑制 が一般化しないことである。さまざまな質問で誤答に罰を与えることはできても、それが一貫した世界観の出現につながるわけではない。論理能力と結びついた一貫した世界観だけが、幻覚に対する真の解決策である
  現在のアーキテクチャでは、オープンドメインのタスクにおいて幻覚は永遠に残る可能性が高い
- そんなに単純ではない。この疑問が気になって、以前まさにこれを目標に LLMを学習 させてみたことがある
  作業は単純だった。クエリ、検索結果、回答を含む MS-MARCO[0] データセットを使って学習セットを作った。1) 実際の根拠となる結果に、いくつかの無関係な結果を混ぜ、正答を付けた質問 2) 無関係な結果だけを付け、回答を「No answer present」とした質問
  データセットはほぼ100万サンプルと大きく、SFTのようにデータセットをなぞらせる方式から、同じユーザークエリに対する良い回答と悪い回答を対比させるDPO、回答の有無アノテーションを検証するGRPOまで、複数の手法で学習した
  結果として、幻覚は減らず、むしろはるかに悪化した。今ではモデルは、実際には答えがある場合でも、あるいはそもそも検索結果を必要としない単純な質問、たとえば X+Y のような問題に対しても、「No answer present」と主張し始めた
  もちろん、私の学習は最先端研究所ができることに比べれば初歩的だったと言うことはできる。それでも、より根本的な限界を示唆していると思う。LLMは扱いが難しく、「検索結果の一覧を見て、ユーザーのクエリとの関連性を確認し、回答への関連性が一定のしきい値より低ければ答えに使わない」といったことを第一原理からきれいに理解してはいない
  要するに、思うほど単純ではなく、もしかすると達成不可能かもしれない
  0: https://huggingface.co/datasets/microsoft/ms_marco
- そういう 報酬関数 が使えるなら、LLMは不要で、その報酬関数にクエリしてどんな質問にも答えればよい。ベンチマークを作って自動検証することはできるが、一般的なケースでは解決できない。モデルはベンチマークではうまくやれても、ベンチマークが扱っていない領域では、依然として過信した回答を返しうる
  モデルが「わからない」とより頻繁に言うよう調整することはできるが、性能コストが伴う。意味のある回答ができる質問の一部まで拒否するようになる。劣化したケースでは、モデルが常に、あるいはほぼ常にその文を予測するように崩壊することさえありうる
幻覚率スコアは少し解釈が難しい。これは、モデルが答えを知らない場合を条件にした値だからだ。したがって、日常利用で幻覚に遭遇する確率を直接測っているわけではない。その確率は、モデルが答えを知らない確率と、ユーザーのタスク分布が評価分布とどれだけ一致しているかにも依存する。
この幻覚率の差を純粋にモデルサイズのせいと見るのも慎重であるべきだ。GLM-5.2は、パラメータ数が2倍のDeepSeek-V4 Proよりはるかに幻覚が少ないが、DeepSeek-V4 FlashはGLM-5.2の半分にも満たないサイズなのに、AA-Omniscience幻覚指数で1位だ。
Opus 4.8はDeepSeek-V4 Proより大きい可能性が高く、指数での幻覚率は36%でGLM-5.2の28%より高いが、DeepSeekの数値よりはずっと低い。また、Opusの正確度は47%で、GLM-5.2は25%だ。この数字から絶対幻覚率、つまり幻覚応答数を全応答数で割った値を計算すると、Opusは19%、GLM-5.2は21%になる。
したがって、他の条件が同じなら大きいモデルは答えを知らない状況で幻覚により弱い可能性はあるが、幻覚率には他の要因も多く、この指標が追跡すべき中核指標なのかも完全には明らかではない。
- 同意しないわけではないが、同時にモデルはそのような二分法的な意味で何かを「知っている」わけでもない。単純な説明のように見えるが、実際には非常に微妙だ。
  ある事実が学習データに1回登場したのか、まったく登場しなかったのか、10回なのか、1000回なのかで、モデルは何を知っていると言えるのか。事実はそのまま保存されず、構成要素に分解されて重みの中に圧縮される。
  圧倒的に多く登場していない「似た」事実は一緒に束ねられ、最終的には混同される。では、似た事実とは何か。ある事実は完全に除去され、ある事実は他のものと束ねられてプールを汚染しつつ、同時に推論能力を与えるのか。モデルは何も知らず、自分が何を知っていて何を知らないかを知ることも決してできない。
- もしかすると、質問が簡単であるほど、モデルは自分が答えを知らないことに気づきやすいのかもしれない。
  Opusが最も難しい質問以外をすべて正解するとすれば、間違える質問は検証や幻覚検出が最も難しい質問になるため、幻覚率がより高くなりうる。
- それは仮定的な質問でテストできそうだ。知識カットオフ日以降に起きていない出来事について尋ねたり、実際には解けないものを問えばいい。
- 幻覚は「グラウンディング失敗」と呼ぶべきだ。
  アメリカの最先端近辺のモデルのコスト構造には、モデルが不確実なまま検索するかどうか迷うたびに、スタンガンを突きつけるような何かがある。検索回避反応が、ほぼすべての幻覚に当たる。
  私はモデルの順番を待ちもしない。man pageやHoogleの結果があれば、最後のprefix cache切断点に放り込んでしまう。そのほうが得だからだ。
- ここには、よくある失敗モードである知識カットオフ日以降の情報が含まれていない。その時点以降の情報が必要なら、モデルサイズに関係なく失敗するので、知識ベースとは独立に幻覚率が重要でありうる。
  すべてのユースケースがサポート範囲外になるリスクを均等に持つなら前の論理は成り立つが、あるデータポイントがサポート範囲外であることが保証される場合も多いため、それを認識する絶対的な能力が重要だ。
GPT-5.5とDeepSeek V4 Proが非常に大きいにもかかわらず、最も顕著な幻覚の先頭集団だというのは、大きいモデルほど幻覚しやすいことを意味するように見える。私の経験とは一致しない。
- 答えを知らないときに、より幻覚しやすいという意味に見える。大きいモデルは小さいモデルより正答を返す頻度は高いだろうが、間違う場合には「わからない」と言うより、作り話をする可能性が高いという意味だ。
「モデルが非常に事実的で非理論的な大量データで学習されると、常に答えを出す方法を学ぶ」という部分と、DeepSeek V4 ProのAA-Omniscience幻覚率94%、GLM-5.2 28%、Opus 4.8 36%、Fable 5 48%、GPT-5.5 86%という数値には驚かされる。
ここで、以前の研究を通じて幻覚がLLMの根本問題であり、プロンプトインジェクションのように修正が難しい可能性が高いことはすでに知っていたが、幻覚率がここまで悪いとは思わなかった。
誰もが最高モデルはエッジケースでしか幻覚しないかのように振る舞ってきたが、ここでは最も良い性能のGLM-5.2でさえ、何かを「知らない」ときの幻覚率が28%だ。
ただし、ブログのタイトルである「Bigger models are not the way」のほうがより適切で、もっと大きなニュースになるべき点に触れていると思う。より大きいモデルとより大きい学習セットがすでに比例したリターンを生まなくなっているなら、私たちはすでにS字カーブの上端に近づいている可能性が高い。OpenAIやxAIのような企業の評価額が、こうしたモデルの無限拡張というばかげた考えに大きく依存していることを考えると、とてつもなく大きなニュースだ。
- LLMにはWikipediaのような意味での知識という概念はない。
  質問トークンが回答トークンを定義するだけだ。核心は、関連する重みを一緒にクラスタリングすることにある。
- タイトルについては同意するし、私のミスだった。特にコーディングエージェントでこうした「最先端」モデルを使って本当にひどい目に遭ったが、コードベースについて事実をでっち上げることが多かった。
ベンチマークスコアだけを最大化するなら、大きいほど常によいとは限らないかもしれないが、一般知能と大規模モデル特有の感覚という点では、まったくそうではない。
オープンソースモデルは印象的だが、Opusや5.5と比べると、ベンチマークでうまく当てた狭い問題集合の外に出た瞬間に、どれほど急速に崩れるかはかなり明白だ。
幻覚率はモデルサイズの問題ではなく、学習方式に左右されると考える。モデルは、よく構成された質問と、よく整理され正しい回答が圧倒的に多い巨大なコーパスで学習されている。特に書籍がそうで、書籍はその分野の専門家が強くキュレーションした資料である
書籍では、答えのない質問を投げかけ、その質問に対してなぜ、そしてどのように答えがないのかを推論して説明するケースをほとんど見ない。良い質問を投げたうえで、正直に答えがわからないと説明する本もほとんどない。キュレーションの過程で、著者が答えを持っていない問いは議論から外されるためである
またRLHFのあいだ、研究所は解答があり興味深い答えを出せる質問に偏っており、良い答えのない「悪い」質問は過小代表されていると考える。モデルが知らないと認めるべき質問には、RLHFの努力もあまり割かれていない可能性が高い
人間は生涯を通じて現実世界で、すぐには答えがわからない問いに向き合いながら学習してきており、答えがわからない、あるいは確信が持てないことを非常に素早く評価する方法を身につけている
さらに人間には、LLMにはない恐怖がある。人間の脳には論理的思考の部分と分離された扁桃体があり、恐怖のシグナルを発し、その結果として私たちは自分の発言にずっと慎重になる。一方でLLMには扁桃体のような恐怖の器官がなく、学習コーパスのパターンに従って応答する方法だけを学ぶ。間違った答えをして面目を失ったり解雇されたりすることを「恐れて」いないため、完全に間違った答えでも平然と出せてしまう
したがって幻覚率は学習によって改善できるが、現在の研究所は、最も知的で有能なモデルを作るためのハイリスクな競争のために、そちらを最適化していない
代案として、LLMに別個の扁桃体のような器官を作れると考える。その器官が、ユーザープロンプトとLLMの思考の痕跡をもとに非同期にシグナルを送り、LLMの推論に恐怖シグナルを注入して、より安全な回答へと方向転換させられる
- モデルサイズが直接の原因ではないという点には確かに同意する。ただ、パラメータ数が多いモデルほど、過学習や学習不足を避けるために大量の学習データが必要になるという事実はある
  そのため、「最大学習データサイズ」を目指す競争が、意図せぬ過学習につながったのではないかと考える。致命的なレベルではないが、モデル内部で全知性のように見える認識を引き起こす程度にはなっている
- Skinnerなら、恐怖や貪欲のような感情ではなく、結果の問題だと言っただろう

GPT-5.5、MITライセンスのGLM-5.2より幻覚率が3倍

モデル拡張戦略への疑念

幻覚率が明らかにした不確実性補正の問題

Pythonテストで分かれた計算効率

関連記事

1件のコメント

Hacker Newsの反応