1 ポイント 投稿者 GN⁺ 2025-06-22 | 1件のコメント | WhatsAppで共有
  • 大規模言語モデル(LLM) は長い入力から特定の情報をうまく見つけられる一方で、欠落した情報を特定することには限界がある
  • 新しい AbsenceBench ベンチマーク は、シーケンス、詩、GitHub PR という3つの領域で、LLMの欠落情報検出能力を評価する
  • 最新モデルの Claude-3.7-Sonnet でも、5Kトークンの文脈において 69.6% F1-score にとどまる低い性能を示した
  • Transformer ベースの attention メカニズム は、文書中の「空白」に対しては効果的に機能しないという限界がある
  • この研究は、LLMによる挿入情報の検出と欠落情報の検出 のあいだに本質的な難易度差があることを示している

概要

  • 大規模言語モデル(LLM) は、長文書から情報を見つけ出す性能を大きく向上させている
  • 従来の Needle in a Haystack(NIAH) テストは、長い入力の中から埋もれた情報を見つけ出す能力を評価するもので、LLMはここで非常に優れた性能を示している
  • しかし、LLMが 明らかに欠けている情報 を見つけ出せるかどうかは別問題である
  • これに対し、文書の一部内容を明示的に削除したうえで、何の情報が欠けているかを答えさせる AbsenceBench ベンチマークが提案された

AbsenceBench ベンチマークの説明

  • AbsenceBench は 詩、数値シーケンス、GitHub Pull Request(PR) の3つのドメインで、モデルの欠落検知能力を評価する
  • 元の文書と、意図的に一部内容を削除した修正版を LLM に同時に与え、欠けた情報を特定できるかを評価する
  • 平均文脈長は 5Kトークン で、既存の長文テストより短い「中程度の文脈」ベンチマークに当たる

評価結果の主な論点

  • 14の代表的な LLM(例: GPT-4、Claude-3.7-Sonnet、Gemini-2.5-flash など)を対象に評価したところ、最新モデルでも F1-score は約69.6% と低い値にとどまった
  • NIAH テストでは LLM がすでに「超人的」な性能を示しているにもかかわらず、AbsenceBench では性能が 56.9% 急落 した
  • 文脈長が長くなるほど、とくに詩の領域で性能がさらに低下する
  • inference-time compute 機能を使っても性能向上は 7.9% にとどまり、平均で3倍もの chain-of-thought トークンを消費する
  • 逆に、欠落率(omission rate)が低いほど、意外にも LLM の性能は悪化する

原因と詳細分析

  • Transformer ベースの self-attention メカニズム は、「欠けている情報」(空白)に注目しにくい。これはキーに基づく attention 構造上、存在しない情報そのものを追跡するのが難しいためである
  • テスト中に、欠落部分へ プレースホルダー文字列 を追加すると、性能は平均で 35.7% 大きく向上した

AbsenceBench の構造と例

  • 各タスクは次のように定義される
    • 元文書(Dorig)修正版(Dmodified) を提供
    • Dorig の p% の要素を削除して Dmodified を作り、両者を比較して LLM が何の情報が欠けているかという正解集合(Domit)を導く
  • 3つのドメインごとの例:
    • 詩(Poetry) : Gutenberg Poetry Corpus から詩を選び、各行をランダムに欠落させる
    • 数値シーケンス(Numerical Sequences) : ランダム生成した数列から一定確率で数を欠落させる
    • GitHub PRs: 人気オープンソース PR の diff ファイルから変更行の一部をランダムに削除する

評価テンプレート例(詩ドメイン)

  • システムプロンプト: 「学生が詩を暗唱したが、一部の行が抜けている可能性がある。正確にどの行が抜けたかを見つけよ。」
  • 元の詩と暗唱版の両方を提示し、正確に欠けた行だけを回答するよう求める

主な実験結果

  • 分野ごとに文書長、欠落率などを変えて実験した
  • GitHub PR、詩、数値シーケンスのいずれでも、LLM は欠けた部分を完全には特定できなかった
  • NIAH と AbsenceBench の主な違い: NIAH は存在するキーや情報に注目するのに対し、AbsenceBench は「存在しない部分」に注目しなければならないため、構造的により難しい

結論と示唆

  • AbsenceBench は、LLM が「何が欠けているのか?」という問いに対して依然として脆弱であることを示している
  • これは実務で LLM を判定者として活用する場合(例: LLM-as-a-Judge)、信頼性に注意が必要であることを示唆する
  • Transformer 構造の設計上の弱点を克服する新たなアプローチが必要である
  • AbsenceBench のデータセットとコードは公開されており、LLM の欠落検知能力研究の出発点として提案されている

主な貢献の整理

  • 中程度の文脈(5Kトークン)の文書において、明示的に欠落した要素を検出するための新しいベンチマークを設計・公開
  • 最新の14の LLM を評価し、挿入情報の検出はほぼ完璧でも、欠落情報の検出は依然として難しいことを確認
  • inference-time compute などにも、実際の性能向上には限界があることを示した
  • 欠落部分に明示的な placeholder を入れると性能が大きく向上する現象を確認
  • AbsenceBench が Transformer の attention メカニズムの根本的な限界を明らかにする事例である

AbsenceBench データセット構成

  • Poetry: 1編の詩を100〜1000行に切り分けてさまざまな長さの文書を構成し、各行ごとに欠落を作る
  • Numerical Sequences: 最初の数をランダムに設定し、さまざまな規則(昇順、降順、ランダム、さまざまな間隔)で次の数を並べ、一部を欠落させる
  • GitHub PRs: 上位20のホットなリポジトリの 10〜200行の diff から変更行のみを選び、一部を欠落させて実際の状況を反映する

実際のベンチマーク例

  • Poetry の例
    • 元文: “And so, to you, who always were / To me, I give these weedy rhymes / In memory of early times...”
    • 修正版: “And so, to you, who always were / In memory of early times...”
    • 正解: “To me, I give these weedy rhymes”
  • 数値シーケンスの例
    • 元文: 117, 121, 125, 129, 133, 137 ...
    • 修正版: 117, 125, 129, 133 ...
    • 正解: 121, 137
  • GitHub PR の例
    • PR のコード変更行のうち特定の行が欠落

活用と実務上の意義

  • 実務的には、PR diff における変更漏れや、文書内で必要な情報が欠けている状況を検知する能力と直結する
  • LLM をレビューや検証の自動化に適用する際、欠落検知には別の補完策が必要である

1件のコメント

 
GN⁺ 2025-06-22
Hacker Newsの意見
  • Gerald Sussmanの講演を見て、Kanizsa triangleの画像をClaudeに入力し、曖昧な質問を投げてClaudeが三角形を認識するか確認する実験をした経験の共有。Claudeは画像を正確に認識し、要約まで行ったため、画像の角度を90度回転させて再試行した。ところがClaudeは画像を認識できず、要素数まで誤って把握したという。Claudeの説明内容は「4つのPac-Manのような部分円、2つの細い黒い三角形または矢印形、薄い灰色の背景」で構成されていた

    • 今後、データ学習過程で全ての画像に90度回転版を追加して、このような問題を解決する可能性があるとの予測

    • 論文の範囲がテキスト文書に限られているため、Kanizsa triangleの実験はこの議論に直接は適用できないという意見の共有。画像処理に関しては、LLMはまだ発展が不十分である点を強調。多くのビジョン機能は別個の前処理を通じてトークン化され、transformerに入力される構造だと説明し、OCR、CNNベースのパターン認識、さまざまな角度や拡大画像など、複数段階の前処理の例に言及

    • 計算そのものへの理解不足を指摘。過去の論争に関連するHacker Newsの議論とStrange Loop講演動画のリンクリンクを共有

    • 脚が5本ある犬の写真をLLMに見せても、脚の本数を把握できないだろうという意見

    • 抽象化による一般化の例として、無数の点が三角形の形に配置されていれば、人間は即座に三角形として認識できる能力に言及。このような単純な例に知能の本質を見いだせると感じており、膨大な複雑さも単純なパターンとして認識できることが、結局はIQの意味だと説く。もしその点群が10次元キューブの頂点を少し回転させたものなら、10次元的思考では非常に簡単なパターンになるだろうという観点を提示

  • 最近のモデルも原本と修正版を同時に見せて欠落情報を識別する性能が低く、Transformerのattentionメカニズムでは、すでに削除されたトークンに注意を向けられないという論文著者らの主張の要約共有

    • 実際にキーを見つける対象は原文テキスト内にあるため、入力として両方を受け取るなら、モデルはそのキーに注意を向けられるはずだという意見を提示。Attentionの観点では

      Original: {共通部分} {削除された部分} {共通の後半部分}
      Modified: {共通部分} {共通の後半部分}
      

      Original: {共通部分} {共通の後半部分}
      Modified: {共通部分} {追加された部分} {共通の後半部分}
      

      の違いはそれほど大きくないという主張。RASPを通じて次のようなアルゴリズムを実装できそうだという具体的なアプローチも提案された。第1段階でOriginal/Modifiedトークンの位置を把握し、第2段階でそれぞれのトークン平均値を計算して差を取り、第3段階でその差に最も近いトークンが{削除された部分}/{追加された部分}だと判定する、というもの。差分計算をどちら側から引くかの問題があるだけだという。もし追加はよく検出できるのに削除はできないなら、LLMは原理は理解していても、削除データが不足していて学習が足りていないのかもしれないと分析

    • 最新の上位モデル(OpenAI opus、o3、Gemini 25 proなど)の実験結果が論文に含まれていない点を指摘

    • ビジョンモデルであれば、むしろ写真のネガ、画像回転などで学習可能なのではないかという疑問を表明。madlibのような穴埋めQ/A方式も実験的に可能だったのではないかと言及

    • モデルごとに性能差があるので、いまやベンチマークと関心が集まっている以上、今後の性能向上に期待するという見方。改善の余地は明らかにありそうだとする

  • Attentionメカニズムの構造上、分類されていない欠落部分を見つけられないのは自然な現象だという主張。needle-in-a-haystack問題は探すべき特定対象があるのでattentionがうまく働くが、omissionの場合は何が欠けているのか分からないため、全体文脈を比較しなければならず、既存のattentionレイヤーには限界があると説明。長文リストの並べ替えのような問題と似ているとする

    • omission検出の実験では、実際にLLMに必要な情報(例: 原文と修正版の両方)を与えているので、これはモデルのチューニングの問題であり、構造的限界ではないと考える意見もある。例えばML論文の欠落を見つけるとき、脳はML論文同士を比較するのであって、Star WarsやTop Gearのような無関係な記憶とは比較しないのだから、文脈の縮小によって効率的に動作しているという見方
  • 論文はまだ読んでいないが、投稿者もattentionメカニズムの限界についての説明には同意。omissionは何が欠けているのか分からないため、単純には見つけにくく、全体コンテキストの比較が必要だと強調

  • AbsenceBenchのような新しいベンチマーク方式への一部の批判は妥当だが、こうした試みが行われていること自体を前向きに捉え、より良い方向へ進むきっかけだと感じた

  • 人間と違ってLLMは文脈上の欠落位置にすら近づけないという論文著者らの意見には部分的に同意する一方で、アーキテクチャが数学的にどうしてそれほど不向きなのかは疑問だという声。こうした課題でファインチューニングが有効かどうかにも関心が示された。入力が短く、欠落が少ないほど問題をうまく解けないという結果については、人間でも1語や2語の欠落には気づきにくいという似た限界があると言及。推論モデルの方が良い成績だったが、100%の精度には届かなかった点に驚きもある。論文のような簡単なプログラムなら容易に解ける問題だと指摘。人間の知能にはまだ公式に定義されていない側面が多くあり、LLMはそうした部分に弱い可能性を示唆した論文内容に興味を持った

  • Literal string diffを見つけるのは、LLMに算術計算をさせるのと似た、複雑性の過剰配分だという見方。むしろLLMに全文書を列挙させて直接比較させるなど、reasoning方式の方が有利だと観察。arithmetic問題も段階的に分解して解かせると性能が上がる現象に似ているという。成績の良いモデルはMoE(Mixture of Experts)構造である可能性があり、Gemini FlashについてもMoEベースのモデルではないかと推測

  • LLMに「meta」アクセスを許可するなら、omission detectionのためのPythonスクリプトを自分で書いて実行させれば問題を解決できる可能性がある

    • ただしLLMが、いつPythonを使うべきかをアルゴリズム的に区別できない状況への懸念もある。常にコード活用を試みるよう指示すればエラーが減るという前提。些細な問題ですらLLMには難所になり得て、こうした弱点がコーディング能力にも制約を与える可能性があると指摘
  • 具体的なベンチマークへの不満を表明。prompt例ではqwq-32bモデルが3項目の実験で、omittedされたアイテムを完璧に見つけることに成功している。100項目でも十分に解けるはずだが、それだけ多くのトークンが必要になる。5000トークン制限はreasoning modelにはあまりに少なすぎ、実際にはもっと多くのバッチと単純化の過程を繰り返せば常に正しく見つけられるはずだと主張。正答を得るには、全文書をトークン化して反復的に比較する方法論を提案。[プロンプト全文の例を共有]

    • 実際にHN headline 26件のうち3件を除いたリストを使ってqwq-32bで実験し、5万トークンを消費しない段階で全て正確に見つけたことを実験で示した。実験資料リンク

    • 数え上げで問題を少し単純化するのは意味のない研究だと指摘し、今回の研究の真の目的は、並べ替えや分類では解決できないLLMの限界領域を把握することだと強調

  • Hamletの台詞に「utter love」が含まれるかをChatGPTに尋ねた実体験を紹介。ChatGPTはHamlet全台詞を確認した上でその語はないと答えたが、自分でオンライン原文を検索したところ即座に見つかり、その箇所をChatGPTに示すとすぐ認めて謝罪し、全台詞まで再提示したという流れ。「結局、人間の記憶力の方がChatGPT indexより優れていた経験」だと共有

    • 実際の正答はAct 2, Scene 1で、発言者はPoloniusだと訂正

    • LLMは検索ループやツールなしでは想起力が非常に低いことを認め、4oモデルも検索なしでは失敗し、search機能があって初めて正答できると指摘。ますます「問題に合ったツールを正しく使うことの重要性」が高まっているという示唆を導く

  • LLMは感覚入力に基づく存在検知はある程度うまくできても、absence(不在)の検知は感覚入力がないため難しい構造だという見方。不在を検知するには非常に強い世界モデルと期待が必要であり、このような高次の神経学的タスクは、まだLLMではなく有機体にしかできない固有能力かもしれないと提案

    • LLMは設計上、一貫性の問題を抱えうる。一部は単純記憶に依存し、別の経路では高度なパターンマッチングに依存する傾向がある

    • リアルタイムの思考と比べると、LLMは「固定された静的」現実を基盤にreasoningしているという指摘で、時間的側面にも限界があるとする

    • 実際、不在の検知はmemoryと密接に関係している。例えば机の上に置いていたペンがなくなったとき、脳は過去の感覚入力(ペンを見た記憶)と現在の状況を比較して不在を認識する。現時点では、thinking(思考)は有機体固有の特性だという主張