AIシステムの評価手法の弱点を明らかにした研究

(oii.ox.ac.uk)

4 ポイント投稿者 GN⁺ 2025-11-09 | 1件のコメント | WhatsAppで共有

世界42人の研究者が参加した オックスフォード・インターネット研究所（OII） 主導の大規模研究により、大規模言語モデル（LLM） の評価に使われるベンチマークには科学的厳密性が不足していることが確認された
445件の AIベンチマーク を検証した結果、半数以上で概念定義が不明確、または分析手法が弱く、信頼できる結論を導きにくい構造 であることが分かった
検証対象の研究のうち 統計的手法 を使っていたのは 16% בלבד で、「推論」や「無害性」といった抽象的概念が明確に定義されていないケースが多かった
研究チームは 定義の明確化、代表性のある評価、統計分析の強化 などを含む8つの改善勧告を提示し、そのための Construct Validity Checklist ツールを公開した
AIベンチマークの科学的妥当性の確保が、AI技術の発展と規制の信頼性における中核課題 として浮上している

研究概要

オックスフォード・インターネット研究所（OII）が主導し、EPFL、Stanford、TUM、UC Berkeley、Yale など主要機関が参加した研究
論文タイトルは Measuring What Matters: Construct Validity in Large Language Model Benchmarks で、NeurIPS 2025 での発表が予定されている
本研究は 445件のAIベンチマーク を体系的に検証し、評価基準の科学的妥当性を分析した

主な発見

統計的厳密性の不足: 検証された研究のうち、統計的比較手法を使っていたのは16%のみ
- モデル間の性能差や優位性の主張が、偶然による結果である可能性 がある
曖昧または論争的な定義: およそ半数のベンチマークが、「推論」「無害性」などの抽象概念を明確に定義していない
- 明確な概念定義の欠如により、評価目的と実際の測定との不一致 が生じる

問題事例

形式ルールの混同: 単純な論理パズルを解きつつ、複雑な形式で回答を提出するよう求められる場合、正答していても形式エラーで失敗扱いになる
脆弱な性能: 簡単な数学問題には強い一方で、数字や文の構造が少し変わるだけで失敗する事例がある
根拠のない主張: 医療試験問題で高得点を取ったからといって、医師レベルの専門性 を持つと誤解される可能性がある

改善勧告

研究チームは問題解決は可能だとし、心理測定学・医学分野の検証方法論 を参考にした8つの勧告を提示した
- 定義と切り分け（Define and isolate） : 測定する概念を明確に定義し、無関係な要因を統制する
- 代表性のある評価を構築する（Build representative evaluations） : 実環境を反映し、対象となるスキルの全範囲を含める
- 分析と正当化を強化する（Strengthen analysis and justification） : 統計的不確実性を報告し、エラー分析を行い、ベンチマークの妥当性の根拠を示す
Construct Validity Checklist により、研究者・開発者・規制機関がベンチマーク設計の妥当性を事前に点検できる

研究の意義

ベンチマークは、AI研究の方向性、モデル競争、政策および規制基準 を決定する中核的なツールとして機能する
科学的根拠の弱いベンチマークは、AIの性能と安全性に関する誤解 を招くリスクがある
今回の研究は、AI評価の信頼性確保に向けた国際協力モデル として提示されている

その他の情報

論文は2025年12月2日〜7日に開催される NeurIPS 2025 で発表予定
研究支援は Clarendon 奨学金、ESRC、EPSRC、Meta LLM Evaluation Research Grant など、さまざまな機関から提供されている
OIIは過去25年にわたり、人工知能、デジタルプラットフォーム、自律システム など新技術の社会的影響を研究してきた機関である

1件のコメント

GN⁺ 2025-11-09

Hacker Newsの意見

私は研究所で LLMベンチマークと人間評価 を担当している。
正直に言って、今のこの分野は完全な 無法地帯 レベルだ。まともな解決策はなく、研究者たちもベンチマーク作業ばかりに縛られたくはない。
結局、製品レベルでは従来の A/Bテスト が最も現実的な方法だ。直接的な指標を大規模に測定できるからだ。
もちろん「benchmarketing」のようなものもあるが、たいていは本気で良いベンチマークを作ろうとしている。ただ、それがあまりにも難しいか、不可能なだけだ。
- 私はハイパースケーラーでプラットフォームインフラを担当しているが、こちらの分野の ベンチマークもひどい。
  測定可能な指標は明確なのに、統計処理がひどすぎる。ほとんどは平均差を見るだけで、p-value の計算も信用できない。
  しかも実際のワークロード性能との相関もほとんどない。本番実験はノイズが大きすぎて、劣化を見落としやすい。
  AIのほうはさらに深刻だ。何を測っているのか曖昧で、株価向けのノイズ測定 をするインセンティブまである。こんな状況で LLM ベンチマークがひどいのは当然だ。
- A/Bテストも危険だ。結局は ユーザーフィードバック最適化 を間接的に行っているようなもので、人間の評価者は簡単に操作されうる。
  Bが単に「人をだます」やり方で点数を上げることもありうる。OpenAI の 4o の事例がその代表だ。
- モデルが小学校レベルの数学問題はよく解けるのに、数字や文を少し変えるだけで間違えるのを見て衝撃を受けた。結局は パターン暗記 にすぎない。
- 技術企業とメディアがこうした問題を 透明に公開しないこと のほうが、より大きな問題だと思う。ベンチマークの点数を客観的な指標のように宣伝している。
- 私も LLM 評価をしているが、皮肉っぽく言えば、ほとんどのベンチマークは 偽の課題 だ。実際のユースケースがほとんどないからだ。
  もう少し寛容に見るなら、知能そのものをベンチマークするのは難しい ということだ。人間の職務適性でさえ標準化された質問で評価しにくいのだから、AIならなおさらだ。
私は TTS(Text-to-Speech) 分野で働いているが、こちらも LLM 以上に 混沌とした領域 だ。
デモは完璧でも、数百分単位で生成すると音量ドリフト、速度変化、発音ミスが次々に出てくる。
長時間音声合成向けの標準ベンチマークがないことが最大の問題だ。
こうした基準を提案した文章を Death of Demo にまとめた。
私は Humanity’s Last Exam プロジェクトについて書いた。
世界中の専門家が AI モデルを試験するために難問をクラウドソーシングする方式だ。
人間には簡単でも AI には依然として難しい問題がある点が興味深かった。
結局、AI学習の未来は現実世界(meatspace) での経験と推論アノテーションにかかっていると思う。
- Mercor や Micro1 のような企業は、すでにこのアプローチで 年商9桁 を上げている。
ベンチマークは SATスコア に似ていると思う。完璧な予測ではないが、大まかなシグナルとしては使える。
LLM は意味のある方向に進歩しており、ベンチマークもある程度それを反映している。
- ただし、人間向けの試験が LLM の業務性能を予測できる理由はない。たとえば単純な掛け算問題は人間の知能とは相関しても、コンピュータには無意味だ。
- これはまるで 芸術評論家を評価する試験 のようなものだ。主観的な結果を客観的に採点しようとする試み自体が矛盾している。
- 「明らかに進歩した」という表現は論点をぼかす。実際には 意味のある進歩かどうか自体が議論中 だ。
現在の LLM ブームで 最も弱い環 がベンチマークだ。
モデル間比較はほぼ 疑似科学レベルの混乱 になっている。
私は LMArena リーダーボードを使っているが、モデル間の結果差が説明不可能なほど大きい。
プロンプトがモデルバージョンに強く結びついていて、GPT-4 でうまくいったものが GPT-5 では壊れる。
だから最近は、もう Gemini を使う方向に傾いている。
- LMArena の評価はあまりにも簡単に 操作可能 だ。人間の評価者も、お世辞的な回答にだまされやすい。
  こうしたフィードバックベースのチューニングが LLM の 過剰な自信の問題 を悪化させている。
- 私は AImodelReview というサイトを作って複数モデルの出力を比較している。
  だがユーザーは自分で評価したがらず、リーダーボード式の順位 を求める。
  LLM を審判として使うやり方もあるが、何か間違っている感じがする。
  結局は 専門レビュアーによる評価 が必要だが、コストが高い。
- 人間の心理検査も同じように難しいことを思い出す。
開発者個人レベルでは、自分でベンチマークを作ること が解決策だ。
自分が解いたコード問題を基準にテストを作り、tok/s や TTFT のような指標を確認すればよい。
- 私はエージェントラッパー環境でしか LLM を使わないので、ベンチマークは単純だ。新しいモデルで作業してみて、感覚で pass/fail を判断する。
  結局、ユーザーが自分で使ってみるのが最も現実的な評価だ。
- OpenAI の GitHub に評価を追加すると、次のモデルはその問題でよりうまくなる。
- こうした独自評価は evals と呼ばれ、本気の AI プロジェクトなら必須だ。
- AI Stupid Level のようなサイトも、このアプローチを取っている。
- ただし、「問題を解く」ということが単なる パターン認識 かもしれない点は忘れてはいけない。
ある人は 電卓なし試験(AIME) の問題を例に出し、小さい数しか扱わないベンチマークは実際の能力を反映していないと指摘した。
だが私は、モデルが人間のように 試験のコツを身につけること も一種の進歩だと考える。人間的な推論により近い。
- 一方で、本当の推論能力なら大きな数の問題も解けるべきだという意見もある。
- 大学生が試験のコツで問題を解くのは人間評価の一部にすぎないのに、LLM はそれを全能力のように見せている。
  私は ゲーム化されていない評価 を望んでいる。今はただの賢いオートコンプリートにすぎない。
- 計算問題は結局、ツール使用能力 が身につけば消える問題だ。
- 関連する議論を扱った Forbidden Technique の動画も興味深い。
- LLM に Excel や Mathematica のような外部ツールを使わせれば、人間のように計算問題を解けるようになるだろう。
仲間内で いら立たしいバグのコレクション Git repo を作って LLM をテストしよう、という提案があった。
たとえば Yjs/CRDT のバグを Claude Code、GPT5-codex、GLM-4.6 で試したが、結局 回避策 しか出せなかった。
フロントエンドのログをバックエンドに送って AI がリアルタイムで見られるようにしたところ、ようやく進展があった。
- Playwrightライブラリ を直接使わせると、フロントエンド問題の解決に効果的だった。
- ただ、こうした提案は実質的に AI学習用の高品質データ を無料で提供しようという話にもなりうる。
- 私も個人的にバグ集を作って LLM にテストコードを書かせてみたが、まだ 最新モデルでも失敗 する。
- 実際のところ、熟練した LLM ユーザーの大半はすでに自分専用の非公開ベンチマークを維持している。
  公開すると学習データに取り込まれて無効化されるからだ。
  こうした個人ベンチマークを維持すると、モデルの実際の進歩速度 をはるかに冷静に見られる。
ベンチマークは結局 特定の文脈における仕様 にすぎない。特定の状況でコードがうまく動くことを示すだけで、あらゆる場合を保証するものではない。
- Dijkstra の言葉どおり、「テストはバグの存在を示せても、不在を証明することはできない」。
  これを LLM に当てはめるなら、「ベンチマークは可能な作業を示すだけで、不可能な作業を証明することはできない」となる。
今回の研究では 445 個のベンチマークを検討したが、その大半は 構成概念妥当性 に欠けているという。
本当の知能を測るには 新規性(novelty) を評価しなければならない。
すでに見た問題と似たパターンを解くのは、単なる暗記にすぎない。
だが、数百ペタバイトの学習データを避けて完全に新しい問題を作るのはほぼ不可能だ。
そのため 知能の錯覚 が生まれる。
- 問題解決を単純に「記憶」対「創造性」に分けるのは誤ったアプローチだ。
  実際には、両者のあいだに 無数のグレーゾーン が存在する。
  完全に新しい問題であっても、ある程度の類似性がなければ解けない。

AIシステムの評価手法の弱点を明らかにした研究

研究概要

主な発見

問題事例

改善勧告

研究の意義

その他の情報

関連記事

1件のコメント

Hacker Newsの意見