- 世界42人の研究者が参加した オックスフォード・インターネット研究所(OII) 主導の大規模研究により、大規模言語モデル(LLM) の評価に使われるベンチマークには科学的厳密性が不足していることが確認された
- 445件の AIベンチマーク を検証した結果、半数以上で概念定義が不明確、または分析手法が弱く、信頼できる結論を導きにくい構造 であることが分かった
- 検証対象の研究のうち 統計的手法 を使っていたのは 16% בלבד で、「推論」や「無害性」といった抽象的概念が明確に定義されていないケースが多かった
- 研究チームは 定義の明確化、代表性のある評価、統計分析の強化 などを含む8つの改善勧告を提示し、そのための Construct Validity Checklist ツールを公開した
- AIベンチマークの科学的妥当性の確保が、AI技術の発展と規制の信頼性における中核課題 として浮上している
研究概要
- オックスフォード・インターネット研究所(OII)が主導し、EPFL、Stanford、TUM、UC Berkeley、Yale など主要機関が参加した研究
- 論文タイトルは Measuring What Matters: Construct Validity in Large Language Model Benchmarks で、NeurIPS 2025 での発表が予定されている
- 本研究は 445件のAIベンチマーク を体系的に検証し、評価基準の科学的妥当性を分析した
主な発見
- 統計的厳密性の不足: 検証された研究のうち、統計的比較手法を使っていたのは16%のみ
- モデル間の性能差や優位性の主張が、偶然による結果である可能性 がある
- 曖昧または論争的な定義: およそ半数のベンチマークが、「推論」「無害性」などの抽象概念を明確に定義していない
- 明確な概念定義の欠如により、評価目的と実際の測定との不一致 が生じる
問題事例
- 形式ルールの混同: 単純な論理パズルを解きつつ、複雑な形式で回答を提出するよう求められる場合、正答していても形式エラーで失敗扱いになる
- 脆弱な性能: 簡単な数学問題には強い一方で、数字や文の構造が少し変わるだけで失敗する事例がある
- 根拠のない主張: 医療試験問題で高得点を取ったからといって、医師レベルの専門性 を持つと誤解される可能性がある
改善勧告
- 研究チームは問題解決は可能だとし、心理測定学・医学分野の検証方法論 を参考にした8つの勧告を提示した
- 定義と切り分け(Define and isolate) : 測定する概念を明確に定義し、無関係な要因を統制する
- 代表性のある評価を構築する(Build representative evaluations) : 実環境を反映し、対象となるスキルの全範囲を含める
- 分析と正当化を強化する(Strengthen analysis and justification) : 統計的不確実性を報告し、エラー分析を行い、ベンチマークの妥当性の根拠を示す
- Construct Validity Checklist により、研究者・開発者・規制機関がベンチマーク設計の妥当性を事前に点検できる
研究の意義
- ベンチマークは、AI研究の方向性、モデル競争、政策および規制基準 を決定する中核的なツールとして機能する
- 科学的根拠の弱いベンチマークは、AIの性能と安全性に関する誤解 を招くリスクがある
- 今回の研究は、AI評価の信頼性確保に向けた国際協力モデル として提示されている
その他の情報
- 論文は2025年12月2日〜7日に開催される NeurIPS 2025 で発表予定
- 研究支援は Clarendon 奨学金、ESRC、EPSRC、Meta LLM Evaluation Research Grant など、さまざまな機関から提供されている
- OIIは過去25年にわたり、人工知能、デジタルプラットフォーム、自律システム など新技術の社会的影響を研究してきた機関である
1件のコメント
Hacker Newsの意見
私は研究所で LLMベンチマークと人間評価 を担当している。
正直に言って、今のこの分野は完全な 無法地帯 レベルだ。まともな解決策はなく、研究者たちもベンチマーク作業ばかりに縛られたくはない。
結局、製品レベルでは従来の A/Bテスト が最も現実的な方法だ。直接的な指標を大規模に測定できるからだ。
もちろん「benchmarketing」のようなものもあるが、たいていは本気で良いベンチマークを作ろうとしている。ただ、それがあまりにも難しいか、不可能なだけだ。
測定可能な指標は明確なのに、統計処理がひどすぎる。ほとんどは平均差を見るだけで、p-value の計算も信用できない。
しかも実際のワークロード性能との相関もほとんどない。本番実験はノイズが大きすぎて、劣化を見落としやすい。
AIのほうはさらに深刻だ。何を測っているのか曖昧で、株価向けのノイズ測定 をするインセンティブまである。こんな状況で LLM ベンチマークがひどいのは当然だ。
Bが単に「人をだます」やり方で点数を上げることもありうる。OpenAI の 4o の事例がその代表だ。
もう少し寛容に見るなら、知能そのものをベンチマークするのは難しい ということだ。人間の職務適性でさえ標準化された質問で評価しにくいのだから、AIならなおさらだ。
私は TTS(Text-to-Speech) 分野で働いているが、こちらも LLM 以上に 混沌とした領域 だ。
デモは完璧でも、数百分単位で生成すると音量ドリフト、速度変化、発音ミスが次々に出てくる。
長時間音声合成向けの標準ベンチマークがないことが最大の問題だ。
こうした基準を提案した文章を Death of Demo にまとめた。
私は Humanity’s Last Exam プロジェクトについて書いた。
世界中の専門家が AI モデルを試験するために難問をクラウドソーシングする方式だ。
人間には簡単でも AI には依然として難しい問題がある点が興味深かった。
結局、AI学習の未来は現実世界(meatspace) での経験と推論アノテーションにかかっていると思う。
ベンチマークは SATスコア に似ていると思う。完璧な予測ではないが、大まかなシグナルとしては使える。
LLM は意味のある方向に進歩しており、ベンチマークもある程度それを反映している。
現在の LLM ブームで 最も弱い環 がベンチマークだ。
モデル間比較はほぼ 疑似科学レベルの混乱 になっている。
私は LMArena リーダーボード を使っているが、モデル間の結果差が説明不可能なほど大きい。
プロンプトがモデルバージョンに強く結びついていて、GPT-4 でうまくいったものが GPT-5 では壊れる。
だから最近は、もう Gemini を使う方向に傾いている。
こうしたフィードバックベースのチューニングが LLM の 過剰な自信の問題 を悪化させている。
だがユーザーは自分で評価したがらず、リーダーボード式の順位 を求める。
LLM を審判として使うやり方もあるが、何か間違っている感じがする。
結局は 専門レビュアーによる評価 が必要だが、コストが高い。
開発者個人レベルでは、自分でベンチマークを作ること が解決策だ。
自分が解いたコード問題を基準にテストを作り、tok/s や TTFT のような指標を確認すればよい。
結局、ユーザーが自分で使ってみるのが最も現実的な評価だ。
ある人は 電卓なし試験(AIME) の問題を例に出し、小さい数しか扱わないベンチマークは実際の能力を反映していないと指摘した。
だが私は、モデルが人間のように 試験のコツを身につけること も一種の進歩だと考える。人間的な推論により近い。
私は ゲーム化されていない評価 を望んでいる。今はただの賢いオートコンプリートにすぎない。
仲間内で いら立たしいバグのコレクション Git repo を作って LLM をテストしよう、という提案があった。
たとえば Yjs/CRDT のバグを Claude Code、GPT5-codex、GLM-4.6 で試したが、結局 回避策 しか出せなかった。
フロントエンドのログをバックエンドに送って AI がリアルタイムで見られるようにしたところ、ようやく進展があった。
公開すると学習データに取り込まれて無効化されるからだ。
こうした個人ベンチマークを維持すると、モデルの実際の進歩速度 をはるかに冷静に見られる。
ベンチマークは結局 特定の文脈における仕様 にすぎない。特定の状況でコードがうまく動くことを示すだけで、あらゆる場合を保証するものではない。
これを LLM に当てはめるなら、「ベンチマークは可能な作業を示すだけで、不可能な作業を証明することはできない」となる。
今回の研究では 445 個のベンチマークを検討したが、その大半は 構成概念妥当性 に欠けているという。
本当の知能を測るには 新規性(novelty) を評価しなければならない。
すでに見た問題と似たパターンを解くのは、単なる暗記にすぎない。
だが、数百ペタバイトの学習データを避けて完全に新しい問題を作るのはほぼ不可能だ。
そのため 知能の錯覚 が生まれる。
実際には、両者のあいだに 無数のグレーゾーン が存在する。
完全に新しい問題であっても、ある程度の類似性がなければ解けない。