- フロンティアLLM 5種は、実際のユーザー投稿クレーム1,000件のうち67%で判定が割れ、5つすべてが一致したケースは33%だった
- 多数判定は正解ラベルではなく不一致を測る基準であり、全会一致でない67%では少なくとも1つのモデルが誤ることになる
- 4段階ルーブリックで2段階以上離れた実質的な不一致は34%で、TrueとFalseの極端な分裂も21%に達した
- モデルペアごとのラベル一致率は**53〜75%**で、同じベースモデルであるGemini 3 ProとSearch版の一致率が最も高かった
- データはLenzの最近の実際のクレームから抽出され、正解ラベルやLLMジャッジなしで測定したことで、精度よりも判定構造の不安定さを明らかにしている
実際のクレームで判定はどれほど頻繁に割れたのか
- 分析対象の1,000件のクレームのうち、672件、67%(95% CI 64–70%)で5つのフロンティアモデルの判定が一致しなかった
- 5モデルすべてが同じ判定を出したクレームは328件、33%(95% CI 30–36%)だった
- 1モデルだけが異なる判定を出したクレームは224件、22%(95% CI 20–25%)だった
- 2モデルが異なる判定を出したクレームは316件、32%(95% CI 29–35%)だった
- 2-2-1または2-1-1-1のように厳密な多数が形成されなかった分裂は132件、13%(95% CI 11–15%)だった
- 少なくとも2モデルが異なる判定を出したケースは448件、45%(95% CI 42–48%)だった
- 多数判定は正確性の代理指標ではなく、不一致を数えるための構造的な基準である
- 多数判定が誤っていることもあり、少数判定を出したモデルが正しいこともありうる
- 4つの判定バケットのうち1つだけが正解だとすれば、全会一致でないクレーム67%では少なくとも1モデルが誤っている
- 3-2、3-1-1、多数なしの分裂を含む45%では少なくとも2モデルが誤っている
- 多数がない13%では、どのバケットも3票に達していないため、少なくとも3モデルが誤っている
- 5モデルがすべて同意した33%の中にも、共有された盲点が存在する可能性がある
- パネルの合意度はKrippendorff’s α(ordinal)=0.639だった
- モデル判定はランダムに近いわけではないが、5モデルを相互交換可能な単一の判定者群と見なせるほど一貫しているわけでもなかった
- True / Mostly True / Misleading / Falseが順序尺度のカテゴリであるため、順序尺度のαを用いた
ニュアンスの違いと実質的な不一致
- 1,000件のクレームのうち、343件、34%(95% CI 31–37%)で少なくとも2モデルの判定が4段階ルーブリック上で2段階以上離れていた
- TrueとMostly Trueの違いは、信頼度補正に近いニュアンス差として扱う
- TrueとFalseの違いは、答えそのものが割れた実質的な不一致として扱う
- 測定は5つの判定の最大ペアワイズ・バケット距離で計算された
- 判定の順序は
True (0) → Mostly True (1) → Misleading (2) → False (3)である
- 距離0は328件、33%(95% CI 30–36%)で、5モデルすべてが同じバケットを選んだケースである
- 距離1は329件、33%(95% CI 30–36%)で、True ↔ Mostly Trueのようなニュアンス差に相当する
- 距離2は132件、13%(95% CI 11–15%)で、True ↔ MisleadingまたはMostly True ↔ Falseのような実質的な不一致である
- 距離3は211件、21%(95% CI 19–24%)で、True ↔ Falseの極端な分裂である
- バケット距離は誤差の大きさを精密に測る尺度ではなく、粗い指標である
- True / Mostly True / Misleading / Falseを等間隔の順序尺度とみなす単純化が入っている
- 2段階差は、ルーブリックの曖昧さ、時点基準の違い、「Misleading」の解釈差からも生じうる
モデル間の一致率
- 5モデルのペアのラベル一致率は**53%〜75%**の範囲だった
- 最も高い一致率はGemini 3 Pro × Gemini 3 Pro + Searchの75%(95% CI 72–77%)で、両モデルは同じベースモデルを共有している
- 最も低い一致率は53%(95% CI 50–56%)で、3つのペアで見られた
- 主なペア別一致率
- GPT-5.4 × Claude Opus 4.7: 65%(95% CI 62–68%)
- GPT-5.4 × Gemini 3 Pro: 65%(95% CI 62–68%)
- GPT-5.4 × Gemini 3 Pro + Search: 60%(95% CI 57–63%)
- GPT-5.4 × Sonar Pro: 60%(95% CI 57–63%)
- Claude Opus 4.7 × Gemini 3 Pro: 53%(95% CI 50–56%)
- Claude Opus 4.7 × Gemini 3 Pro + Search: 53%(95% CI 50–56%)
- Claude Opus 4.7 × Sonar Pro: 58%(95% CI 55–61%)
- Gemini 3 Pro × Sonar Pro: 53%(95% CI 50–56%)
- Gemini 3 Pro + Search × Sonar Pro: 58%(95% CI 55–61%)
モデル別の判定傾向
-
判定分布
- モデルごとに、True/Falseの両極に寄る度合いと、Mostly True/Misleadingの中間バケットを使う度合いが異なっていた
- 正解ラベルがないため、モデルの事前傾向とクレーム特性の影響を切り分けることはできない
- GPT-5.4: True 42%(95% CI 39–45%)、Mostly True 16%(14–19%)、Misleading 12%(10–14%)、False 30%(28–33%)
- Claude Opus 4.7: True 38%(35–41%)、Mostly True 26%(23–29%)、Misleading 19%(17–22%)、False 17%(15–20%)
- Gemini 3 Pro: True 54%(51–57%)、Mostly True 3%(2–4%)、Misleading 3%(2–4%)、False 40%(37–43%)
- Gemini 3 Pro + Search: True 52%(49–55%)、Mostly True 4%(3–5%)、Misleading 9%(7–11%)、False 35%(32–38%)
- Sonar Pro: True 35%(32–38%)、Mostly True 23%(21–26%)、Misleading 16%(14–18%)、False 26%(23–28%)
-
残りのパネル多数との一致
- 各モデルが、残り4モデルのうち3モデル以上で形成された厳密な多数と同じ判定を出した比率は**69%〜81%**だった
- この値は当該コーパスにおける同僚整合度であり、正確性ではない
- 計算には、残り4モデルが3/4以上の多数を形成したクレームのみが含まれるため、モデルごとにeligible nが異なる
- GPT-5.4: 81%(95% CI 78–84%)、eligible n=650、ineligible=350
- Claude Opus 4.7: 70%(95% CI 67–74%)、eligible n=691、ineligible=309
- Gemini 3 Pro: 77%(95% CI 74–80%)、eligible n=683、ineligible=317
- Gemini 3 Pro + Search: 76%(95% CI 73–79%)、eligible n=693、ineligible=307
- Sonar Pro: 69%(95% CI 66–73%)、eligible n=675、ineligible=325
分野別の不一致
- 分野別の分母は当該分野のクレーム数であり、ほとんどの分野で不一致率が大きく半分を超えた
- Finance: 75件、任意不一致 67%(95% CI 55–76%)、実質的不一致 39%(28–50%)、多数派なし 20%(13–30%)
- General: 179件、任意不一致 68%(60–74%)、実質的不一致 40%(33–48%)、多数派なし 12%(8–17%)
- Health: 171件、任意不一致 71%(64–78%)、実質的不一致 29%(23–36%)、多数派なし 12%(8–17%)
- History: 131件、任意不一致 53%(44–61%)、実質的不一致 24%(17–32%)、多数派なし 13%(8–20%)
- Legal: 48件、任意不一致 77%(63–87%)、実質的不一致 40%(27–54%)、多数派なし 19%(10–32%)
- Politics: 168件、任意不一致 70%(62–76%)、実質的不一致 38%(31–46%)、多数派なし 8%(5–13%)
- Science: 151件、任意不一致 68%(60–75%)、実質的不一致 36%(29–44%)、多数派なし 21%(15–28%)
- Tech: 77件、任意不一致 69%(58–78%)、実質的不一致 31%(22–42%)、多数派なし 8%(4–16%)
- 分野区分はLenzのトラフィックパターンを反映しており、すべてのファクトチェック可能なクレームを均等に標本抽出した結果ではない
判定バケット別の合意
- パネルが中間バケットに達したときは、ほとんど収束しなかった
- Mostly TrueとMisleadingの多数判定では、全会一致はそれぞれ最大5%水準にとどまった
- TrueとFalseの多数判定における全会一致比率は、それぞれ47%、43%だった
- 厳格な3/5以上の多数が当該判定を出したクレーム基準
- True: eligible n=438、全会一致 47%(95% CI 42–51%)、3~4票多数 53%(49–58%)
- Mostly True: eligible n=76、全会一致 0%(95% CI 0–5%)、3~4票多数 100%(95% CI 95–100%)
- Misleading: eligible n=74、全会一致 5%(95% CI 2–13%)、3~4票多数 95%(87–98%)
- False: eligible n=280、全会一致 43%(95% CI 37–49%)、3~4票多数 57%(51–63%)
- 5モデルすべてが同じ判定を下した328件のクレームも両極に偏っていた
- True: 204件、全会一致のうち62%(95% CI 57–67%)
- Mostly True: 0件、0%(95% CI 0–1%)
- Misleading: 4件、1%(95% CI 0–3%)
- False: 120件、37%(95% CI 32–42%)
- 17,856件のPolitiFactクレームに対する単一系列Llama-3アブレーション研究、Schwab et al. 2025でも、精緻なラベルでファクトチェック判定モデルの誤りが集中する関連結果が示されている
データセットと除外基準
- 分析対象は1,000件のクレーム
- Lenzファクトチェックプラットフォームに提出された実際のユーザー要求のうち、除外条件を通過した最新のクレームである
- すべてのクレームは2026年2月15日以降に生成された
- Lenz自身の判定は分析に使われておらず、分析はLenzとフロンティアモデルの比較ではなく、フロンティアモデル間の不一致のみを測定する
atomic_claimフィールドは、ユーザーが入力した原文ではなく、Lenzのフレーミング段階を経て整理された中立的かつ検証可能な命題である
- たとえば“Canadian authorities are throwing Christians in jail for quoting the Bible!!!”という入力は、“As of April 4, 2026, Canadian authorities have jailed individuals for publicly quoting the Bible because of their Christian beliefs.”という命題に変わる
- 除外されたクレーム
- 提出者が非公開に設定したクレーム
- プラットフォーム従業員、内部アカウント、エージェント/API提出クレーム
- 編集状態が
pendingまたはhiddenのクレーム
- 公人ではない個人に関する個人情報を含み、LenzのPIIスクリーニング段階で自動フラグされたクレーム
- OpenAI
text-embedding-3-small 1536次元埋め込みのatomic_claim間コサイン距離が0.2以内の近接重複クレーム
- 5モデルのうち1つでも、1回の再試行後になおパース可能な判定を出せなかったクレーム
- 収集時点基準で180日より古いクレーム
- 近接重複では、時間依存の命題の場合はより新しいクレームを、それ以外ではLenzで閲覧数が最も多い既存クレームを代表行とした
方法論
-
モデルとプロンプト
- パラメトリックモデル: GPT-5.4(OpenAI)、Claude Opus 4.7(Anthropic)、Gemini 3 Pro(Google)
- 検索拡張モデル: Gemini 3 Pro + Search(Google)、Sonar Pro(Perplexity)
- 各クレームは提出日に合わせた“as of YYYY-MM-DD”基準日とともに提示された
- モデルは
True、Mostly True、Misleading、Falseのいずれかを強制的に選択しなければならなかった
Classify this claim as of <date>: "<atomic claim>"
Output exactly one label: True, Mostly True, Misleading, or False.
No explanations, no qualifiers.
- Abstain選択肢は提供せず、強制選択によってモデル間比較の対称性を維持した
-
呼び出し設定と採点
- すべてのモデルは同じシステムプレースホルダー
. と同じユーザープロンプトテンプレート usr_v2 を受け取った
- 構造化出力スキーマ、ツール呼び出しスキーマ、seed、top-p、logit-bias制御は使用しなかった
- 対応している場合は決定論的デコーディングを要求し、
temperature=0.0を使用した
- GPT-5.4とClaude Opus 4.7は、プロバイダーアダプターがカスタムtemperature設定を拒否するため、temperatureを明示せずに呼び出された
- GPT-5.4、Claude Opus 4.7、Sonar Proは出力長を16トークンに制限し、Gemini 3 ProとGemini 3 Pro + Searchは1024トークン制限を使用した
- Gemini 3 Pro + SearchはGoogle Search groundingを有効にし、Sonar ProはPerplexityのsearch-backed APIを通じた検索拡張モデルとして扱った
- 正規化後、4つのラベルのうち正確に1つと一致した場合のみ、パース可能な出力として認めた
- LLM採点者と参照正解ラベルは使用せず、すべての測定は5モデルの直接パースラベル一致から得た
-
統計処理
- コーパスは単一のファクトチェックプラットフォームに提出された最新の1,000件のeligibleクレームであり、より広い母集団の確率標本ではない
- Wilson 95%信頼区間は、同じ選別規則に従う類似のeligible提出フローで各クレームが独立に抽出されるというモデルのもとでの名目上の二項区間である
- Lenzのクレームはニュースイベントの周辺で提出が集中し、同じユーザーが1セッション内で関連クレームを複数提出することもあるため、独立同分布ではない
- より正直なクラスター・モデルでは、実際の標本変動性はWilson区間より大きくなる可能性がある
- モデル間の有意性検定は行わず、ペアごとの一致率とWilson 95% CIを記述統計として報告する
再現性と公開成果物
- クレーム単位の全データはCSVで提供される
- 各行には claim ID と URL、atomic claim テキスト、5つのフロンティア判定、最大ペアバケット距離、領域、作成日が含まれる
- 投稿者が後からクレームを削除したり非公開に変更したりした場合、一部ページは利用できなくなる可能性がある
- PDFは、オフライン閲覧、引用、arXivスタイルのプレプリントホスティング向けのブラウザ非依存レンダリング版である
- スナップショットはv1.0で、データ基準日は2026年5月21日である
- 永続的な記録と引用は doi.org/10.5281/zenodo.20344847 で提供される
限界
- 鳩の巣原理に基づく誤り下限はルーブリック不一致の下限であり、特定のクレームでどのモデルが事実的に誤っているかを判定するものではない
- 4つのバケットのうち正解は1つだけになり得るため、どんな不一致も少なくとも1つの一貫しない判定を意味する
- しかし、どのモデルがどのクレームで誤っているかは分からない
- バケット距離の順序性は単純化である
- True / Mostly True / Misleading / False を等間隔の順序尺度として扱っている
- 2段階の差は、ルーブリックの曖昧さ、時間基準の違い、「Misleading」の解釈差に由来する可能性があり、必ずしもより大きな事実誤認を意味しない
- 判定の曖昧さはLLM固有の問題ではなく、課題そのものの性質でもある
- AVeriTeC は、50のファクトチェック組織を基準に複数ラウンドのレビューを経た4,568件のクレームコーパスであり、判定のアノテーター間一致は κ=0.619 にとどまる
- フロンティアモデル間の不一致の一部は、どの評価者にとっても難しいラベル自体の性質を反映している
- スナップショットは特定の日付と特定のモデルバージョンに固定されている
- フロンティアLLMは非決定的であるため、同じモデルとプロンプトで再実行しても数値はある程度変動し得る
- 新しいモデルや別のプロンプトで再実行すれば、数値はさらに大きく動く可能性がある
- 検索対応モデルは推論時点でソースを参照した可能性があるが、何を検索したかは統制も監査もしていない
既存研究と今後の計画
- Yang & Wang (2026) は、最上位のフロンティアモデルが総合正確度では一致していても、MMLU-Pro と GPQA の項目の16〜38%で不一致を示すことを明らかにした
- 実際のクレーム検証における厳格な人手アノテーションのベンチマークとしては AVeriTeC が提示されている
- より大規模なファクトチェックコーパスとしては、単一系列の Llama-3 アブレーション設定による 17,856 件の PolitiFact クレーム がある
- Lenz コーパスは過去180日間の実際のユーザー投稿であり、lenz.io にのみインデックスされており、公開学習セットで標準判定と組み合わされたことはない
- 後続研究では、同じコーパス全体を人手でラベル付けし、そのラベルを正解として5つのフロンティアモデルと Lenz 自身の判定を評価する予定である
- 目標はリーダーボードではなく、フロンティアパネルが人間の合意から外れる位置、Lenz がその両方から外れる位置、どのカテゴリが不一致を引き起こすかを分析することである
倫理とデータ利用
- 使用したフィールドは公開クレームフィールドである atomic claim テキスト と作成日のみである
- 個人情報は使用していない
- 非公開クレームと従業員クレームは除外される
- フロンティアモデルにはクレームテキストと基準日のみが提供され、投稿者の身元や分析シグナルは提供されない
- 投稿者が後でクレームを非公開化または削除した場合、そのクレームはスナップショットおよび今後のダウンロードから削除される可能性がある
フロンティアパネルが大きく割れた例
- 付録では、最上位バケットと最下位バケットの間隔が最も大きい20件のクレームを提示している
- 少なくとも1つのモデルの判定が他モデルより2段階以上離れた、実質的な不一致クレームである
- 最大ペアバケット距離の降順で並べ、多数派なしのケースを先にタイブレークし、その後 claim ID の安定ハッシュで並べている
- 代表的な距離3・多数派なしの例
- Muthiah Muralidaran が、Indian Premier League は純粋なビジネスであり、低得点試合はスポンサーにとって退屈なのでフラットなピッチが用意されると述べたというクレーム: GPT-5.4 True, Claude Opus 4.7 Mostly True, Gemini 3 Pro False, Gemini 3 Pro + Search Misleading, Sonar Pro Misleading
- 2025年時点で Nigeria における World Bank の active portfolio が164億ドルを超えるというクレーム: GPT-5.4 Mostly True, Claude Opus 4.7 True, Gemini 3 Pro False, Gemini 3 Pro + Search Misleading, Sonar Pro Misleading
- ポジティブな感情内容の少ない音楽を好む人は知能がより高い傾向にあるというクレーム: GPT-5.4 Misleading, Claude Opus 4.7 Mostly True, Gemini 3 Pro False, Gemini 3 Pro + Search True, Sonar Pro Misleading
- Rajasthan 州 Kota のホステルでは、学生の自殺防止策としてケージ型の天井ファンが一般的に使われているというクレーム: GPT-5.4 Mostly True, Claude Opus 4.7 True, Gemini 3 Pro False, Gemini 3 Pro + Search Misleading, Sonar Pro False
- 2026年5月6日時点で、複数の国のムスリムが India の West Bengal 州 Hooghly district に集まったというクレーム: GPT-5.4 True, Claude Opus 4.7 Mostly True, Gemini 3 Pro False, Gemini 3 Pro + Search Misleading, Sonar Pro True
1件のコメント
Hacker Newsの意見
Classify this claim as of : ""/Output exactly one label: True, Mostly True, Misleading, or False. No explanations, no qualifiers.主張の一覧は https://lenz.io/research/llm-disagreement/data.csv にあり、見やすくするため Datasette Lite に入れてある。不一致の例は https://lite.datasette.io/?csv=https%3A%2F%2Fstatic.simonwil...
「すべてのアーモンドは米国カリフォルニア州で栽培されている」という主張は false だが、Opus 4.7 だけが
misleadingと答えている。mostly trueとmisleadingを入れているうえに、「説明禁止」ルールまであるので、話の説得力が弱くなるよりよい例として、「不完全なエジプトのビザ申請書は、エジプトのビザ申請が拒否される最も一般的な理由の一つだ」では、モデルの回答が
trueとmostly trueに割れたが、表現上のamong the mostを考えると、両者は実質的に同じ意味であるさらに決定的な例として、「2026年5月18日、ウクライナがロシアのモスクワに対してドローン攻撃を行った」は、検索ツールがなければ正解は「検証不能」しかないのに、その選択肢はなく、回答は true/false に割れた: https://lite.datasette.io/?csv=https%3A%2F%2Fstatic.simonwil...
ある主張は同時に
misleadingでありつつ true または false でもありうる。「おおむね false」の場合をどのカテゴリに入れるのかも不明であるどれだけ間違っていれば
mostly trueからfalseに移るのかという基準もない。結局、事実理解ではなく、モデルが mostly と misleading をどう定義するかまで試していることになり、モデル同士が事実そのものについて根本的に不一致だと述べるのは誇張である厳密な評価を実際につなげると、Web検索のようなツール呼び出しではインフラの問題、一時的な失敗、さまざまな非決定性がそのまま入り込む
検索なしの3モデルと検索エージェントを分けて数値を示すべきだった。知識カットオフ以後の最新の事実主張については、検索なしモデルは事実上ほとんど意味がなく、「わからない」選択肢もないため、結果はほぼ完全に無効に近い。知らなくてもそう言えないので、もっともらしい答えを当てにいくことになる
強制選択と「弱い/強い」変形が見出しの数値を水増ししているという点にも同意する。この区別を行うには、はるかに厳密なプロンプトが必要であり、
mostlyが何を意味するかをモデル任せにしないため、文脈内例示(ICL)も必要になる可能性が高いmisleadingが有効な答えになりうるのか分からない何か見落としているのだろうか
[1]: https://en.wikipedia.org/wiki/Almond#Production
claude-opus-4-7は1000件中451件、45.1%で、sonar-proは39.1%、gpt-5.4は27.7%、gemini-3-retrievalは12.9%、gemini-3-proは6.0%だったDatasette クエリはこちら: https://lite.datasette.io/?csv=https%3A%2F%2Fstatic.simonwil...
「天才級の知能」を持つ完璧なツールなら、正しく答えるべきだ
「宇宙のどこかに地球外生命体は存在する」という主張について、GPT-5.4 と Opus 4.7 は Misleading、Gemini 3 と Gemini 3 (Retrieval)、Sonar Pro は FALSE と回答している
妙な事実主張だ。実際の正解は誰にも確実には分からないなのに、その選択肢がない
幻覚が問題ではないという意味ではないが、これではその試験方法としてひどすぎる
ただし unknown または undecidable のカテゴリはあるべきだった
「これは公開された正答表のあるベンチマーク項目ではなく、実際のユーザーがファクトチェック・プラットフォームに検証を依頼した主張だ」という点はよい
ただ、著者たちがレポート自体の執筆や作成に LLM をどれだけ使ったのか を正確に明かさない限り、これにどれほど意味があるのか分からない。「11. Ethics & data use」セクションまであり、LLM の無謬性に近い話題まで扱っているのに、レポート制作で LLM を使ったかどうかは一度も出てこない
この実験がいろいろな面で欠陥を抱えている、という点には全員が TRUE で同意できそうだ
それでも、人々が LLM を使うときに犯しがちな典型的ミスを見つけるには優れた練習になる。プロンプトエンジニアリング職の面接質問としてよさそうだ
モデルは日に日に人間らしくなっている
Goodhart の法則のせいで、この「ベンチマーク」は数日、長くても数週間で無意味になるだろう
再学習に取り込まれて「あたかも解決された」ように見えるだろうが、推論が生まれるのではなく、新しい「問題」に光が当たったことで統計的にもっともらしい正答らしさが増すだけだ。その後で、これが「すべてを変える」巨大な「進歩」だと大騒ぎすることになるだろう
付け加えると、企業戦略と PR の学位があるのかもしれないし、ないのかもしれない
研究所の人たちはたいてい自分たちが何をしているか分かっていて、こうした問題を知らないわけではない
なぜ Grok を除外したのか分からない。Grok がどう訓練されているかという哲学的な違いは公開されているのだから、興味深いデータポイントになったはずだ
その違いについて一日中議論することはできるだろうが、それを客観的に観察する機会を逃したのは残念だ
Grok は多くの人が好むバイアスを持つよう訓練されているが、正確であることを意図したモデルではない
これが、私たちがまだ知らなかった何かを示しているようには思えない。LLM は訓練セットにないデータについての質問には正確に答えられない
大した話ではなさそうだ
「マウスウォッシュは効果があるか」のような質問なら、医学ジャーナルという堅いデータソースが少なくとも一つはありそうだ
これはもっと悪い
なぜみんなが LLM にファクトチェックをさせようとそこまで執着するのか理解できない
この技術はその用途のためのものではない。特定の状況ではそこそこ動くかもしれないが、だからといって適した道具になるわけではない
服を保管するために冷蔵庫を買うようなものだ
最後の人間は、「事実として誤り」または「事実として正しい」と言ってくれる機械を欲しがる。究極の真実が存在しないという深淵を、隣で眠れるくらい小さくしたいからだ
100% ローカル CPU ファクトチェック向けにこれを作った: https://news.ycombinator.com/item?id=48301003