主要AI学会で査読コメントの一部がAI作成と判明

(nature.com)

3 ポイント投稿者 GN⁺ 2025-12-01 | 2件のコメント | WhatsAppで共有

国際機械学習会議 ICLR 2026 の論文査読コメントのうち 21% が完全に人工知能によって作成されたと確認された
Pangram Labs のAI検出ツールは、75,800件の査読コメントを分析し、半分以上で AI使用の痕跡 を検出
一部の研究者は 異常に冗長で不正確なフィードバック を受けて、AI生成の可能性を指摘した
学会側は AI使用ポリシー違反かどうかを自動化ツールでチェックすると表明し、信頼回復の手続きを進めている
今回の事態は 査読過程の透明性と信頼性の確保 が喫緊であることを示す事例となった

ICLR 2026の査読で明らかになったAI使用実態

国際機械学習会議 ICLR 2026 の論文査読コメントのうち、約21%が完全にAIで作成され、半数以上がAIの影響を受けていると分析された
- 分析は Pangram Labs が実施し、対象は 1万9,490編の論文と75,800件の査読コメント
- Pangram は、AI生成テキスト検出ツールを用いて結果を公開した
学会は AI使用が査読方針違反かどうかを自動化ツールで検討する予定を明らかにした
- ICLR 2026 のプログラム責任者は、今回は 大規模にAI査読問題が露見した初めての事例 だと述べた

研究者の問題提起と調査の流れ

複数の研究者が、AIが作成した疑いがある査読コメントをソーシャルメディアで共有した
- 一部の査読コメントには 「幻覚引用（hallucinated citations）」 や 曖昧で冗長なフィードバック が含まれていた
カーネギーメロン大学のGraham Neubigは異常な査読コメントを受けて、AI生成かどうかの検証を要請した
- 彼は X（旧Twitter）に報酬告知を投稿し、Pangram LabsのMax Spero がこれに応じて全面調査を実施
- Pangramは12時間で全提出物のテキストを分析するコードを作成したと説明した

Pangram Labsの分析結果

Pangramのツールは LLM（大規模言語モデル） が生成または編集したテキストを予測する方式で動作する
- 分析の結果、15,899件の査読コメントが完全にAI生成、199編の論文（1%）も完全にAI作成と判定された
- 61%の論文は人間作成で、9%は半分以上がAI生成テキストを含有している
Pangramは自社モデルを ICLR 2026 にプレプリント形式で提出し、その論文の査読の一部もAI生成と判定された

研究者の反応

コペンハーゲン大学の Desmond Elliott は、自身の提出論文の査読の一つが 論文の要旨を誤解し誤った数値を言及していたと指摘
- 彼の博士課程の学生は、その査読コメントが LLMが作成したように見える と推定した
- Pangramの分析結果でも、その査読コメントは実際に 完全にAI生成 であることが確認された
- その査読は論文に 最も低い評価点 を与え、採択可否の境界線上 に置かれた

学会の対応と今後の課題

学会側は AI使用検知の自動化ツール導入 を予告し、査読の信頼性回復を目標としている
プログラム責任者は今回の過程で、信頼という概念の再定義が必要だと述べた
この事件は AIが学術査読過程に深く浸透したことを示す事例であり、研究評価の透明性確保が中心課題として浮上している

2件のコメント

yuntae 2025-12-01

面白いレビュー事例がたくさんありますね
https://reddit.com/r/MachineLearning/…

GN⁺ 2025-12-01

Hacker Newsの意見

文章作成におけるAI依存が高まっているとは思うが、この記事で使われている方法論はPangramの宣伝のように見える
AI検出器の大半は信頼できず、LLMを使ったことのない人たちにとってはむしろ有害だ
関連する議論はこのリンクで見られる
- 私はPangramの共同創業者だ。私たちはこの領域で実質的な進展を遂げてきた
  GPTZeroのような旧式の検出器を思い浮かべているなら、最近の性能向上を見ていないということだ
  シカゴ大学の経済学者らの論文によれば、1,992本の人間作成文書で偽陽性ゼロ、AI文書の検出率99%以上を記録した
- AI検出器が有害なのは、人を処罰するために使われるときだけだ
  今回の研究のように統計分析に使うのは問題ない
  実際、AIで書かれた論文はほとんどなく、レビューにだけ多く使われたというのは自然な結果だ
- LLMを信用しないと言いながら、自分たちの偏見を裏づけしてくれる研究ならLLMを喜んで使う人もいる
  こうした二重基準は興味深い
20%という数字が正確かどうかはともかく、トップ会議のレビュー品質の低下は誰もが実感している
一部の分野ではレビュアーの談合が実際に存在し、ACまで関与している場合もある
今では誰も、「原則として正しいこと」だからという理由で論文を丁寧にレビューしていない
- 昔は明示的なインセンティブがなくても良心的にレビューしていたが、そうした文化は完全に消えた
- AI研究者が高額年俸で引き抜かれる状況では、システムが歪むのは当然だ
- こうした現象は一種の市場調整と見ることもできる
  業績作りのための論文が増えすぎて、レビュアーが気を配らなくなっているのだ
Pangramの分析によれば、ICLRレビューの21%が完全なAI生成で、半数以上がAIの痕跡を含んでいる
しかし、「証拠」とは何なのか、AI生成であることをどう証明できるのかは疑問だ
- 「証拠」という表現は不適切だった。だが、統計的分析は客観的であり得る
  こうしたツールはその目的に適している
- 実際、彼らは方法論を説明した論文を書いている
- もしかするとAI検出器自体がAIなのかもしれない
- 私も学生の課題を採点するときに似た問題に直面する
  たいていAIで書いたと「感じる」が、証明できないので何の措置も取れない
- 実際のところ、テキストだけでは区別できない
  メタデータのような追加情報がなければ、LLMが書いたかどうかを判断すること自体が無意味だ
見出しは事実かもしれないが、AI検出器の信頼性は依然として低い
Pangramのツールがその悪評を覆した証拠はない
- Pangramの共同創業者として言うと、私たちの偽陽性率は1万分の1レベルだ
  ブログ記事で詳しく説明している
  ICLR 2022のレビュー10,202件のうち、10,190件が人間作成で、12件だけにAI編集の痕跡があった
- 学会論文はもともと定型的な文体に従うため、AIかどうかを見分けにくい
- 論文では1%なのにレビューでは20%がAIなら、単にレビュアーのほうがAIに強く依存していたということだろう
  個人を断罪することはできないが、多数のレビューがAIに委ねられていたことはほぼ確信できる
「21%のレビューがAI生成」という記事タイトルを見て、むしろ思ったより低いという印象を受けた
- 21%が完全なAI生成なら、それはつまり明白な不正行為だ
  事故調査で言う「スイスチーズの穴が一直線に並ぶ」状況のように、職務怠慢が積み重なった結果だ
最初は驚いたが、21%はむしろ衝撃的に低い数字だ
しかもこの数値はAI検出器を販売している会社から出たものなので、偽陽性の可能性もある
重要なのはレビューがAIで書かれたかどうかではなく、レビューの正確性だ
- いや、それが重要なのではない
  学会は**「ピアレビュー」**を掲げているのだから、どれほど優秀なAIでもピアではない
- 研究が実際に有用で正確なら、そのほうが重要だ
  PangramがAI検出で怒りを煽ってクリックベイトを狙っているように見える
- 現実はこうだ
  1. 科学者が偏見を含んだ研究を行う
  2. レビュアーがAIでもっともらしいレビューを生成する
  3. 結局、研究者自身がレビューをやり直さなければならないという奇妙な循環が生まれる
結局、AIが生んだ怪物の最初の被害者は、それを作ったプログラマー・研究者・大学のような知識労働者たちだ
今回の学会は、以前OpenReviewのバグで全レビュアーの身元が一時的に露出したことがある場所でもある
関連記事によれば、その後スコアは初期化され、新しいACたちが再び判断を下すことになった
今後は、すべての論文にAIレビューを標準提供し、人間のレビュアーがその結果を補完する方式のほうがよいかもしれない
そうすればレビュアーはAIの結果を確認することになり、著者も予測可能なフィードバックを受け取れる
もちろん人間のレビュアーもまたAIを使うかもしれないが、それは著者も同じだろう

主要AI学会で査読コメントの一部がAI作成と判明

ICLR 2026の査読で明らかになったAI使用実態

研究者の問題提起と調査の流れ

Pangram Labsの分析結果

研究者の反応

学会の対応と今後の課題

関連記事

2件のコメント

Hacker Newsの意見