- 国際機械学習会議 ICLR 2026 の論文査読コメントのうち 21% が完全に人工知能によって作成されたと確認された
- Pangram Labs のAI検出ツールは、75,800件の査読コメントを分析し、半分以上で AI使用の痕跡 を検出
- 一部の研究者は 異常に冗長で不正確なフィードバック を受けて、AI生成の可能性を指摘した
- 学会側は AI使用ポリシー違反かどうかを自動化ツールでチェックすると表明し、信頼回復の手続きを進めている
- 今回の事態は 査読過程の透明性と信頼性の確保 が喫緊であることを示す事例となった
ICLR 2026の査読で明らかになったAI使用実態
- 国際機械学習会議 ICLR 2026 の論文査読コメントのうち、約21%が完全にAIで作成され、半数以上がAIの影響を受けていると分析された
- 分析は Pangram Labs が実施し、対象は 1万9,490編の論文と75,800件の査読コメント
- Pangram は、AI生成テキスト検出ツールを用いて結果を公開した
- 学会は AI使用が査読方針違反かどうかを自動化ツールで検討する予定を明らかにした
- ICLR 2026 のプログラム責任者は、今回は 大規模にAI査読問題が露見した初めての事例 だと述べた
研究者の問題提起と調査の流れ
- 複数の研究者が、AIが作成した疑いがある査読コメントをソーシャルメディアで共有した
- 一部の査読コメントには 「幻覚引用(hallucinated citations)」 や 曖昧で冗長なフィードバック が含まれていた
- カーネギーメロン大学のGraham Neubigは異常な査読コメントを受けて、AI生成かどうかの検証を要請した
- 彼は X(旧Twitter)に報酬告知を投稿し、Pangram LabsのMax Spero がこれに応じて全面調査を実施
- Pangramは12時間で全提出物のテキストを分析するコードを作成したと説明した
Pangram Labsの分析結果
- Pangramのツールは LLM(大規模言語モデル) が生成または編集したテキストを予測する方式で動作する
- 分析の結果、15,899件の査読コメントが完全にAI生成、199編の論文(1%)も完全にAI作成と判定された
- 61%の論文は人間作成で、9%は半分以上がAI生成テキストを含有している
- Pangramは自社モデルを ICLR 2026 にプレプリント形式で提出し、その論文の査読の一部もAI生成と判定された
研究者の反応
- コペンハーゲン大学の Desmond Elliott は、自身の提出論文の査読の一つが 論文の要旨を誤解し誤った数値を言及していたと指摘
- 彼の博士課程の学生は、その査読コメントが LLMが作成したように見える と推定した
- Pangramの分析結果でも、その査読コメントは実際に 完全にAI生成 であることが確認された
- その査読は論文に 最も低い評価点 を与え、採択可否の境界線上 に置かれた
学会の対応と今後の課題
- 学会側は AI使用検知の自動化ツール導入 を予告し、査読の信頼性回復を目標としている
- プログラム責任者は今回の過程で、信頼という概念の再定義が必要だと述べた
- この事件は AIが学術査読過程に深く浸透したことを示す事例であり、研究評価の透明性確保が中心課題として浮上している
2件のコメント
面白いレビュー事例がたくさんありますね
https://reddit.com/r/MachineLearning/…
Hacker Newsの意見
文章作成におけるAI依存が高まっているとは思うが、この記事で使われている方法論はPangramの宣伝のように見える
AI検出器の大半は信頼できず、LLMを使ったことのない人たちにとってはむしろ有害だ
関連する議論はこのリンクで見られる
GPTZeroのような旧式の検出器を思い浮かべているなら、最近の性能向上を見ていないということだ
シカゴ大学の経済学者らの論文によれば、1,992本の人間作成文書で偽陽性ゼロ、AI文書の検出率99%以上を記録した
今回の研究のように統計分析に使うのは問題ない
実際、AIで書かれた論文はほとんどなく、レビューにだけ多く使われたというのは自然な結果だ
こうした二重基準は興味深い
20%という数字が正確かどうかはともかく、トップ会議のレビュー品質の低下は誰もが実感している
一部の分野ではレビュアーの談合が実際に存在し、ACまで関与している場合もある
今では誰も、「原則として正しいこと」だからという理由で論文を丁寧にレビューしていない
業績作りのための論文が増えすぎて、レビュアーが気を配らなくなっているのだ
Pangramの分析によれば、ICLRレビューの21%が完全なAI生成で、半数以上がAIの痕跡を含んでいる
しかし、「証拠」とは何なのか、AI生成であることをどう証明できるのかは疑問だ
こうしたツールはその目的に適している
たいていAIで書いたと「感じる」が、証明できないので何の措置も取れない
メタデータのような追加情報がなければ、LLMが書いたかどうかを判断すること自体が無意味だ
見出しは事実かもしれないが、AI検出器の信頼性は依然として低い
Pangramのツールがその悪評を覆した証拠はない
ブログ記事で詳しく説明している
ICLR 2022のレビュー10,202件のうち、10,190件が人間作成で、12件だけにAI編集の痕跡があった
個人を断罪することはできないが、多数のレビューがAIに委ねられていたことはほぼ確信できる
「21%のレビューがAI生成」という記事タイトルを見て、むしろ思ったより低いという印象を受けた
事故調査で言う「スイスチーズの穴が一直線に並ぶ」状況のように、職務怠慢が積み重なった結果だ
最初は驚いたが、21%はむしろ衝撃的に低い数字だ
しかもこの数値はAI検出器を販売している会社から出たものなので、偽陽性の可能性もある
重要なのはレビューがAIで書かれたかどうかではなく、レビューの正確性だ
学会は**「ピアレビュー」**を掲げているのだから、どれほど優秀なAIでもピアではない
PangramがAI検出で怒りを煽ってクリックベイトを狙っているように見える
結局、AIが生んだ怪物の最初の被害者は、それを作ったプログラマー・研究者・大学のような知識労働者たちだ
今回の学会は、以前OpenReviewのバグで全レビュアーの身元が一時的に露出したことがある場所でもある
関連記事によれば、その後スコアは初期化され、新しいACたちが再び判断を下すことになった
今後は、すべての論文にAIレビューを標準提供し、人間のレビュアーがその結果を補完する方式のほうがよいかもしれない
そうすればレビュアーはAIの結果を確認することになり、著者も予測可能なフィードバックを受け取れる
もちろん人間のレビュアーもまたAIを使うかもしれないが、それは著者も同じだろう