3 ポイント 投稿者 GN⁺ 2025-12-01 | 2件のコメント | WhatsAppで共有
  • 国際機械学習会議 ICLR 2026 の論文査読コメントのうち 21% が完全に人工知能によって作成されたと確認された
  • Pangram Labs のAI検出ツールは、75,800件の査読コメントを分析し、半分以上で AI使用の痕跡 を検出
  • 一部の研究者は 異常に冗長で不正確なフィードバック を受けて、AI生成の可能性を指摘した
  • 学会側は AI使用ポリシー違反かどうかを自動化ツールでチェックすると表明し、信頼回復の手続きを進めている
  • 今回の事態は 査読過程の透明性と信頼性の確保 が喫緊であることを示す事例となった

ICLR 2026の査読で明らかになったAI使用実態

  • 国際機械学習会議 ICLR 2026 の論文査読コメントのうち、約21%が完全にAIで作成され、半数以上がAIの影響を受けていると分析された
    • 分析は Pangram Labs が実施し、対象は 1万9,490編の論文と75,800件の査読コメント
    • Pangram は、AI生成テキスト検出ツールを用いて結果を公開した
  • 学会は AI使用が査読方針違反かどうかを自動化ツールで検討する予定を明らかにした
    • ICLR 2026 のプログラム責任者は、今回は 大規模にAI査読問題が露見した初めての事例 だと述べた

研究者の問題提起と調査の流れ

  • 複数の研究者が、AIが作成した疑いがある査読コメントをソーシャルメディアで共有した
    • 一部の査読コメントには 「幻覚引用(hallucinated citations)」曖昧で冗長なフィードバック が含まれていた
  • カーネギーメロン大学のGraham Neubigは異常な査読コメントを受けて、AI生成かどうかの検証を要請した
    • 彼は X(旧Twitter)に報酬告知を投稿し、Pangram LabsのMax Spero がこれに応じて全面調査を実施
    • Pangramは12時間で全提出物のテキストを分析するコードを作成したと説明した

Pangram Labsの分析結果

  • Pangramのツールは LLM(大規模言語モデル) が生成または編集したテキストを予測する方式で動作する
    • 分析の結果、15,899件の査読コメントが完全にAI生成199編の論文(1%)も完全にAI作成と判定された
    • 61%の論文は人間作成で、9%は半分以上がAI生成テキストを含有している
  • Pangramは自社モデルを ICLR 2026 にプレプリント形式で提出し、その論文の査読の一部もAI生成と判定された

研究者の反応

  • コペンハーゲン大学の Desmond Elliott は、自身の提出論文の査読の一つが 論文の要旨を誤解し誤った数値を言及していたと指摘
    • 彼の博士課程の学生は、その査読コメントが LLMが作成したように見える と推定した
    • Pangramの分析結果でも、その査読コメントは実際に 完全にAI生成 であることが確認された
    • その査読は論文に 最も低い評価点 を与え、採択可否の境界線上 に置かれた

学会の対応と今後の課題

  • 学会側は AI使用検知の自動化ツール導入 を予告し、査読の信頼性回復を目標としている
  • プログラム責任者は今回の過程で、信頼という概念の再定義が必要だと述べた
  • この事件は AIが学術査読過程に深く浸透したことを示す事例であり、研究評価の透明性確保が中心課題として浮上している

2件のコメント

 
yuntae 2025-12-01

面白いレビュー事例がたくさんありますね
https://reddit.com/r/MachineLearning/…

 
GN⁺ 2025-12-01
Hacker Newsの意見
  • 文章作成におけるAI依存が高まっているとは思うが、この記事で使われている方法論はPangramの宣伝のように見える
    AI検出器の大半は信頼できず、LLMを使ったことのない人たちにとってはむしろ有害だ
    関連する議論はこのリンクで見られる

    • 私はPangramの共同創業者だ。私たちはこの領域で実質的な進展を遂げてきた
      GPTZeroのような旧式の検出器を思い浮かべているなら、最近の性能向上を見ていないということだ
      シカゴ大学の経済学者らの論文によれば、1,992本の人間作成文書で偽陽性ゼロ、AI文書の検出率99%以上を記録した
    • AI検出器が有害なのは、人を処罰するために使われるときだけだ
      今回の研究のように統計分析に使うのは問題ない
      実際、AIで書かれた論文はほとんどなく、レビューにだけ多く使われたというのは自然な結果だ
    • LLMを信用しないと言いながら、自分たちの偏見を裏づけしてくれる研究ならLLMを喜んで使う人もいる
      こうした二重基準は興味深い
  • 20%という数字が正確かどうかはともかく、トップ会議のレビュー品質の低下は誰もが実感している
    一部の分野ではレビュアーの談合が実際に存在し、ACまで関与している場合もある
    今では誰も、「原則として正しいこと」だからという理由で論文を丁寧にレビューしていない

    • 昔は明示的なインセンティブがなくても良心的にレビューしていたが、そうした文化は完全に消えた
    • AI研究者が高額年俸で引き抜かれる状況では、システムが歪むのは当然だ
    • こうした現象は一種の市場調整と見ることもできる
      業績作りのための論文が増えすぎて、レビュアーが気を配らなくなっているのだ
  • Pangramの分析によれば、ICLRレビューの21%が完全なAI生成で、半数以上がAIの痕跡を含んでいる
    しかし、「証拠」とは何なのか、AI生成であることをどう証明できるのかは疑問だ

    • 「証拠」という表現は不適切だった。だが、統計的分析は客観的であり得る
      こうしたツールはその目的に適している
    • 実際、彼らは方法論を説明した論文を書いている
    • もしかするとAI検出器自体がAIなのかもしれない
    • 私も学生の課題を採点するときに似た問題に直面する
      たいていAIで書いたと「感じる」が、証明できないので何の措置も取れない
    • 実際のところ、テキストだけでは区別できない
      メタデータのような追加情報がなければ、LLMが書いたかどうかを判断すること自体が無意味だ
  • 見出しは事実かもしれないが、AI検出器の信頼性は依然として低い
    Pangramのツールがその悪評を覆した証拠はない

    • Pangramの共同創業者として言うと、私たちの偽陽性率は1万分の1レベルだ
      ブログ記事で詳しく説明している
      ICLR 2022のレビュー10,202件のうち、10,190件が人間作成で、12件だけにAI編集の痕跡があった
    • 学会論文はもともと定型的な文体に従うため、AIかどうかを見分けにくい
    • 論文では1%なのにレビューでは20%がAIなら、単にレビュアーのほうがAIに強く依存していたということだろう
      個人を断罪することはできないが、多数のレビューがAIに委ねられていたことはほぼ確信できる
  • 「21%のレビューがAI生成」という記事タイトルを見て、むしろ思ったより低いという印象を受けた

    • 21%が完全なAI生成なら、それはつまり明白な不正行為
      事故調査で言う「スイスチーズの穴が一直線に並ぶ」状況のように、職務怠慢が積み重なった結果だ
  • 最初は驚いたが、21%はむしろ衝撃的に低い数字
    しかもこの数値はAI検出器を販売している会社から出たものなので、偽陽性の可能性もある

  • 重要なのはレビューがAIで書かれたかどうかではなく、レビューの正確性

    • いや、それが重要なのではない
      学会は**「ピアレビュー」**を掲げているのだから、どれほど優秀なAIでもピアではない
    • 研究が実際に有用で正確なら、そのほうが重要だ
      PangramがAI検出で怒りを煽ってクリックベイトを狙っているように見える
    • 現実はこうだ
      1. 科学者が偏見を含んだ研究を行う
      2. レビュアーがAIでもっともらしいレビューを生成する
      3. 結局、研究者自身がレビューをやり直さなければならないという奇妙な循環が生まれる
  • 結局、AIが生んだ怪物の最初の被害者は、それを作ったプログラマー・研究者・大学のような知識労働者たちだ

  • 今回の学会は、以前OpenReviewのバグで全レビュアーの身元が一時的に露出したことがある場所でもある
    関連記事によれば、その後スコアは初期化され、新しいACたちが再び判断を下すことになった

  • 今後は、すべての論文にAIレビューを標準提供し、人間のレビュアーがその結果を補完する方式のほうがよいかもしれない
    そうすればレビュアーはAIの結果を確認することになり、著者も予測可能なフィードバックを受け取れる
    もちろん人間のレビュアーもまたAIを使うかもしれないが、それは著者も同じだろう