- GPTZeroのHallucination Checkツールが、NeurIPS 2025の採択論文5,290本のうち4,841本を分析し、100件以上の「幻覚引用(hallucinated citations)」 を確認
- 多くの論文で、存在しない著者、誤ったDOI・URL、捏造されたタイトル など、AI生成の痕跡が見つかった
- GPTZeroはこうした誤りを**「vibe citing」と定義し、実在する論文情報を混合・変形してもっともらしく見せた引用**の形態だと説明
- すべての事例は人間の専門家による検証を経ており、ツールは偽陰性率が非常に低く(99%検出)、その代わり保守的に疑わしい事例を表示する
- 研究論文の作成と検証の過程で、AIによる引用ミス検出の自動化の必要性を示す事例として評価されている
GPTZeroによるNeurIPS 2025論文の分析結果
- GPTZeroはNeurIPS 2025で採択された5,290本のうち4,841本をスキャンし、100件以上の幻覚引用を発見
- 各事例は人間の検証を通じて、実際には存在しない引用であることが確認された
- 例として、存在しないジャーナル名・著者名・DOIを含む引用が多数見つかっている
- GPTZeroはこのような引用ミスを**AI生成の痕跡(vibe citing)**として分類
- 実在する論文のタイトルや著者を組み合わせたり改変したりした偽の引用が代表的な形態
- 一部は実在論文に似たタイトルを使っているが、年・出典・著者の不一致によって判別された
「Vibe Citing」の定義と類型
- GPTZeroは**「vibe citing」**を、「生成AIが実在する出典を組み合わせ・改変して作った引用」と定義
- 著者名・タイトル・出版社・DOI などを改ざんまたは合成した事例を含む
- 実在する論文を部分的に引用したり、架空のジャーナル名を作り出したりするケースもある
- 一方で、単なるタイプミス・リンク切れ・ページ番号の欠落などは人為的ミスとみなされ、除外される
- GPTZeroは、実在・欠陥・幻覚引用の違いを比較表で提示
- 例: 「Deep learning」という論文を「Samuel LeCun Jackson. Deep learning. Science & Nature, 2021.」に改変したケースは幻覚引用に分類される
Hallucination Checkツールの機能
- Hallucination Checkは、引用検証を自動化するAIベースの検出システム
- オンラインで確認できない引用を自動的にマーク
- 著者・編集者・査読者が引用ミスを素早く確認できるよう支援する
- 活用段階
- 著者は投稿前に論文の引用を自動点検
- 査読者は未検証の引用を素早く特定
- 学会・ジャーナルの編集部はAI Detectorと併用し、AI執筆の痕跡と引用ミスを同時に検出可能
GPTZeroの検証精度
- Hallucination Checkは偽陰性率が非常に低い(99%の検出精度)
- つまり、実際の幻覚引用を見逃す確率はきわめて低い
- その代わり、保守的な検出のため偽陽性率はやや高い
- GPTZeroはICLR 2026やDeloitteのレポートでも同様の方法でAIによる引用ミスを数十件見つけている
学術界と出版エコシステムへの意味
- NeurIPS 2025の事例は、AIツールを活用した論文作成の拡大とともに、引用の信頼性低下という問題を浮き彫りにしている
- GPTZeroはICLRの組織委員会と協力し、今後の投稿論文向け自動検証システムを構築中
- こうした取り組みは、論文審査の効率性・透明性向上とAI生成コンテンツの検証体制強化につながる見込みだ
1件のコメント
Hacker Newsの意見
私はGoogleで同僚が共著者として参加した論文を1本、無作為に確認した
問題として指摘された論文はICLR 2024論文だが、引用された著者2名が抜け落ち、別の1名(Kyle Richardson)が誤って追加されていた
この引用は論文の核心ではない背景部分にあり、AI自動補完の過程で生じた単純な誤記である可能性が高い
データセットには深刻な事例もあるだろうが、私が見たものはDOIチェックで即座に直せる些細なミスだった
こうした「単一の誤り」を含む論文が入っているのは、著者側の製品宣伝効果を最大化する意図があるように思える
問題は、これが唯一の誤りかどうかわからない点にある
このような誤りがあるということは、論文が十分に検証されないまま提出されたシグナルであり、LLMが不注意に使われた痕跡でもある
残りの内容を検証するには専門知識と再現実験が必要だ
こうした現象が広がれば、研究そのものの信頼基盤が揺らぐ危険がある
ところがこのケースでは間違っていた
参考文献でハルシネーションが発生したというのは、論文全体がAIで書かれた強いシグナルだと思う
DOIチェックだけでも弾ける問題なのに、現状では引用の検証が論文査読プロセスの中核手順ではない
引用をいまだに「叙述的テキスト」として扱う信頼モデルは、もはやスケールしない
私はDuke Universityで、引用と検証のプロセスを機械検証可能なインフラにするプロジェクト(Liberata)を進めている
むしろ「無害な事例」を取り除くほうが、より欺瞞的だったはずだ
データに自ら語らせるのが誠実なアプローチだ
この現象は科学研究に深刻な打撃を与えるように思う
すでにデータ改ざんの問題があるのに、LLMがもっともらしい論文を作り出せば状況は悪化するだろう
それでも、これをきっかけに**再現性(reproducibility)**がもっと真剣に扱われるようになるかもしれない
「昨年の疑わしい論文を検証するのに2年と100万ドルが必要だ」という提案に資金を出す機関はほとんどない
科学資金の配分構造を変えなければ解決は難しい
論文数で評価すれば質の低い論文があふれ、引用数で評価すれば発見中心の研究だけが奨励される
再現研究は引用も少なく、結局は名声と生計が「発見」にかかっているので、誰も再現に投資しない
Liberataのようなプロジェクトは、出版文化を「新規性」中心から「検証と再現」中心へ移そうとしている
この変化が起きるなら、今の混乱は必要な是正プロセスになるかもしれない
すべての論文が再現可能になっても、科学の根本問題は解決しないという見方だ
関連記事: Replication studies can’t fix science
NeurIPS側は、ハルシネーションされた引用(reference hallucination) があるからといって論文全体を無効とは見なさないと明らかにしている
Fortune記事全文によれば、LLMの利用は急速に進化しており、2025年には査読者にハルシネーションを記録するよう指針が与えられたという
1.1%の論文に引用エラーがあっても、論文内容そのものが無効化されるわけではないという立場だ
最も無害な理由を1つだけ選んで、問題全体を覆い隠そうとしている印象だ
すでに科学は再現性危機を抱えているのに、今度はハルシネーション問題まで加わった
民間企業の影響力が強まる状況で、オープンサイエンスの未来が暗く見える
論文撤回ですら実質的な不利益がなく、不正行為の期待値が正である構造だ
インセンティブが変わらない限り悪化するだけだ
LLMに引用処理を任せることは、結局はデータ解釈まで委ねる道につながり、それはハルシネーションされた結果を生みうる
皮肉なことに、研究論文は既存研究との知的対話のために文献調査を含むのに、
LLMで引用を捏造するのは「巨人の肩の上」に立つのではなく、虚構の肩の上に立つ行為だ
私は2024年のWACV論文レビューで、完全にAIが書いたレビューを受け取った
レビュアーは4つのテキストボックス(要約、強み、弱み、総評)にそれぞれまったく異なるレビューを書いており、互いに矛盾していた
こうした状況はレビュアーの過負荷によるもので、もっと多くのボランティアが必要だ
(論文レビューができる人なら、好きな学会のプログラムチェアに直接連絡することを勧める)
ある論文は引用に**「Firstname Lastname」「John Doe」「Jane Smith」**のような偽名を入れていても、誰も気づかなかった
初めてNeurIPS論文を通した博士課程の学生には経済的報酬が非常に大きい
ほとんどのビッグテックのインターンシップでは、NeurIPS/ICML/ICLRの第一著者論文が事実上の必須条件になっている
一度通れば年収が2〜3倍に跳ね上がり、キャリアが開けると言っても過言ではない
こうした構造で不正が出るのは驚くことではない
NeurIPS論文が1本あれば博士号がなくても研究職の資格を得られ、年収30万ドル超もありうる
SpotlightやOral発表なら、その価値は7桁に達するかもしれない
現在のインセンティブ構造がこうした振る舞いを生んでいる点には皆同意している
ならば**「アメ」ではなく「ムチ」**を使うべきではないかと思う
LLMのハルシネーションやデータ改ざんが摘発されたら、キャリアが終わるレベルの制裁を科そうという提案だ
AI検出ツールはまだ信頼できる水準ではなく、単純なBibTeXエラーや文法修正の過程で生じたミスもありうる
明白なデータ改ざんのような意図的な不正行為が明らかになった場合にのみ、強い処罰が正当化されると思う
2020年以前の論文でも出典捏造がどれほどあったのか分析すると面白そうだ
私はLLMも、AI検出器も完全には信用していない
ただ今はその頻度が加速しているだけだ
引用エラーの問題は、AI検索とデータ収集のコストが今より100倍安くなれば消えるだろう
だがその頃には、AIが書いた論文が現実を反映しているのかすら見分けにくい、
一種の**「確率的な鏡(stochastic mirror)」**の時代が来るはずだ