- GPTZeroが ICLR 2026 の投稿論文から 50件以上の引用エラーと偽の著者情報を検出
- 各論文について、OpenReview のリンクを用い、実在確認と引用一致が検証された
- 多くの事例で 存在しない著者、誤った発表年、別の論文タイトル が含まれていることが確認された
- 一部の論文は実在論文と一部一致するが、メタデータが歪められている
- 学術界の投稿物においても AI生成ハルシネーション の問題が拡大していることを示す事例
GPTZeroのICLR 2026ハルシネーション検出結果
- GPTZeroはICLR 2026の投稿論文を対象に引用文と著者情報を自動検証
- 各論文は OpenReview のリンク、GPTZeroの検証リンク、そして引用情報がまとめられている
- 検証の結果、50件以上で虚偽の引用または存在しない著者が発見された
代表的なハルシネーション事例
- TamperTok 論文は実在するが、すべての著者情報が誤っている
- MixtureVitae 論文は最初の3名の著者は一致するが、残り7名は存在しない
- OrtSAE、Principled Policy Optimization、IMPQ などは実在論文とタイトルまたは著者名が不一致
- PDMBenchは類似論文が存在するものの、発表年とタイトルが異なる
- C3-OWD、GRF-LLM などは部分一致として分類された
完全不一致事例
- Catch-Only-One、TopoMHC、ThinkGeo、Reflexion、LOSI などは引用された論文が存在しない
- SAFE-LLM、Typed Chain-of-Thought、MANTA などは類似論文はあるが、メタデータ不一致
- AI-Assisted Medical Triage Assistant、QUART、KARMA などは全く関連のない論文を引用
検証方法と結果タイプ
- GPTZero は各引用を実データベース(例:arXiv、NeurIPS、ICLR、ACL など)と照合
- 結果は「存在する」「部分一致」「不一致」「偽の著者」などに分類される
- 一部の項目は実在論文が存在するが、著者・発表年・タイトルがすべて異なると表示される
意味と示唆
- ICLR 2026の提出物の多くはAI生成テキストのハルシネーション問題をそのまま含む
- 学術論文執筆プロセスでも事実検証の自動化ツールの必要性が浮き彫りに
- GPTZeroの検出結果は、AI生成コンテンツの信頼性検証体制の強化の必要性を示す
4件のコメント
以前から、LLMはむしろ人類の発展を妨げる可能性もあるのではないかと考えていたのですが、その文脈で私が懸念していた問題が表面化してきましたね。認知負荷を下げることは、人にとっては麻薬のようなものだと思います。私自身も研究をしていますが、チーム内でもLLMモデルを使えば使うほど、自分で考えなくなる癖がつくのではないかと警戒しています。おそらくこの問題は今後もさらに深刻化していくと思います。査読だけではカバーしきれないレベルまで量が膨れ上がっているので、別の方法を探す必要がありそうです。最近、有名学会の論文投稿件数が大きく増えているようですが、似たような理由なのではないかと思います。
同意します。このままだと、人間の脳は縮み続けてしまいそうです。
結局、人工知能が人間を支配するシナリオは、今の私たちが考えうる最も高次の思考なのかもしれません。今後は、その思考にすら到達できないほど、新たな変革もないまま、ただAIに統制されるまでの収束区間だけが続く可能性もあります。
同じような知識レベルのAIが反復的に進化を重ねて、さらに発展していく余地は多いのでしょうか?
そうでないなら、結局は同じ複製人間の複製文ばかりが世の中を覆い、その中から玉石を見分けることがより難しくなっていく気がします。
Hacker Newsのコメント
こうした行為は明白な職業的非倫理行為だと思う
もし自分の研究員がこんなことをしたなら、解雇の危機に直面していただろう
レビュアーとして著者が嘘をついているのを見たら、その論文全体を信頼できず、倫理的には即座にリジェクトすべきだと思う
ミスはよくあるが、これは次元の違う問題だ
西洋圏では、個人の誠実性が学界全体の信頼を支えていると考える一方、中東・インド・中国圏では、このような行為をジャーナルの責任に帰する傾向がある
こうした違いを理解していないと、共同作業は非常に混乱する
私の経験では、論文の品質を下げる主な問題は誤った引用だ
引用が存在しないことよりも、引用された資料が実際にはそのようなことを言っていなかったり、文脈を歪めていたりする場合のほうがはるかに多い
こうした誤りを見つけるには原文を読み、理解しなければならないため、とてつもなく時間がかかる
こうした行為は単なるミスではなく知識の腐食を招くので、「3回警告後に追放」のような制裁が必要だ
論文内の主張と引用リストを比較し、実際に根拠になっているかを自動確認する形で活用できる
こうしたケースは単なる不注意ではなく、利害関係による操作だ
AIが問題というより、怠慢と不注意が問題だと思う
科学者がLLMで虚偽の引用を含む論文を書いたなら、それは悪い科学者だ
こうした行為に社会的制裁がなければ、結局は黙認されることになる
技術的検証には熟練した検査者が必要だ
結局のところAI自体が問題だと見る
見た目が良いせいで、かえって問題を隠してしまう
それでもこの1年でハルシネーションは減っており、検証済みの論文に限定すればかなり使える
ただし研究者がこうしたツールに依存しないようにするには、継続的な資金獲得競争という構造自体を変えなければならない
LLMも同じで、ユーザーが望んでいた答えをそのまま返し、確証バイアスを強める
科学研究でLLMを安全に使う方法はないと思う
実際に論文を直接読んでみると、単にAIが文章を書いたというだけでなく、アイデアそのものがAI生成である場合が多い
表面的にはもっともらしいが、内容は荒唐無稽だ
本物の研究者が単なる .bib の誤りでこうしたリストに含まれてしまったのだとしたら気の毒だ
Avi Loeb(ハーバード大学の理論物理学者)は、学生が存在しない論文を引用する事例が急増していると述べている
LLMが作り出した虚構をそのまま信じ、検証すらしていない
関連記事: How AI is making us dumber
上が悪い手本を示しながら下の人間を叱るのは、悪い教育だ
この研究が、誤った引用をすべてLLMのハルシネーションと見なしているのか気になる
LLM以前の論文でもこのような誤りがあったのか、ベースライン分析が必要だ
2010年代の論文に同じツールを適用したらどういう結果になるのか気になる
ほとんどのジャーナルは DOI ベースで引用を検証するので、過去の論文も比較分析すべきだ
テーマを投げるだけでLLMが似たような論文を作れてしまうほど似通っている
人間の不完全な知識体系が原因であって、LLMだけの問題ではない
ピアレビューの目的は単なる誤り検出ではなく、新規性と完成度の評価だ
だとすれば、不注意を防ぐためのインセンティブが必要だ
例えば出版社が報奨金制度を作り、重大な不注意を見つけた人に賞金を出したり、
繰り返し不注意をする研究者を公開するWall of Shameを運営したりする方法もある
15年前からZoteroのような引用管理ツールを使ってきたが、いまだに著者名が間違った引用が多いことに驚く
.bib ファイルの提出を義務化すれば、DOI検証によって基本的な品質管理は可能なはずだが
そうした基本検証すらしていないのは衝撃的だ
著者自身が自分の論文を誤って引用することもあるし、DOIは合っていても著者名の誤記はよくある
ツールのおかげで引用数は増え、誤り率は下がったが、それでも論文1本あたり最低1つの誤りは残る
2万件の投稿のうち300件しか調べていないのに、すでに数百件のハルシネーション論文が見つかったのなら、実際の規模ははるかに大きいだろう
LLMのハルシネーションは設計された特性だ
統計的にもっともらしい出力を出す過程で、偽の引用が自然に生まれる
しかし機械が本物の引用を作ること自体は技術的に可能だ
ただ現在のLLMは、私たちが求めた「正確な引用生成」ではなく、見た目だけ似た成果物を出している