3 ポイント 投稿者 GN⁺ 2025-12-08 | 4件のコメント | WhatsAppで共有
  • GPTZeroが ICLR 2026 の投稿論文から 50件以上の引用エラーと偽の著者情報を検出
  • 各論文について、OpenReview のリンクを用い、実在確認と引用一致が検証された
  • 多くの事例で 存在しない著者、誤った発表年、別の論文タイトル が含まれていることが確認された
  • 一部の論文は実在論文と一部一致するが、メタデータが歪められている
  • 学術界の投稿物においても AI生成ハルシネーション の問題が拡大していることを示す事例

GPTZeroのICLR 2026ハルシネーション検出結果

  • GPTZeroはICLR 2026の投稿論文を対象に引用文と著者情報を自動検証
    • 各論文は OpenReview のリンク、GPTZeroの検証リンク、そして引用情報がまとめられている
    • 検証の結果、50件以上で虚偽の引用または存在しない著者が発見された

代表的なハルシネーション事例

  • TamperTok 論文は実在するが、すべての著者情報が誤っている
  • MixtureVitae 論文は最初の3名の著者は一致するが、残り7名は存在しない
  • OrtSAEPrincipled Policy OptimizationIMPQ などは実在論文とタイトルまたは著者名が不一致
  • PDMBenchは類似論文が存在するものの、発表年とタイトルが異なる
  • C3-OWDGRF-LLM などは部分一致として分類された

完全不一致事例

  • Catch-Only-OneTopoMHCThinkGeoReflexionLOSI などは引用された論文が存在しない
  • SAFE-LLMTyped Chain-of-ThoughtMANTA などは類似論文はあるが、メタデータ不一致
  • AI-Assisted Medical Triage AssistantQUARTKARMA などは全く関連のない論文を引用

検証方法と結果タイプ

  • GPTZero は各引用を実データベース(例:arXiv、NeurIPS、ICLR、ACL など)と照合
    • 結果は「存在する」「部分一致」「不一致」「偽の著者」などに分類される
    • 一部の項目は実在論文が存在するが、著者・発表年・タイトルがすべて異なると表示される

意味と示唆

  • ICLR 2026の提出物の多くはAI生成テキストのハルシネーション問題をそのまま含む
  • 学術論文執筆プロセスでも事実検証の自動化ツールの必要性が浮き彫りに
  • GPTZeroの検出結果は、AI生成コンテンツの信頼性検証体制の強化の必要性を示す

4件のコメント

 
dbs0829 2025-12-08

以前から、LLMはむしろ人類の発展を妨げる可能性もあるのではないかと考えていたのですが、その文脈で私が懸念していた問題が表面化してきましたね。認知負荷を下げることは、人にとっては麻薬のようなものだと思います。私自身も研究をしていますが、チーム内でもLLMモデルを使えば使うほど、自分で考えなくなる癖がつくのではないかと警戒しています。おそらくこの問題は今後もさらに深刻化していくと思います。査読だけではカバーしきれないレベルまで量が膨れ上がっているので、別の方法を探す必要がありそうです。最近、有名学会の論文投稿件数が大きく増えているようですが、似たような理由なのではないかと思います。

 
shakespeares 2025-12-09

同意します。このままだと、人間の脳は縮み続けてしまいそうです。
結局、人工知能が人間を支配するシナリオは、今の私たちが考えうる最も高次の思考なのかもしれません。今後は、その思考にすら到達できないほど、新たな変革もないまま、ただAIに統制されるまでの収束区間だけが続く可能性もあります。

 
shakespeares 2025-12-09

同じような知識レベルのAIが反復的に進化を重ねて、さらに発展していく余地は多いのでしょうか?
そうでないなら、結局は同じ複製人間の複製文ばかりが世の中を覆い、その中から玉石を見分けることがより難しくなっていく気がします。

 
GN⁺ 2025-12-08
Hacker Newsのコメント
  • こうした行為は明白な職業的非倫理行為だと思う
    もし自分の研究員がこんなことをしたなら、解雇の危機に直面していただろう
    レビュアーとして著者が嘘をついているのを見たら、その論文全体を信頼できず、倫理的には即座にリジェクトすべきだと思う
    ミスはよくあるが、これは次元の違う問題だ

    • これは文化的差異の問題でもあるように見える
      西洋圏では、個人の誠実性が学界全体の信頼を支えていると考える一方、中東・インド・中国圏では、このような行為をジャーナルの責任に帰する傾向がある
      こうした違いを理解していないと、共同作業は非常に混乱する
  • 私の経験では、論文の品質を下げる主な問題は誤った引用
    引用が存在しないことよりも、引用された資料が実際にはそのようなことを言っていなかったり、文脈を歪めていたりする場合のほうがはるかに多い
    こうした誤りを見つけるには原文を読み、理解しなければならないため、とてつもなく時間がかかる
    こうした行為は単なるミスではなく知識の腐食を招くので、「3回警告後に追放」のような制裁が必要だ

    • こうした検証はむしろLLMが得意になり得る領域かもしれない
      論文内の主張と引用リストを比較し、実際に根拠になっているかを自動確認する形で活用できる
    • だが一部の研究者は、資金提供者(Exxon、Meta、Pfizerなど)の意向に合う結果を出すために、意図的に歪曲している
      こうしたケースは単なる不注意ではなく、利害関係による操作
    • 偽の引用は氷山の一角にすぎず、引用の乱用のほうがはるかに古く、深刻な問題だ
  • AIが問題というより、怠慢と不注意が問題だと思う
    科学者がLLMで虚偽の引用を含む論文を書いたなら、それは悪い科学者だ
    こうした行為に社会的制裁がなければ、結局は黙認されることになる

    • 私は産業電気技師だが、ひどい電気工事は専門家にしか見抜けない
      技術的検証には熟練した検査者が必要だ
    • しかし「AIが問題ではない」という言い方は、銃規制論争における「銃ではなく人が問題だ」に似た責任回避の論理にも聞こえる
      結局のところAI自体が問題だと見る
    • 大工のたとえを続けるなら、LLMが作った棚は見た目はまともでも構造的に脆い
      見た目が良いせいで、かえって問題を隠してしまう
    • 私もGemini Proで論文を探すが、相変わらず引用はめちゃくちゃだ
      それでもこの1年でハルシネーションは減っており、検証済みの論文に限定すればかなり使える
      ただし研究者がこうしたツールに依存しないようにするには、継続的な資金獲得競争という構造自体を変えなければならない
    • Bruce Schneierの言う通り、誰でも自分で検証できないアルゴリズムを作れる
      LLMも同じで、ユーザーが望んでいた答えをそのまま返し、確証バイアスを強める
      科学研究でLLMを安全に使う方法はないと思う
  • 実際に論文を直接読んでみると、単にAIが文章を書いたというだけでなく、アイデアそのものがAI生成である場合が多い
    表面的にはもっともらしいが、内容は荒唐無稽だ
    本物の研究者が単なる .bib の誤りでこうしたリストに含まれてしまったのだとしたら気の毒だ

  • Avi Loeb(ハーバード大学の理論物理学者)は、学生が存在しない論文を引用する事例が急増していると述べている
    LLMが作り出した虚構をそのまま信じ、検証すらしていない
    関連記事: How AI is making us dumber

    • ただしLoebはUFOに関する主張でも有名な人物であり、信頼性をめぐる論争がある
    • 彼を信頼できない人物と見る人もいる
    • こうした現象は、リーダーシップの責任回避文化から来ていると思う
      上が悪い手本を示しながら下の人間を叱るのは、悪い教育だ
  • この研究が、誤った引用をすべてLLMのハルシネーションと見なしているのか気になる
    LLM以前の論文でもこのような誤りがあったのか、ベースライン分析が必要だ

    • 論文には「Defining Hallucitations」というセクションがあり、そこで虚偽引用の定義と偽陽性の問題を説明している
      2010年代の論文に同じツールを適用したらどういう結果になるのか気になる
    • 私も大学院時代、.bib ファイルに小さな誤りがあった
      ほとんどのジャーナルは DOI ベースで引用を検証するので、過去の論文も比較分析すべきだ
    • 実際に公開された論文を見ると、AI生成の痕跡がはっきりしている
      テーマを投げるだけでLLMが似たような論文を作れてしまうほど似通っている
    • 実際、LLM以前から人はミスをしていたし、本や論文にも誤りは多かった
      人間の不完全な知識体系が原因であって、LLMだけの問題ではない
    • 要するに、彼らのツールはこの種の検証を実行している
  • ピアレビューの目的は単なる誤り検出ではなく、新規性と完成度の評価
    だとすれば、不注意を防ぐためのインセンティブが必要だ
    例えば出版社が報奨金制度を作り、重大な不注意を見つけた人に賞金を出したり、
    繰り返し不注意をする研究者を公開するWall of Shameを運営したりする方法もある

    • あるいは、論文投稿時に自動引用チェックを走らせ、1日か2日以内に誤りを知らせるシステムを導入するとよいだろう
  • 15年前からZoteroのような引用管理ツールを使ってきたが、いまだに著者名が間違った引用が多いことに驚く
    .bib ファイルの提出を義務化すれば、DOI検証によって基本的な品質管理は可能なはずだが
    そうした基本検証すらしていないのは衝撃的だ

    • ただしZoteroも完璧ではない
      著者自身が自分の論文を誤って引用することもあるし、DOIは合っていても著者名の誤記はよくある
      ツールのおかげで引用数は増え、誤り率は下がったが、それでも論文1本あたり最低1つの誤りは残る
  • 2万件の投稿のうち300件しか調べていないのに、すでに数百件のハルシネーション論文が見つかったのなら、実際の規模ははるかに大きいだろう

    • 1つのカンファレンスに2万件投稿というだけで、それ自体が異常な規模
  • LLMのハルシネーションは設計された特性だ
    統計的にもっともらしい出力を出す過程で、偽の引用が自然に生まれる
    しかし機械が本物の引用を作ること自体は技術的に可能だ
    ただ現在のLLMは、私たちが求めた「正確な引用生成」ではなく、見た目だけ似た成果物を出している