新しいarXivポリシー: 幻覚引用に対して1年間の利用禁止

(twitter.com/tdietterich)

5 ポイント投稿者 GN⁺ 2026-05-15 | 1件のコメント | WhatsAppで共有

arXiv Code of Conduct では、論文の著者として名前を連ねることは、内容の生成方法に関係なく、論文全体に対する責任を負うことを意味すると規定している
生成AIツールが作成した 不適切な表現、盗用された内容、偏った内容、エラー、ミス、誤った参考文献、誤解を招く内容が科学著作物に含まれている場合、その責任は著者にある
arXivは、投稿物の中に著者がLLM生成結果を確認していないという 明白な証拠 がある場合、その論文のいかなる内容も信頼できないとみなす
制裁は arXivの1年間利用禁止 であり、その後arXivに投稿するには、まず信頼できる査読付き学術 venue で受理されていなければならない
明白な証拠には 幻覚した参考文献 とLLMのメタコメントが含まれる
- 例: “here is a 200 word summary; would you like me to make any changes?”
- 例: “the data in this table is illustrative, fill it in with the real numbers from your experiments”

1件のコメント

GN⁺ 2026-05-15

Hacker Newsの意見

処罰が arXivを1年間利用禁止 に加えて、その後の投稿はまず評判のある査読付き出版先に受理されていなければならない、という条件まで含むなら、科学にとって本当に良いことだと思う
arXivは無料だが、権利というより特権に近い
ただし https://info.arxiv.org/help/policies/index.html にはそこまではっきり書かれていないので、まだ計画段階なのかもしれないし、単に自分が見つけられていないだけかもしれない
ある博士が言ったように、終末装置の本質は隠していては意味がないということだ
- この投稿が上がったあと、誰かがもう 参考文献チェッカー を雑に作ってサブスクで売ろうと考えていそう
  参考文献の確認には良いが、幻覚参考文献と一緒に出てくる粗悪な科学そのものはあまり減らせない気がする
- 自分にはこれは 行き過ぎ に見える
  arXivは投稿をそこまで綿密に確認していないのに、どうやって分かるのか？
  「誤り、ミス」と言うが、基本要件を満たしているかを自動システムで確認し、ときどき表面的な人手レビューに回す程度で、すべての参考文献を大規模に確認するのは不可能だ
  しかもジャーナルより100倍は簡単に大量の原稿を受け取るプレプリント保管庫で、査読に近いことをやろうとしていることになる
  そのうえ arXivに載せることと査読を通ることの間には非常に大きな差がある
  個人的にも数学分野で査読拒否はたぶん10回以上受けているが、arXiv mathには問題なく投稿できた
  査読は新規性と正しさだけでなく「数学コミュニティにとって興味深いか」も見るが、これは本質的に主観的で、arXiv掲載よりはるかに難しい
  整数論の著名な教授が推薦時に論文を褒め、別の教授もメールで出版を勧めてくれたのに、それでも3回却下され、今も待っている
  査読誌掲載を要求すれば、多くの研究者にとってarXivが永久に閉ざされる可能性があり、プレプリント という趣旨にも反する
- 「科学にとって本当に良いこと」という点には同意しない
  たかが 幻覚引用1件 にすぎず、詐欺のようなものではない
  その人の研究内容や品質をまったく反映していない
  こうした些細な初回ミスには、1年間の利用禁止だけでも十分に思える
  人はミスをするし、そのかなりの人はミスから学べる
  一生に一度AIが参考文献を幻覚したという理由だけで、誰かの人生の進展や人類への貢献能力を永久に損なう必要はない
  これは更生的というより懲罰的だ
歓迎すべき措置ではあるが、根本的には引用した論文について 正しいBibTeXエントリ を簡単に作れる問題のほうがもっと解決してほしい
特定の論文の引用情報は、複数の出版社のジャーナル、学会、プレプリントなど、さまざまな出所から来ることがある
同じ論文でも arXiv と学会サイトのように複数箇所にあり、細部が少しずつ違うことがある
Zoteroのようなツールのおかげで、出版ウェブページから引用を取り出す作業はずっと簡単になったが、抽出されたBibTeXの細部にはまだ問題がある
著者名やタイトルはたいていうまく取れるが、出版先、年、巻号、ページ、URLなどが正確に抽出されているか、そしてLaTeX形式できちんと表示されるかは、まだ手作業で確認しなければならない
出版物ごとに引用スタイルも異なる場合がある
一貫した引用データを簡単に取り出せる統合的な方法がないため、残念ながらAI生成の引用データという近道を選んでしまうことがありうる
幻覚引用が本文で生じるのか、別のBibTeXファイルで生じるのか確信がないので、自分の理解が少しずれているかもしれない
- Zoteroには、URL/DOI/ISBNなどから望む形式の引用や BibTeXファイル を作る無料のオンラインツールもある
  https://zbib.org/
https://xcancel.com/tdietterich/status/2055000956144935055
- 行動規範によれば、論文著者として名前を載せるということは、内容がどう生成されたかにかかわらず、各著者がそのすべての内容について 全面的な責任 を負うという意味だ
幻覚参考文献を 大規模にどう検出 するのかが問題だ
手動のサンプル検査なのか、自動DOI検証なのか分からない
政策の方向性は正しそうだが、執行は難しい
良いことだ
LLMの出力をきちんと確認する時間がないなら、こちらにもそれを読む時間はない
- 残念だが、LLM生成かどうかに関係なく、arXiv論文の99%は読む価値がない可能性が高い
  無作為に1本選んで本当に深く掘り下げたことはある？
ここではまだ「評判のある」という条件について触れられていないように見える
評判のある査読とは、どんな基準で決まるのだろうか？
こうした不利益措置の前には 慎重な検証 が必要だ
誰かが明示的な許可なく名前を入れて投稿した場合、全員が禁止されるのか？
きちんと実装されるなら良い方向だという点には同意する
- しかも自分の知る限りでは、確認なしで好きな共同著者を誰でも追加できる
  そうなると、1文だけの論文1本で arXiv の全員を利用禁止にできてしまうかもしれない
Twitterでいつも見かける LLM過熱支持派 が、この措置に怒ってリプライしている様子はかなり分かりやすい兆候だ
LLM汚染関連の投稿コメントと同じで、ある種の人々は、LLMを嫌う人がいるという事実を受け入れられず、急速な受容に少しでも障害が生じると腹を立てる
- これがグレー表示されているのが妙だ
  結局HNの総意は、どこであれLLM導入を過熱気味に加速すべきだということなのだろうかと思ってしまう
  ばかげているが、同時にいかにもHNらしくもある
良いことだ。学術文献はあらゆる 低品質なゴミ のせいで危機的状況にある
簡単に検出できる幻覚に責任を負わせるのは、良いことに決まっている
- AIだけの問題ではない
  40年ほど前に物理学の博士課程にいたが、その当時から誤った参考文献は問題だった
同僚が本文に文字どおり AIゴミ文 を残したまま論文を提出し、厳しい修正要求を受けた
提出前に草稿を確認すべきだ
査読者は見つける
- LaTeXコメントも確認すべきだ。arXivはそれを公開状態で見えるようにしてしまう
  自分はスクリーンリーダー利用者なので、たいてい論文を生のTeXで読むが、本当にいろいろ見てきた
  蔑称、査読者や教授への侮辱、詐欺の自白、過去の不正を隠すために投稿前に共著者へ追加の不正を指示する内容まで、全部入っている
  思ったよりずっと少なく、論文の1%未満ではあるが、実際に存在する
  新しいarXiv論文のTeXソースに LLMベースの不正検出 を一度かけるのは有用かもしれない
  すべてを捕まえられるわけではないが、いちばん間抜けな不正者の一部は捕まえられるだろう
  良い面もあって、査読を通らなかったより強い主張、学会のページ数制限で削られた追加説明、著者たちが入れる価値はないと判断した実験結果なども見つかることがある
  こうしたものは非常に慎重に扱うべきだが、ときには本当に有用だ
- ここでの提案は、最初からゴミを投稿するなという話ではなく、査読者に見つかりにくいように ゴミを偽装 しろと言っているように聞こえて悲しい

新しいarXivポリシー: 幻覚引用に対して1年間の利用禁止

関連記事

1件のコメント

Hacker Newsの意見