AIツールが研究論文の誤りを発見しつつある

(nature.com)

14 ポイント投稿者 GN⁺ 2025-03-09 | 5件のコメント | WhatsAppで共有

最近、AIツールが研究論文における計算、方法論、参考文献の誤りを見つけ出している
昨年、黒いプラスチック製の調理器具に発がん性化学物質が含まれているという研究結果が報じられた
- しかし研究の数学的ミスにより、実際の化学物質濃度は安全限界値より10倍低かったことが明らかになった
- 人工知能（AI）モデルはこの誤りを数秒で発見できた

AIベースの研究論文誤り検出プロジェクト

Black Spatula Project

オープンソースのAIツールで約500本の論文を分析し、誤りを検出
コロンビアの独立AI研究者 Joaquin Gulloso がプロジェクトを調整しており、8人の開発者と数百人のアドバイザーが参加中
誤りの一覧は公開されておらず、誤りが見つかった場合は研究者に直接連絡して修正を促している

YesNoError

Black Spatula Project に触発されて始まったプロジェクト
創業者でありAI起業家でもある Matt Schlicht が主導
専用の暗号資産による資金支援を受けて運営
現在までに約37,000本の論文を2か月で分析完了
誤りが見つかった論文はウェブサイトに表示されるが、その大半はまだ専門家の検証前の状態
長期的には ResearchHub（暗号資産で博士研究者に報酬を支払う）と協力して誤りを検証する計画

研究者とジャーナルにAIツールの利用を促進

研究者が論文投稿前に、ジャーナルが論文掲載前にAIツールを使って誤りを事前検出するよう促している
誤りや研究不正の防止を通じて、科学的信頼性の強化が期待される

学界の反応と懸念

研究インテグリティの専門家たちは、プロジェクトに慎重ながら前向きな反応を示している
ティルブルフ大学の研究者 Michèle Nuijten は次のような懸念を示した:
- AIツールの精度が明確に検証されていなければ、誤りの指摘自体が誤っていた場合に評判を傷つけるおそれがある
リンネ大学のフォレンジック・メタサイエンティスト James Heathers は次のように支持を表明した:
- "ひどい論文を撤回するより、書くほうがはるかに簡単だ"
- AIは論文を選別し、追加のレビューを促すのに役立つ可能性がある

AIツールの仕組み

大規模言語モデル（LLM） を使って論文の誤りを検出
- 論文から表や画像などの情報を抽出した後、複雑な命令文（プロンプト）を生成
- AIモデルが論文を複数回分析し、多様な種類の誤りを探索しつつ結果のクロスチェックを実施
- 論文分析のコスト: 論文の長さとプロンプトの複雑さに応じて15セントから数ドル程度

誤検出（False Positive）の問題

Black Spatula Project → 約10%の誤検出が発生
- すべての誤りは専門家による検証が必要 → 専門家不足が最大のボトルネック
YesNoError → 10,000本の論文のうち数学的誤り100件を検証した結果、90%以上が実際の誤りと確認された
- YesNoError は誤検出率の低減に取り組んでおり、学界からの継続的なフィードバックを受け入れている

誤検出問題への批判

リンネ大学の研究者 Nick Brown:
- YesNoError が分析した40本の論文のうち14本で誤検出を確認 → 主に文章上の問題
- 些細な誤りによって学界に不要な負担が生じる可能性
- "技術が大幅に改善されない限り、明確な利益もないまま多くの作業が必要になるだろう"

AIツールの今後の課題と期待

YesNoError は、暗号資産の保有者がどの論文を優先的にレビューするかを決める方式の導入を計画
- 政治的に敏感なテーマ（例: 気候科学）の論文が標的になる可能性がある
Brown 研究者: "AIツールが本当に効果を示すなら、特定の研究分野で大きな変化が起こり得る"

5件のコメント

dbs0829 2025-03-10

質の低い論文はふるい落とされるでしょうが、その一方で良い論文までハードルが高くなり、相対的に創造性が乏しくなってしまう可能性があるのではと懸念しています。論理的な穴があったとしても、そこから生まれる新しいアイデアもあるので、個人的にはあまり歓迎できない気がします。

mcdasa 2025-03-09

AIも間違う可能性があるのに、AIが指摘した内容が誤っていないことをどう検証するのか気になります。

ndrgrd 2025-03-09

LLMの普及により、情報の非対称性による需要が大半を占めていた領域では、非常に大きな変化が起きていますね。

bus710 2025-03-09

人類のさまざまな経典を分析させてみたらどうだろうかと思いますね（笑）

GN⁺ 2025-03-09

Hacker Newsのコメント

AIが公開済みの論文にある明白な誤りを見つけられるなら、査読プロセスの一部として活用できる。著者が投稿前に自分の研究へ適用できれば、論文の質を大きく高められる
- 重要なのは、専門家、つまり著者と査読者がこのプロセスに関与すること。彼らは誤検知を簡単に無視できる一方で、統計上のミスや専門外の部分について警告を受けられる
現時点のYesNoErrorのWebサイトには多くの誤検知が含まれている。Linnaeus Universityの研究者Nick Brownは、40本の問題のある論文のうち14本は誤検知だと述べている
- 問題の大半は文章上の問題に見え、多くの検出は誤りだとしている
- この技術が大幅に改善されない限り、明白な利益もなく多くの作業を生み出すことになると警告している
現在はAI主導なので、人々は不正や誤った論理を検査していると思うかもしれない。実際には、自己整合性と訓練データとの整合性を検査している
- タイポ、誤解を招く表現、事実や図表の相互検証には有用かもしれないが、捏造データやもっともらしいが誤った結論にはあまり寄与しないだろう
AIを使って撤回論文の影響をマッピングするというアイデアの提案。撤回論文で、もはや支持されていない結論を特定し、それが後続論文のどこに現れているか確認できる
私たちの集団的記憶は短すぎるのか。AIが作り出したバグレポートによる問題を忘れたのか？
Black Spatulaプロジェクトで重大な誤りを検出した2つの例を提示
- 複雑なマルチエージェントのパイプラインは必要なく、単一のプロンプトでこのような誤りを検出できた
このアイデアは良く、自分の会社のレポートにも適用して、明白な誤りを上司に送る前に検出したい
- ただし、2つのアプローチが強調されている。1つは小規模なアプローチで、まず公開せずに著者へ非公開で連絡するもの。もう1つは、先に公開し、人間のレビューがなく、独自の暗号資産を持つもの
YesNoErrorは、暗号資産の保有者がどの論文を先にレビューするか決められるようにする計画だ
このアイデアは非常に悪い考えだ。最初のセクションを飛ばして「誤検知」のセクションを読むべきだ
その価値には非常に懐疑的だ。AI「レビュー」のせいで、根拠のない主張に対応するために無駄な時間がすでに発生している。こうした主張は以前からあったのかもしれないが、テキスト生成器は一般人やアマチュアを納得させられる適切な用語で幻覚を出す方法を知っており、対処がより厄介になっている