- 最近、AIツールが研究論文における計算、方法論、参考文献の誤りを見つけ出している
- 昨年、黒いプラスチック製の調理器具に発がん性化学物質が含まれているという研究結果が報じられた
- しかし研究の数学的ミスにより、実際の化学物質濃度は安全限界値より10倍低かったことが明らかになった
- 人工知能(AI)モデルはこの誤りを数秒で発見できた
AIベースの研究論文誤り検出プロジェクト
Black Spatula Project
- オープンソースのAIツールで約500本の論文を分析し、誤りを検出
- コロンビアの独立AI研究者 Joaquin Gulloso がプロジェクトを調整しており、8人の開発者と数百人のアドバイザーが参加中
- 誤りの一覧は公開されておらず、誤りが見つかった場合は研究者に直接連絡して修正を促している
YesNoError
- Black Spatula Project に触発されて始まったプロジェクト
- 創業者でありAI起業家でもある Matt Schlicht が主導
- 専用の暗号資産による資金支援を受けて運営
- 現在までに約37,000本の論文を2か月で分析完了
- 誤りが見つかった論文はウェブサイトに表示されるが、その大半はまだ専門家の検証前の状態
- 長期的には ResearchHub(暗号資産で博士研究者に報酬を支払う)と協力して誤りを検証する計画
研究者とジャーナルにAIツールの利用を促進
- 研究者が論文投稿前に、ジャーナルが論文掲載前にAIツールを使って誤りを事前検出するよう促している
- 誤りや研究不正の防止を通じて、科学的信頼性の強化が期待される
学界の反応と懸念
- 研究インテグリティの専門家たちは、プロジェクトに慎重ながら前向きな反応を示している
- ティルブルフ大学の研究者 Michèle Nuijten は次のような懸念を示した:
- AIツールの精度が明確に検証されていなければ、誤りの指摘自体が誤っていた場合に評判を傷つけるおそれがある
- リンネ大学のフォレンジック・メタサイエンティスト James Heathers は次のように支持を表明した:
- "ひどい論文を撤回するより、書くほうがはるかに簡単だ"
- AIは論文を選別し、追加のレビューを促すのに役立つ可能性がある
AIツールの仕組み
- 大規模言語モデル(LLM) を使って論文の誤りを検出
- 論文から表や画像などの情報を抽出した後、複雑な命令文(プロンプト)を生成
- AIモデルが論文を複数回分析し、多様な種類の誤りを探索しつつ結果のクロスチェックを実施
- 論文分析のコスト: 論文の長さとプロンプトの複雑さに応じて15セントから数ドル程度
誤検出(False Positive)の問題
- Black Spatula Project → 約10%の誤検出が発生
- すべての誤りは専門家による検証が必要 → 専門家不足が最大のボトルネック
- YesNoError → 10,000本の論文のうち数学的誤り100件を検証した結果、90%以上が実際の誤りと確認された
- YesNoError は誤検出率の低減に取り組んでおり、学界からの継続的なフィードバックを受け入れている
誤検出問題への批判
- リンネ大学の研究者 Nick Brown:
- YesNoError が分析した40本の論文のうち14本で誤検出を確認 → 主に文章上の問題
- 些細な誤りによって学界に不要な負担が生じる可能性
- "技術が大幅に改善されない限り、明確な利益もないまま多くの作業が必要になるだろう"
AIツールの今後の課題と期待
- YesNoError は、暗号資産の保有者がどの論文を優先的にレビューするかを決める方式の導入を計画
- 政治的に敏感なテーマ(例: 気候科学)の論文が標的になる可能性がある
- Brown 研究者: "AIツールが本当に効果を示すなら、特定の研究分野で大きな変化が起こり得る"
5件のコメント
質の低い論文はふるい落とされるでしょうが、その一方で良い論文までハードルが高くなり、相対的に創造性が乏しくなってしまう可能性があるのではと懸念しています。論理的な穴があったとしても、そこから生まれる新しいアイデアもあるので、個人的にはあまり歓迎できない気がします。
AIも間違う可能性があるのに、AIが指摘した内容が誤っていないことをどう検証するのか気になります。
LLMの普及により、情報の非対称性による需要が大半を占めていた領域では、非常に大きな変化が起きていますね。
人類のさまざまな経典を分析させてみたらどうだろうかと思いますね(笑)
Hacker Newsのコメント
AIが公開済みの論文にある明白な誤りを見つけられるなら、査読プロセスの一部として活用できる。著者が投稿前に自分の研究へ適用できれば、論文の質を大きく高められる
現時点のYesNoErrorのWebサイトには多くの誤検知が含まれている。Linnaeus Universityの研究者Nick Brownは、40本の問題のある論文のうち14本は誤検知だと述べている
現在はAI主導なので、人々は不正や誤った論理を検査していると思うかもしれない。実際には、自己整合性と訓練データとの整合性を検査している
AIを使って撤回論文の影響をマッピングするというアイデアの提案。撤回論文で、もはや支持されていない結論を特定し、それが後続論文のどこに現れているか確認できる
私たちの集団的記憶は短すぎるのか。AIが作り出したバグレポートによる問題を忘れたのか?
Black Spatulaプロジェクトで重大な誤りを検出した2つの例を提示
このアイデアは良く、自分の会社のレポートにも適用して、明白な誤りを上司に送る前に検出したい
YesNoErrorは、暗号資産の保有者がどの論文を先にレビューするか決められるようにする計画だ
このアイデアは非常に悪い考えだ。最初のセクションを飛ばして「誤検知」のセクションを読むべきだ
その価値には非常に懐疑的だ。AI「レビュー」のせいで、根拠のない主張に対応するために無駄な時間がすでに発生している。こうした主張は以前からあったのかもしれないが、テキスト生成器は一般人やアマチュアを納得させられる適切な用語で幻覚を出す方法を知っており、対処がより厄介になっている