- ディープラーニングモデルを活用した酵素機能予測論文は大きな注目と引用を集める一方、ファクトチェックによって誤りを指摘した論文はほとんど関心を集めない
- Transformerベースのモデルで2200万件の酵素データを学習し、450件の未確認酵素機能を予測した研究がNature Communicationsに掲載された
- しかし、数百件の誤予測、データ重複、生物学的に不可能な結論などが後続論文で明らかになった
- 専門家による詳細な分析なしではAIの結果の信頼性評価は難しく、誤ったデータが継続的に拡散するリスクが高まる
- 華やかなAIモデルよりも、根本的なデータ検証とドメイン知識の統合の重要性があらためて浮き彫りになった
Deep learning gets the glory, deep fact checking gets ignored
- ディープラーニングによる酵素機能予測論文は、2200万件の酵素データを学習してTransformerモデルで450件の未確認酵素機能を予測し、Nature Communicationsに掲載されて大きな注目を集めた
- しかし後続論文では、数百件の誤予測、既存データベースとの重複、生物学的に不可能な結果、反復的な誤りなどが多数見つかった
- たとえばE. coliの特定遺伝子の機能をAIが誤って予測し、すでに既存研究でその機能ではないことが明らかになっていたにもかかわらず、モデルは誤りを犯していた
- このような誤りを明らかにした論文はbioRxivに掲載されたが、閲覧数と引用はわずかで、出版インセンティブ構造の問題点が浮き彫りになった
- 専門家たちは、AIモデリングよりもデータ検証とドメイン専門性の必要性を強調し、誤情報がデータベースを通じて再拡散されるリスクを警告している
The Problem of Determining Enzyme Function
- 酵素は生体内で重要な反応を促進する役割を持ち、Enzyme Commission(EC)番号によって多様な機能が分類される
- アミノ酸配列からEC番号を予測する作業は、入力と出力が明確であるため、機械学習に適していると考えられている
- UniProtデータベースには2200万件を超える酵素とEC番号が整理されており、学習データが豊富である
An Approach with Transformers (AI model)
- 研究チームは、Transformer、畳み込み層、線形層で構成されたモデルを用いて未確認酵素の機能を予測した
- 注目すべき点として、モデルの解釈可能性のために、high attention regionが生物学的に意味を持つかどうかを分析した
- 450件の未確認酵素のうち3件のみを**実験(in vitro)**で検証し、正確性を示したと主張した
The Errors
- Nature論文で発表された450件の「新しい」結果のうち、135件は既存データベースにもすでに存在していた結果だった
- 148件の結果は反復性が非常に高く、同一酵素機能が何度も予測されるなど、生物学的に不可能な誤りが多数確認された
- E. coliが生成しない物質の合成酵素として誤って予測されたり、既存の実験結果と矛盾したりするケースも多数見つかった
- データリーク(data leakage)の可能性も指摘され、実際のground truthがない領域の予測で誤りが頻繁に発生した
The Microbiology Detective
- 後続論文のDr. de Crécy-Lagardは、Nature論文の予測結果のうち、ある酵素(yciO)が過去の研究と明確に矛盾していることを確認した
- yciOとTsaCは進化的に関連しているが、実際の実験ではyciOがTsaCの機能を代替できないことが何度も示されている
- 単純な構造類似性だけで機能を同一視するアルゴリズムの限界が明らかになった
- 酵素機能の判定には、遺伝子周辺の文脈、基質結合、代謝経路など多様な証拠を総合的に考慮する必要がある
Hundreds of Likely Erroneous Results
- 後続論文チームは、Nature論文の予測結果450件のうち135件が、すでにデータベースに登録された内容であることを確認した
- 148件は、同一機能の反復予測など、データの偏り、特徴不足、アーキテクチャ上の限界などによって生じた問題と分析された
- 複数の結果は、生物学的文脈や既存文献の調査によって誤りであることが立証された
Rethinking Enzyme Classification and “True Unknowns”
- 酵素機能予測には、**既知機能の伝播(propagation)と真に未知の機能の発見(discovery)**という二つの課題が混在している
- Supervised MLは、真に未知の機能予測には本質的な限界がある
- 誤った予測がUniProtのようなデータベースに入力され、そのデータで再びモデルが学習されるという誤りの循環構造が生じる
Need for Domain Expertise
- AI研究とは異なり、データ検証やドメイン専門家による詳細な分析はインセンティブが乏しく、研究者の関心を集めにくい
- 実際に高リスクAIプロジェクトの失敗要因の一つが、不十分なドメイン知識の適用であることが論文で示されている
- ほとんどのディープラーニング論文はドメイン専門家による緻密な検証を経ておらず、見た目には印象的な論文でも、実際には誤りが多い可能性がある
結論と提言
- 華やかなAIモデル開発よりも、根本的なデータ検証とドメイン知識の統合の重要性が強調されている
- 研究インセンティブと支援は、実質的な検証研究により集中されるべきだと主張している
- 誤りの検証とデータ品質の向上が、長期的にはAIの発展により大きく貢献しうることを示唆している
1件のコメント
Hacker Newsの意見
データ漏洩の可能性があることを、私たちはしばしば忘れがちだと思う。強い証拠で否定されるまでは、データ漏洩は常に存在すると仮定すべきであり、逆に漏洩がないことを証明する責任は著者側にあるという意見。小さなデータセットでは漏洩ははるかに起きやすく、全体を人の目で見通せるぶん、かえって簡単に生じうる。些細なミスでデータが壊れるのは非常によくあることだ。今では人間が全件確認できないほど巨大なデータセットが使われており、フィルタリングが不完全だと誰もが分かっているのに、漏洩がないと信じるのは無理がある。フィルタリングしたとは言えても、本当に漏洩がないとは言えない。実際にアクセス可能なデータセットでも、私たちは頻繁に問題を見つけている。こうした経験を繰り返しているのに、なぜデータが健全だと前提してしまうのか分からない。おそらく過剰な期待に包まれた自己欺瞞ではないかと思う。問題を直すには、まず現実を正確に見る必要があるという意見
どんなシステムにも欠陥はある。どの程度の欠陥まで受け入れられるかが本当の論点だと思う。たとえば Medicare と Medicade では不正事例が 7.66% あったが、金額としては非常に大きい一方で、だからといってシステム全体が失敗しているわけではなく、残りの 93% は機能していた。AI モデルも同様で、エラー率が 10% だからといってシステム全体が悪いという意味ではなく、その割合が受容可能かを議論すべきだという立場。根拠資料 参照
立証責任がどこにあるかという論点は、多くの人が考えるほど信念の指針にはならないという意見
AI が研究をする前に、まず既存研究の再現に成功すべきだと思う。たとえばディープラーニングの論文を AI に渡して実装させれば、本当の能力を評価できるはずだ。こうした基本ができなければ、新しいアイデアは期待できない
私は最初、「論文の前半だけを AI に渡して、残りを AI に完成させてみよう」と提案するのかと思った。もしこの程度の検証すらまだ無理なら、AI が革新的な発見を生み出せるとは思えないという意見
OpenAI はこれに関連するベンチマークを作っている paperbench リンク
完全に透明で検証可能な記録システムを備え、論文があらかじめデータセットに露出していないことまで保証しなければならない。論文では学術的不正がまれとはいえ時折起きるし、LLM は平然と偽情報を生成しうる
例として、ある論文の実験統計データを AI に与え、元の生データを再現させることもできるかもしれない
このアイデアは十分に興味深いだけでなく、再現性検証の問題もある程度解決できそうだ。ただし、AI が再現した研究も結局は人間が細かくレビューしなければならない点は変わらない。現実的には、現在の LLM が担える役割はさまざまで、たとえば査読プロセスでデータ処理コードの検証を補助したり、論文調査を手伝ったり、アイデアのブレインストーミングに使ったりする方法がある
"Nature Communications" と "Nature" はまったく別の格だ。同じように扱って呼ぶべきではない。そして altmetrics はあまり意味のない指標だ。世間の盛り上がりを測りたいのでなければ、科学的引用とはほとんど関係がない
ディープラーニング論文の大半を見ると、ドメイン専門家が成果物を本当に細密に検証しているケースはあまりないように思う。印象的に見える論文の多くが、厳密な検証を通過できないのではないかと気になる。ただ、実際には私の分野の AI 論文は私自身が読むだけでなく、他の専門家もかなりチェックしているようだ。とはいえ、コンピュータサイエンスやソフトウェアの成果は、生物学より検証しやすいようにも感じる(あるいは私がバイオをよく知らないだけかもしれない)
生物分野では、ラベルの妥当性検証そのものに何年もかかることが多い。OP が例に挙げた件も、たまたま誰かが何年もかけて特定の予測値を事前に検証していた、非常に運の良い例だ。たいていの人は自分のキャリアを 3〜5 年かけて、ランダムなモデル予測の検証に賭けたりはしない
私の分野では、その手法が論文で使われると、人々が細かく精査し批判を出すのはよくある。問題は、そうした批判を他分野の人たちが真剣に受け止めないことが多い点だ
AI に必要なのは「リアリティチェッカー」サブシステムだという主張。LLM の場合、まるで私たちの無意識が絶えずつぶやく雑音を延々と吐き出しているようなものだ。実際、私たちの脳には「自分の言ったことは反証可能な真実なのか?」のような内部フィルタがあり、嘘をふるい落としている。(もちろん、これが全員に当てはまるわけではないという冗談つき)
全面的に同意する。数か月前の深夜、半分眠った状態で、自分の脳が次々にさまざまな文句や思考を生み出しているのを認識したことがある。しばしば、それらすべてのアイデアがフィルタを通って文として整えられるのを生々しく感じた。私だけの奇妙な体験かもしれないが、AI にもこういうアルゴリズムが絶対に必要だと感じる。博士課程に進むなら、これを研究テーマにしたい
人間の「リアリティチェッカー」システムは GAN の discriminator に似ているが、感情の影響を強く受ける。心理学の研究で示されているように、人間の真偽判断回路は常に感情的シグナルから始まり、その根には信念がある。誰かが自分の信念と強く食い違うことを言うと、まず感情的反応が起こり、その後で理性的判断が介入する
研究者として LLM に接してきた経験と一致する。テキスト理解と生成能力には深く感心したが、はるかに難しい未解決問題に対して瞬時に答えを出してしまう姿は、いつも物足りなさが残る。複雑な問いには時間をかけて考える必要があるのに、LLM はそうした深みや熟慮なしに、自信満々で(完全に間違っていても)答えを返しがちだ
Rachel Thomas の素晴らしい記事だという感想。ディープラーニングは結局のところ [生成型] 情報検索ツールなのだという主張をあらためて確認させる事例だ。訓練データは現実のドメインを反映してはいるが、本質的には非常に損失の大きいデータセットだ。たとえば遺伝子データやラベルは、生物学の実際の構造を完全には表現していないので、結果もしばしば誤っていたり意味をなさなかったりする。むしろ奇妙なほどよく当たるときには、設計上情報検索ツールである LLM の性質として、データ漏洩が混じっている可能性もあると述べている。情報理論的に見れば、データセットの限界はあらゆるモデルに共通する未知のリスク要因だ。結論として、これはアルゴリズムの欠陥というより訓練データセットの問題だと思う。私たちは自然言語というドメインでは非常に柔軟に機能し、子どもでも文章を読めば意味が通るか判断できる。NLP 分野で LLM が成功するのは、こうしたデータのおかげだ。一方で、元データが本質を忠実に捉えきれない複雑な分野では、さらに多くの限界がある
偽情報が科学にも染み込みつつあるという懸念。根拠のない扇情的な発言が、真の研究的裏づけよりも注目を集める様子が、ソーシャルメディアと同じように科学の世界にも現れていると指摘する。しかし Twitter と Nature 誌を同列には置けず、権威ある学術誌と査読システムがこうした問題を防ぐ「最後の砦」だという信頼があった。だとすれば、今回の件は Nature の失敗なのかという疑問がある
インパクトの大きい学術誌ほど、論文撤回率や未検証の割合が高いという統計があることを思い出すべきだという助言。こうした問題の根本原因は議論があるとしても、1 本の論文が真理を証明するわけではなく、複数の研究機関や複数の研究チームが独立に結果を検証することこそが、本当の信頼基準だ
科学界の偽情報問題は今になって急に大きくなったわけではなく、数年前から「再現性の危機」をめぐる論争が続いているのが現実だ
ML Quantum Wormhole 論文の件のように、誤った研究が一般向け科学記事を超えて著名学術誌にまで載っていることへの失望がある。単なるミスというより、研究者と査読者の双方が適切な検証を省略した事例があまりに多いという意見。個人的には以前から既存の学術誌システムに懐疑的で、より自由な学術出版を望んでいたが、今ではむしろ学術誌自身が自らの信頼を削っているように見える。しかし最も懸念されるのは、こうした出来事が結局、科学に対する大衆の信頼をさらに悪化させることだ。科学内部の微妙な論争を一般の人が見抜くのは難しく、こうした件は反科学の側に新たな口実を与えるだけだ
Bullshit asymmetry principle(Brandolini の法則)を思い出すという話 この原則のリンク
私たちは、美しく成功したたった 1 回の ML/AI の事例だけを劇的に宣伝し、失敗した数十回の試みには目を向けない傾向がある