ディープラーニングは注目されるが、ディープ・ファクトチェックは顧みられない

(rachel.fast.ai)

3 ポイント投稿者 GN⁺ 2025-06-04 | 1件のコメント | WhatsAppで共有

2,200万件の酵素データでTransformerを学習し、450件の未知の酵素機能を予測した研究は Nature Communications に掲載され、Altmetricで上位5%の関心を集めたが、大規模な誤りを検証した後続のpreprintははるかに注目されなかった
酵素機能予測はアミノ酸配列から EC番号 を当てる問題のように見えるが、実際の判定には構造類似性だけでなく、遺伝子周辺の文脈、基質ドッキング、代謝経路での共起といった生物学的証拠が必要になる
450件の「novel」予測のうち 135件はすでにUniProtに存在 しており、148件は同じ非常に具体的な機能が最大12回も繰り返されるなど、生物学的に不自然なパターンを示した
yciOの事例は、テストセットでの性能と少数の in vitro検証 だけでは不十分であることを示している。yciOはTsaCと構造的には似ているが、既存研究と酵素活性の差は、同じ中核機能を果たしていないことを示唆する
教師あり学習モデルは、既知の機能ラベルを同じ機能群に伝播するには有用かもしれないが、真に未知の機能 の発見には限界があり、誤ったラベルはUniProtのようなデータベースを経て、その後のモデル学習にも広がり続ける可能性がある

AI酵素予測論文と後続検証の対比

元の研究は、2,200万件の酵素とEC番号を含むデータセットで Transformerベースのモデル を学習・評価した後、機能が知られていない酵素約450件の機能を予測した
Functional annotation of enzyme-encoding genes using deep learning with transformer layers | Nature Communications に掲載され、22,000回の閲覧と、Altmetric基準で全研究成果物の上位5%の関心を記録した
後続の検証論文 Limitations of Current Machine-Learning Models in Predicting Enzymatic Functions for Uncharacterized Proteins | bioRxiv は、元論文の予測に深刻な誤りと、数百件の誤っている可能性が高い結果を見つけ出したが、元論文ほどの閲覧数や引用を得られなかった
この事例は、生物学分野のAIの結果の妥当性を 深いドメイン専門知識 なしに評価することが難しいことを示している

酵素機能予測が難しい理由

酵素は生物内の反応を触媒し、Enzyme Commission（EC）番号 は数千種類の酵素機能を階層的に分類する
入力はタンパク質を構成するアミノ酸配列で、出力はEC番号であるという点で、機械学習に向いた問題のように見える
UniProtには2,200万件を超える酵素とEC番号があり、大規模な学習データセットとして利用できる
しかし、酵素機能の判定には配列・構造の類似性だけでは不十分であり、機能が分岐した進化的関係がよくある落とし穴になる

Transformerアプローチと表面的な成果

Nature Communications論文は、以前は機能が知られていなかった酵素の機能を予測するために Transformerディープラーニングモデル を使用した
モデル構造はBERTで採用された方式で、2つのTransformerエンコーダ、2つの畳み込み層、線形層で構成される
研究チームは、attentionが高い領域が生物学的に意味を持つかを確認し、モデルが本質的な意味を学習しており、解釈可能性も提供すると判断した
数百万件の項目があるデータセットで標準的な学習・検証・テスト分割を用い、ground truthのないデータセットにモデルを適用して約450件の新たな予測を生成した
このうち無作為に3件を選んで in vitro テストを行い、予測が正確だと確認した

明らかになった誤りと反復パターン

後続分析は、Nature Communications論文の数百件の「novel」予測が、ほぼ確実に誤りだと判断した
元論文は取り置きのテストセットで良好な性能を示したが、その後の調査で データリーク の可能性が見つかった
450件の「novel」結果のうち:
- 135件 はすでにUniProtに登録されており、実際には新規ではなかった
- 148件 は、同じ非常に具体的な酵素機能がE. coliの遺伝子で最大12回まで繰り返される異常なパターンを示した
こうした反復は生物学的にもっともらしくなく、バイアス、データ不均衡、関連特徴の不足、アーキテクチャ上の限界、不確実性補正の不足によって、モデルが学習データ中でよくあるラベルを無理に出力してしまう可能性がある
YjhQはmycothiol synthaseと予測されたが、E. coliはmycothiolを合成しない
YrhBは特定化合物を合成すると予測されたが、その化合物はすでにQueD酵素が合成すると予測されており、QueD mutant E. coliはその化合物を合成できないため、YrhBの機能ではないことを示している

yciOの事例が示したドメイン知識の役割

in vitroテスト対象の1つだった yciO は、10年以上にわたってDr. de Crécy-Lagardが研究してきた酵素だった
元論文はyciOがTsaCと同じ機能を持つと結論づけたが、既存研究はこれを支持していない
TsaCはE. coliで必須遺伝子であり、yciOが同じgenomeに存在し、yciOを過剰発現させてもTsaCの必須性は失われない
Kim et al.が報告したyciOの活性は、TsaCより4桁以上、すなわち 10,000倍以上弱い
yciOとTsaCは構造的には似ており、yciOはTsaCの祖先から進化したが、遺伝子重複後に機能が多様化するのはタンパク質・酵素進化ではよくあることだ
酵素機能の分類には構造類似性以外にも、次の証拠が重要である
- 遺伝子の neighborhood context
- 基質ドッキング
- 代謝経路内での遺伝子共起
- 酵素のその他の特徴

「既知機能の伝播」と「真に未知の機能発見」の区別

酵素機能の同定には、異なる2つの問題が混在している
- 同じ機能群の酵素に 既知の機能ラベル を伝播する問題
- 本当に未知の機能を発見する問題
教師あり機械学習モデルは、設計上 true unknowns の機能予測には使えない
機械学習は、既知の機能を追加の酵素へ伝播するのには有用かもしれない
しかし、次のような誤りが起こりうる
- 伝播すべきラベルを伝播できない
- 伝播してはいけないラベルを伝播する
- キュレーションのミス
- 実験のミス
誤った機能がUniProtのような中核的オンラインデータベースに入ると、その後の予測モデルの学習データとして使われ、誤りがさらに広がる可能性がある
この問題は時間がたつほど大きくなりうる

データ検証研究の低い報酬

AIモデル構築の仕事は、基礎データを綿密に点検し、深いドメイン知識を統合する仕事よりも大きな報酬と支援を受けている
Everyone Wants to do the Model Work, not the Data Work は、高リスクAIプロジェクトに参加した数十人の機械学習実務者を扱い、不適切な応用分野の専門性を致命的失敗の主要因の1つとして論じている
自分の専門分野の外にあるAIの結果を評価することは、非常に難しいか、不可能でさえある
多くのディープラーニング論文は、ドメイン専門家が結果の品質を細かく検討しないまま読まれてしまう
数百件の酵素予測を確認する作業は、AIモデルを作る作業ほど華やかではないが、結果の品質にとってはより重要かもしれない
華やかなAI解決策に不均衡に注目するインセンティブ構造は、質の高い成果を犠牲にしかねない

1件のコメント

GN⁺ 2025-06-04

Hacker News の意見

以前に似たような経験をしたことがある。酵素データに BERTを投げてみたところ、評価ではまともに見えたのに、実環境では完全に失敗した。典型的な「雰囲気への過学習」だった
正直、単純な分類ならいつでも SVM やロジスティック回帰を選ぶ。Transformer は格好いいが、データがかなりきれいでないと、自信満々にでたらめを言う。GPT にめちゃくちゃな多肢選択式テストを渡すと、何かを選んで非常に堂々と答えるのに似ている
最近は大きなモデルから埋め込みだけを取り出し、単純な分類器を載せる方向にしている。そのほうがうまくいき、速く、余計なノイズも少ない
- Transformer はテストセットでは満点を取るのに、現実に出会った瞬間に転ぶ。自分も「おお、精度 92%！」と喜んでいたら、後で見るとデータセットの些細な特徴だけを自信満々に当てるパターンマッチャーを作っただけだった
- すでに知っているかもしれないが、大きなモデルから埋め込みを取り出して分類器を載せる方法は、広い意味では転移学習として知られている
- その通りだが、それでもそれは間接的に Transformer を使っていることになる
- 皮肉なことに、このコメント自体が Transformer、正確には ChatGPT が生成したもののように読める
- 少し別の質問だが、本番環境で SVM はどれほど有用だと思う？たいてい他のアルゴリズムより遅すぎて、使う価値が下がると感じていた
AI に研究をさせる前に、まず研究を再現させるべきだと思う。例えば、あるディープラーニング手法の論文を渡して、その論文の実装を作らせるような形だ
それができないなら、新しいアイデアを生み出せると期待する理由はない
- 再現性がベースラインだ。モデルが既存研究を安定して読み、理解し、正しく実装できるようになるまで、「AI 科学者」という言葉はおおむねブランディングに近い
- OpenAI がそのためのベンチマークを作っている: https://openai.com/index/paperbench/
- LLM については非常に完全な監査証跡が必要で、その論文がデータセットのどこにも入っていないことも保証しなければならない
  学術不正はまれだが、ないわけではない。LLM は少しでも隙があるとデータを作り上げ、嘘をつく
- 「AI に論文の前半、つまりプロンプトを与え、残りを完成させて研究結果と同等の科学を作れるか検証しよう」と言うのかと思った。それができないなら、新しいアイデアを作れると期待する理由はない
- あるいは、実験観察に関する統計で埋まった論文を渡して、生データを再現させることもできそうだ
ある研究者が、発表済み論文の結果を検証するのに 6 か月を費やしたと聞いた。結局得られたのは「指摘してくれてありがとう」という一言だけだったという
彼は静かに「ある仕事は、目立つから重要なのではなく、他の人たちが間違った道に進まないよう防ぐから重要なのだ」と言っていた
予測が現実と合うかどうかすら慎重に確認する意思がないなら、技術がどれほど印象的に見えても、それは一時の幻想にすぎないと思う
- ノーベル賞は取れないかもしれないが、達成や人類に加えた価値という面では、ほとんどの企業従業員よりはるかに先を行っている。この 10 年の自分たちの仕事についても、そう言えたらいいのだが
「後の調査によればデータ漏洩があった可能性がある」という部分は、しばしば忘れられているように思う。強い反証が出るまでは、全員がデータ漏洩を前提にすべきだ
漏洩があることを読者や懐疑派が証明する責任があるのではなく、ないことを立証する責任は著者にある
小さなデータセットではデータ漏洩は簡単に起きる。全体を目で確認できるデータセットでさえ漏洩は非常に入り込みやすく、たいてい本人も気づかないうちに起こる。微妙な要素がデータを簡単に台無しにする
今では、人がすべて目を通す可能性のない巨大なデータセットを扱っている。フィルタリング方法が不完全だとも分かっているのに、どうして漏洩がないと信じられるのか。フィルタリングしたとは言えても、漏洩がないとは言えない
さらに、アクセス可能なデータセットでも汚染を発見し続けている。実際にこうしたことが頻繁に起きている証拠が出続けているということだ
それなのに、なぜ汚染がないと仮定し続けるのか？誇大宣伝のせいなのか？正直、信じたいから自分に言い聞かせている嘘のように聞こえる。こういう問題は、自分を欺きながらでは直せない
- どんなシステムにも問題はある。よりよい問いは、許容可能なしきい値がどこにあるかだ
  例えば Medicare と Medicaid の不正受給率は 7.66% だった。数十億ドル規模で改善の余地もあるが、だからといってシステム全体が失敗しているという意味ではない。93% のケースは意図通りに保障されている
  こうしたモデルも同じかもしれない。汚染率が 10% ならシステム全体が悪いのか、それとも許容可能な水準なのか？
  [1]: https://www.cms.gov/newsroom/fact-sheets/fiscal-year-2024-im...
- 立証責任がどこにあるかは、オンラインでよく考えられているほど、何を信じるべきかについての決定的な基準ではない
自分が予測してきたことがそのまま出てきた: https://news.ycombinator.com/context?id=44041114 https://news.ycombinator.com/context?id=41786908
「AI はコーディングできる」と同じだ。問題が学習セットの中になければ、派手に失敗し続けるのに、人々は毎回驚く
- 「AI はコーディングできる」のほうは、それでも回避策を取ればかなり遠くまで行ける。実際のソフトウェアエンジニアのワークフローを補強し、リンターやテストのような安全装置を付ければよい
  アーキテクチャ、設計、レビューのような難しい部分はできないが、ほとんどのエンジニアの時間を食う反復的で既に解決済みの部分は、非常に大きく引き受けられる。品質保証は人間が行うので、品質を落とさずに生産性を 2〜5 倍に上げることも十分可能だ
  ただし、管理なしに確認もしなければ、どんな人間の仕事全体もきちんと代替することはできない。まだまったく近づいていない
「私が読んだディープラーニング論文の大半では、ドメイン専門家が結果を丹念に見て出力品質を検査してはいなかった。見た目には印象的な論文のうち、どれほど多くが精密な検証に耐えられないのだろうか？」
本当にそうなのか？自分の分野のAI論文を何本か読んだし、ほかのドメイン専門家も多く読んでいると理解している。ただ、コンピュータサイエンスやソフトウェアベースの作業は、生物学より概して検証しやすいようには思う。あるいは、私が生物学をほとんど知らないからかもしれない
- 生物学的なラベル検証には、簡単に数年かかる。原文の例は、誰かが予測されたタンパク質ラベルの1つにすでに何年も費やしていたという、幸運な巨大偶然に近かった
  任意のモデル予測を検証するために、キャリアの3〜5年を賭ける人はいないだろう
- 論文を読むこと、結果を検証すること、正確性を認証することは互いに違う。私も論文はたくさん読むが、普通はそのデータを別の用途に再利用しようとするときだけ基礎データを見る
  そうすると、正解ラベルの誤りはかなり早く見つけることが多い。もちろん、たいていのモデルは、こうした誤りが結果に大きく影響するほど性能が良いわけではない
- 言語学では、こうした手法を使う論文を人々がかなり丹念に読み、批判も出しているという印象がある。ただ、人々が言語学者を真剣に受け止めないので、関連分野の人たちはその批判を無視している
Nature Communicationsを「Nature」と呼ぶべきではない。権威がまったく違う。そしてオルトメトリクスもそれほど関係が大きいわけではない。大衆的な過熱ぶりを測りたいなら別だが
- 更新：著者がこれを読んで修正したようだ
研究者としての限られたLLM経験とよく一致する。見た目上の文語理解と文章表現は非常に印象的だ
しかし、特にまだ解決されていない問いで、可能な最善の答えに到達することは別問題だ。本来なら半日かけても結論が出ないかもしれない問いに、ほぼ即座に出してくる答えは、なかなか満足できるものではない
複雑な問いには探索する時間が必要だ。これまでのところ、LLMは能力不足のために結論を出せないはずの状況でも、その未解決状態を認めるより、自信ありげに見える、時には完全に間違った答えを出す方向に傾いている
Rachel Thomasの素晴らしい記事だ
これは、ディープラーニングが根本ドメインの非常に損失の大きい表現である学習データに依存しているため、結局は生成型情報検索としてしか機能しない、という別の論拠のように見える。つまり確率的オウムだということだ
遺伝子データやラベルが、根本ドメインである生物学を常に完全に表しているわけではないため、出力は偽であったり、無効であったり、意味をなさなかったりし得る
非常にうまく機能する場合には、データリークがある。LLMは設計上、情報検索ツールだからだ。情報理論の観点から見ると、どんなモデルにも根本的な「知らないことすら知らないこと」が存在する
私の結論は、アルゴリズムの誤りというより、学習データセットの誤りに近いというものだ
人間は自然言語領域で柔軟に機能し、子どもでもテキストが意味をなすかどうかを読んで評価できる。これが自然言語処理で学習したモデルの成功を説明している
しかし、学習データが根本ドメインを損失を伴って表している分野では、不完全にならざるを得ない
- 現代のLLMの逆説は、根本ドメインを直接表現してはいないが、テキストとして提示できる情報は表現できる点にある。だからある種の情報は表現するが、それが正確に何で、どのように表現されているのかは常に明確とは限らない
  埋め込み空間は単語、文、段落の間の関係を表現でき、そうしたものが根本ドメインに関する情報を含み得るため、テキストでその関係を問い合わせると、それらしい答えを得られる。問題は、テキストが雑な符号化方式なので、その関係が何を表しているのか常に明らかではないことだ
  もう1つの弱点は、生成型である点にある。生成型にするため、可能なあらゆる質問と答えをデータベースにハードコードする代わりに、一部のデータをアルゴリズム、つまり次トークン予測に委ねている。そのおかげで、不正確だが確率的な質問・プロンプトが可能になり、何でも聞けるという利点が生まれる
  しかし、どんな単一のアルゴリズムも、あるドメインにおける可能なすべての質問に対する可能なすべての答えを正確に符号化することはできない。だから情報の精度が一部失われる。現在のLLMを私はこのように見ている
- 議論を単純化して、LLMが生成型情報検索だという言い方が完全に正しいと仮定しても、LLMは残り続けるだろう
  プログラミングで、平均以下または平均的なジュニア開発者がどのように働くかを考えればよい。Stack Overflowやチュートリアルから問題解決情報を「検索」する
  すべての開発者に出来の良いAI自動化ツールを与えることは、退屈で単純な作業を委任するジュニア開発者を1人ずつ付けるのに似ている。単純作業のせいでジュニアが成長できないことを心配する必要もない。そこに静的コード解析、テストのようなツールが十分にそろっていれば、AIツールは作業し、ツールを実行し、問題を直すという反復をかなりうまくこなすだろう
  そのツールの価格はジュニア開発者のコストの1/30くらいではないか？そうなれば、実際のジュニア開発者を育てることを含め、重要な仕事により多くの時間を使える
  AIがまだ完全にそこまで来ているとは思わないが、現在の基盤モデルも、正しく接続し組み合わせれば、そこに到達するには十分かもしれないと思う
- Rachel Thomasが説明した状況につながる思考過程が、ほかの分野でもある程度機能するのか気になる。重要な記事であり、同意する
現在のAI誇大宣伝サイクルの核心的な問題の1つをよく突いている。私たちは正確さではなく関心を最適化している
そしてこれは生物学だけの問題ではない。気候科学、法、医学まで、さまざまな分野での機械学習適用に似たパターンが見られる

ディープラーニングは注目されるが、ディープ・ファクトチェックは顧みられない

AI酵素予測論文と後続検証の対比

酵素機能予測が難しい理由

Transformerアプローチと表面的な成果

明らかになった誤りと反復パターン

yciOの事例が示したドメイン知識の役割

「既知機能の伝播」と「真に未知の機能発見」の区別

データ検証研究の低い報酬

関連記事

1件のコメント

Hacker News の意見