- プラズマ物理学研究におけるAI活用への期待とは裏腹に、実際の適用結果は誇張された成果と限界が中心だった
- AIを用いたPDE(偏微分方程式)解法(PINNなど)は、信頼性と性能の面で既存の数値的手法に対して明確な優位を示せていない
- 弱い比較基準(weak baseline)と報告バイアスのため、AIの成果に関する論文の多くは実態以上に過度に肯定的に評価されている
- 科学におけるAI活用は急増しているが、科学進歩の革新を主導する道具というより、漸進的・限定的な貢献にとどまる可能性が高い
- 科学論文の構造や研究者インセンティブのために、失敗事例の非公開・誇張報告が繰り返されており、AIの科学的影響を評価する際には本質的に懐疑的な視点が必要であることを強調している
序論および研究背景
- 筆者のNick McGreivyは、Princetonでプラズマ物理学の博士号を取得した後、AIが科学研究(特に物理学)の革新に貢献できるという期待から、機械学習を活用する研究へと転じた
- AIがエレクトロニクス、インターネット、集積回路のような汎用技術として、科学全体を飛躍的に変えられるかに関心を持っていた
- 実際には、AIを活用したPDE(偏微分方程式)解法の研究において、有名論文で発表された成果に比べ、実際の適用では期待を下回る結果を経験した
PINN(Physics-Informed Neural Network)適用の経験
- AIを用いたPDE解法の分野でPINNが代表的手法として急浮上し、筆者もこの方式を実験的に試した
- 既存論文では、PINNが古典流体、量子力学、反応拡散系などさまざまな分野のPDE問題に効果的なソリューションを提供したと報告されていたが、実際には非常に単純なPDE(1D Vlasovなど)でさえ不安定で、信頼性が大きく低い結果を経験した
- 簡単なチューニングでは改善が難しく、複雑なPDE(1D Vlasov-Poissonなど)では適切な解をまったく導けなかった
- 周囲の研究者も同様の失敗を経験していたが、こうした否定的な結果はほとんど論文として発表されない
PINN実験から得た教訓
- 影響力の大きい初期論文の著者でさえ、特定の設定ではPINNが失敗することを認識していたが、説得力のある結果だけを公開していた
- 科学論文の生態系における肯定的結果中心の報告とAI関連の失敗実験を公開しない慣行は、**生存者バイアス(survivorship bias)**を深める要因になっている
- PINN方式は数値的には美しい概念だが、不安定性・微調整の難しさ・処理速度の低下といった実用上の限界のため、採用を断念した経験が共有されている
- 元論文は14,000回以上引用され、数値手法分野で最も引用された論文だが、実際のPDE解法では既存手法に対する競争優位はない
- 最近では、PINNが**逆問題(inverse problems)**など特定領域で有効に機能しうるという主張もあるが、これをめぐって研究者間で議論がある
不適切な比較基準が招いた過剰な楽観
- 筆者はその後、従来の数値技法と同様にPDEの解を格子やグラフのピクセル集合として扱うディープラーニングのアプローチを試した
- 多くの論文で、AIによってPDEを既存手法より最大で数千〜数万倍高速に解けると発表されていたが、実際には比較対象となったベースライン自体が弱い手法にすぎないケースが大半だった
- 代表的論文を分析した結果、AIが強みを示したとされる76本のうち60本(79%)は、十分に高性能な既存の数値手法と公正に比較していないことが判明した
- このような弱い比較基準とネガティブ結果の非公開により、「AIが革新的成果を上げている」という評価は実態以上に誇張される傾向が確認された
- 関連研究の結果は学界と産業界全体で論争を呼び、一部は今後の研究方向やAIの潜在力の強化を主張する一方で、一部は現在の過大評価への警戒を強める立場を示している
科学におけるAIの役割と限界
- 代表的な成功例としては、AlphaFoldによるタンパク質折りたたみ予測、気象予報(予測精度が最大20%向上)、創薬(第I相臨床試験の成功率上昇)などがあるが、広範な革新というよりは既存技術を補完する漸進的な進展が中心である
- グローバルなビッグテックやメディア、学界などはAIを「科学革新の道具」あるいは「科学のパラダイムを変える変革の主役」として描くが、現在の水準のAIには期待ほど本質的な革新を生み出せない限界が明確に存在する
AI採用の動機と研究エコシステムの構造的問題
- 科学者がAIを導入する主な理由は、科学そのものの発展よりも個人的な成果(より高い給与、キャリア、論文引用、研究資金の獲得など)にある
- 実際にAIを用いる研究者は、高被引用論文や研究競争力の面で一般の科学者より有利な環境を得ていることが確認されている
- AI活用研究者は「解くべき科学課題」を定義するというより、むしろ最初から「AIで解ける課題」を後付けで探していくという構造的な罠にさらされている
- その結果、実際の科学の進歩よりもAIの潜在力を実演することに集中し、すでに解決された問題や副次的効果しか生まない場合が多い
論文報告の構造的限界と科学における楽観バイアス
- 否定的結果が報告されないこと(生存者バイアス)により、AI活用の成功事例ばかりがあふれ、失敗は公開されず、全体的な効果の評価が歪められている
- 論文の構造上、データリーク、弱い比較基準、チェリーピッキング、未報告などの体系的な誤差やバイアスが繰り返し生じている
- 評価者と利害関係者が同じ共同体の内部にいるため、成果評価が利益に直結する利益相反の構造の中で行われている
- このような現象は、科学におけるAIの影響を評価する際、「栄養学の論文で単一研究の結果を無条件に信じない態度」に似た本質的な懐疑と批判的検証の習慣が必要であることを伝えている
結論
- AIは短期的には、科学革新を導く革命的な道具というより、既存手法を漸進的・選択的に補完する手段である可能性が高い
- 研究エコシステムにおける構造的インセンティブ、過大評価と失敗の未報告、弱い比較基準の問題により、AIの実際の科学的成果を評価する際には常に批判的かつ懐疑的な視点を保つ必要がある
- 理想的なAI革新には、構造的改革(チャレンジ課題の設定、失敗事例の公開、公正な比較体系の発展など)を並行して進めるべきだというメッセージが伝えられている
1件のコメント
Hacker Newsのコメント
タイトルが変わったのか分かりにくくて混乱するが、現在のタイトルは "I got fooled by AI-for-science hype—here's what it taught me" とのこと
タイトルは元から変更されていて、個人的にはむしろ悪くなったと感じる。元のタイトルのほうが好ましく、この論文の原題には問題がなかったと思う。内容は、博士課程の学生がAIが科学研究に貢献するという疑わしい事例を批判的に分析するもの
いや、見間違いではなく実際にタイトルは変更されていて、アーカイブのURLまで例として示されている
AIベースのFEMスタイルの構造解析ソルバーを使ってみた「幸運」な経験がある。線形の小変形問題ではそこそこ使えるが、複雑になると性能が急落する。従来手法が5分かけて正確解を出す一方で、こちらは30秒で大雑把に解く程度。非線形に適用すると完全に破綻する。かなり高いレベルの概念選定に使える程度ではあるが、それすら不十分。あるモデルは単なる曲率検出器のようなもので、直線部分は青、曲率の大きい部分は赤、残りは補間しているだけという感じ
結局は "second principles" ソルバーに近い印象で、見たことのない状況をまったく新しく解決することはできないという限界がある
こういうモデルを反復解法のプリコンディショナーとして使えるのか気になる
新しくてホットな技術が過度な注目を集める現象には、常に危険がある。記事の重要な引用は「大半の科学者は意図的に他人をだまそうとしているわけではないが、有利な結果を示さなければならない強い圧力があり、その結果として誤った方向へ導かれる可能性がある」というもの。誰かのインセンティブを理解することが、情報を解釈するうえで非常に有用だという点を強調している
結局のところ、これは学界の慢性的な問題の繰り返しだ。真実の探究よりも引用数や出世に重きが置かれ、AIもその題材の一つにすぎない
一般化はしたくないが、ドイツのHPCセンターをいくつか回って見たパターンとして、物理学を専攻したがうまくいかなかった人が多く、AI関連の予算も主に彼らが持っていって ML4Science 形式のプロジェクトが乱立している。HPCセンターは本来物理学者だけのためにあるわけではないのに、予算の偏りが残念だ。ドイツはAIそのものの研究にもっと投資すべきだと感じる
現実的には、出世主義の問題は学界がますます民間市場の論理を取り込んだことで生じた副作用だ。ソフトウェア開発者として学んだのは、あらゆる決定が自己利益とキャリア中心だということ。誰もが自分の見栄えだけを気にし、仕事が終われば他人のせいにする。このマインドセットに対抗しなければ、むしろ自分が不利になる環境で、結局は同じ結論に行き着き、自分だけが損をする構造になっている
なぜ "no longer" という表現が使われたのか、正直よく分からない
「数週間失敗したあと、別の大学の友人に連絡したら、彼もPINNsで良い結果を出せていなかった」というくだりから、研究ではAIとは別の話として、継続的な協力の重要性を実感する。すでに他人が失敗した道をもう一度たどらずに済む助けになる
研究者は失敗した実験も論文として発表すべきだという必要性が示される
これが、科学AIエージェントという概念にあまり説得力を感じないもう一つの理由でもある。研究とは本質的に非常に協調的なプロセスであり、どれだけ文献調査が上手でも、実際に会って会話しなければ優れた研究者になれるのか疑問だ
AIの推進派ではないが、否定的な結果が論文化されず、論文がどれも自分の成果だけを誇張するのはAIだけの問題ではない。科学者の評価方法と学術誌産業の構造の問題であり、伝統的メディアと同じように注目を集めることに執着している。いずれにせよ、冬が来つつあるように感じる
AI論文にはしばしば、「何十億個ものGPUを投入して無限に近い時間回せば魔法のようにうまくいくという結果」や、「非公開の実データセットで試したら最高だった」といった話ばかりが並ぶ。大企業発の論文は明白な欠陥があっても無視して通せてしまう。結局は資源の勝負で、私のような予算の少ない大学研究者は再現もできず、論文に書かれた数値をただ信じるしかない
15年前にAIの実用論文を書いたあと別分野へ移り、最近また戻ってきた。これはあらゆる分野に蔓延する問題だが、AIには特に名声と金を追う研究者が集まりやすい。誇張された主張や都合よく編集されたデータもよりひどいように見える。責任感のある研究者でさえ、競争するためにはある程度誇張せざるを得ない
AIは単に現在の流行を引き寄せる磁石であり、そのため問題点がより鮮明に見えているだけだ
AIは特に「それっぽい論文」を書くことを容易にしてしまう
HNでAI/MLをめぐる認識がなぜここまで極端に分かれるのか不思議だ。これまで見たことのない新しい領域であり、文字入力だけでコードまで生成する機能は以前にはなかった。最近、画像分割スクリプトをUI込みで claude に頼んだら1分で生成された。こうした革新的な例は一つ二つではない。画像生成も新世界だ。このブログ記事にも誇張はあるが、研究者の立場からすれば、AIによるコード生産性だけでも効率性は十分高い。さらに興味深いのは、データに対する認識の変化だ。以前は「インターネットは決して忘れない」と言われていたのに、今では実際にページ削除やキャッシュ機能の消滅が起こり、人々はデータの扱い方を徐々に忘れてきた。ところがAIの登場後、データの価値が再び浮上した。フィードバックを与え、その結果が反映される強化の時代に入り、ハードウェア、アルゴリズム、データ、ツール、プロトコルなどあらゆる方向で進歩が進んでいる。まだより多くの実験、GPU、大規模データセンターが必要で、今はボトルネックの状態にある。大企業は数週間から数か月をかけて大規模モデルを学習させている
「画像分割コードを生成してくれた」という話は、実際には Stack Overflow のデータを派手にコピペしている程度だ。昔 Google で情報を探していたのと同じ文脈で、見た目は新しく印象的でも、本質的にはGISでレストランを探す程度にとどまっている気がする。現実には reasoning などまったくなく、データに基づく相関を出力しているだけだ。それでも有用ではあるが、限界も明らかだ
HNでAI/MLに対する雰囲気が他の技術よりここまで割れている理由については、各自の合理的な立場から解釈する必要がある。革新的だという見方も、データ盗用やプライバシー軽視への懸念も、どちらも合理的な根拠がある。さまざまな視点があることをまず認め、自分の立場をいったん脇に置いて相手の立場をきちんと理解しようとする姿勢が重要だ
プログラマーの根本的な役割は人間の言語をコンピュータ言語に変換することだ。LLMはその境界を明確に侵食する存在であり、どこまで深く入り込むかは不確実でも、すでに壁は崩れている。この状況は恐怖から危機感までさまざまに受け止められる。長年かけて磨いた高収入スキルへの脅威であり、プログラマーが完全に置き換えられなくても、年収数十万ドルをかろうじて維持する程度になるだけで十分な脅威だ
HNはもともと「この流行の技術は本物か幻想か」で常に分裂する場所だ。さまざまな技術でこうした論争は繰り返され、ときには自分の立場も変わったことがある。結局、見かけほど特別なことではないと思う
これとは逆に、「AIが科学を革新する」という言説は、根拠よりもあまりに先走っているように感じる
記事の冒頭ではAI全体が誇張されているように見えるが、実際に問題視しているのはPINNという特定のアーキテクチャだ。最後には、DLモデルでPDEをより速く解く成果にも触れている
PINNだけの問題ではなく、もっと広範な話だ。PINNがいまひとつだというのは長く知られているが、物理問題にMLを使う一般的な失敗も蔓延している。MLがうまく機能するのは、(1) データが非常に多くて領域が狭いとき(MLIPなど)、(2) 膨大なデータと大規模モデルを使えるとき(AlphaFold)だ。だが物理問題のMLはたいていその中間あたりにあり、実験データは不足しシミュレーションも高価で、データセットやモデル規模も中途半端だ。結局みな挑戦しては失敗し、それでも論文を出す。有名ラボやPI、あるいは珍しく見えるテーマなら良いジャーナルに載り、引用数だけが増える。結局、データの一部を複製するにとどまる限界だけが残り、他の人が汎用性強化に集中すべきだという結論になる
著者がやったことはPINNに限定されない。複数のモデルを体系的に分析した論文も書いており、別のセクションまである
PINNを別のAIソリューションに置き換えても、なお誇張された部分が見つかる。現実的に見たAIの有用性はこれまでのところ、「専門家の単純作業を自動化するが、三重の検証が必要」という程度が妥当な評価だ
素晴らしい分析と例示だ。もう一つの問題は、AI論文の多くが新しく、たとえ「正式な」ジャーナル掲載の比率が低くても引用数は多いことだ。再現や主張の検証が本当に難しい。研究手法やデータが毎年変わるため、その結論が過去のモデル特性によるものなのか、一般化できる結論なのかも曖昧だ
ブログ所有者の名前("Timothy B. Lee")を見て、70歳を超えたHTTPとWebの発明者がこんな先端的なブログをやっているのかと驚いた