科学向けAIの誇大宣伝にだまされて学んだこと

(understandingai.org)

3 ポイント投稿者 GN⁺ 2025-05-21 | 1件のコメント | WhatsAppで共有

Princetonでプラズマ物理学を研究していた筆者は、2018年にAIが物理研究を加速できると考えて方向転換したが、実際の PDE求解向けAI は期待よりはるかに脆弱だった
PINNは単純で汎用的なアプローチに見えたが、簡単な例を少し変えただけでも正確な解を得るのが難しく、チューニングでも安定性を確保できなかった
流体力学PDEに関する研究76本を検討したところ、標準的な数値解析より優れていると主張した論文のうち 60本、79% が弱いベースラインを使っており、大幅な高速化の事例は不公平な比較に依存していた
科学分野でのAI利用は2015年の2%から2022年にはほぼ8%に増えたが、その増加は科学そのものよりも 引用、キャリア、資金獲得のインセンティブ とより強く結びついている可能性がある
AIはタンパク質フォールディング、天気予報、創薬で成果を出し得るが、科学を革命的に加速するという一般論は、生存者バイアス、データ漏洩、弱いベースライン、チェリーピッキング のため慎重に見るべきである

プラズマ物理学からAIへ方向転換した理由

2018年、Princetonでプラズマ物理学の博士課程2年目だった筆者は、研究の焦点を 機械学習 に移した
- 具体的なプロジェクトがあったわけではないが、AIで物理研究を加速できれば、より大きな影響を与えられると考えた
- AI分野の高い給与も動機だったと明かしている
その後、Yann LeCunが「pretty hot topic」と呼んだ AIで偏微分方程式（PDE）を解く問題 を研究対象にした
PDEは物理システムをモデル化する数学方程式であり、計算物理や工学シミュレーションで重要である
- 筆者の研究室では、核融合炉内部と星間物質におけるプラズマの挙動をモデル化するためにPDEを使っていた
PDE求解に使われたAIモデルは、ChatGPTよりも AlphaFold に近いカスタムのディープラーニングモデルである

PINN実験で明らかになった脆弱性

最初に試した方法は physics-informed neural network（PINN） だった
- PINNはPDEの解をピクセル格子として表現する代わりに、解をニューラルネットワークで表現し、方程式を損失関数に組み込む
- 初期のPINN論文は、流体、量子力学、反応拡散系、非線形浅水波などの古典的問題で有効性を示したと主張しており、すでに数百回引用されていた
単純で洗練された汎用手法に見えたが、実際の実験は期待とは違っていた
- 影響力のある最初の論文の例の一つである 1D Burgers’ を、別の単純なPDEである 1D Vlasov に変えると、正確に見える解は得られなかった
- 多くのチューニングの末にそれらしい結果は得られたが、1D Vlasov-Poisson のような少し複雑なPDEでは、まともな解を得られなかった
- 別の大学の友人も、PINNで良い結果を得られなかったと伝えてきた
元のPINN論文の著者たちも、特定の設定がある方程式では印象的な結果を出す一方、別の方程式では失敗し得ることを観察していたように見える
- しかし論文にはPINNの失敗例は出てこない
- 筆者自身も失敗した実験を論文にはせず、あまり知られていない学会ポスターとして発表しただけだった

PINNが残した教訓と現在の評価

第一の教訓は、AI研究の結果を額面通りに受け取ってはいけない という点である
- ほとんどの科学者が誰かを欺こうとしているわけではないが、有利な結果を提示するインセンティブが強いため、読者が誤導される可能性がある
- 印象的な結果を出した影響力の大きい論文ほど、より懐疑的に見るべきだと判断した
第二の教訓は、AI手法が失敗したケースはほとんど出版されないという点である
- PINNの失敗モードを扱う論文が出るまでに2年かかり、その論文は現在1,000回以上引用されている
- これは、多くの研究者がPINNで似た問題を経験していた可能性を示唆している
第三の結論は、PINNは筆者が使いたいアプローチではなかったという点である
- PINNは単純で洗練されていたが、あまりに 不安定 で、扱いが難しく、遅かったと評価している
元のPINN論文は、6年後の現在 14,000回引用 を記録している
- 筆者の基準では、21世紀の数値解析論文の中で最も引用された論文であり、数値解析論文全体で2番目に多く引用されるまであと1〜2年だと見ている
PDEを直接解く問題では、PINNが一般に標準的な数値解析手法と競争力を持たないことは広く受け入れられているが、逆問題（inverse problems） の性能は依然として議論中である
- 支持者は、PINNが逆問題で特に有効だと主張している
- 一部の研究者は、この考えに強く反論している
- 筆者はどちらが正しいか分からず、将来PINNが巨大な引用バブルだったと評価される可能性もあると見ている

弱いベースラインが生んだ過度な楽観

博士論文では、従来のソルバーのようにPDEの解を格子やグラフ上のピクセル集合として扱うディープラーニングモデルに注力した
- このアプローチは、研究室が関心を持っていた複雑な時間依存PDEでは、PINNよりも可能性がありそうに見えた
- 複数の論文は、標準的な数値解析手法より数桁速くPDEを解けると主張していた
特にNavier-Stokes方程式のような 流体力学PDE の事例が、筆者と指導教員を勇気づけた
- 核融合炉内のプラズマを記述する方程式も類似した数学構造を持つため、同様の高速化が期待できた
- 理論上は、より大きなシステムをシミュレーションし、設計をより速く最適化し、研究速度を高められる
しかし、AIモデルの信頼性と堅牢性が深刻な問題になり得た
- より速いシミュレーションの信頼性が低いなら、そのトレードオフに価値があるかを確認する必要があった
- モデルをより信頼性の高いものにしようとする試みはほとんど失敗し、AIがPDE高速化に示した可能性そのものを疑うようになった
注目度の高い論文は、AIがNavier-Stokes方程式を標準的な数値解析手法より数桁速く解いたとしていたが、ベースラインは最速の数値解析手法ではなかった
- より発展した数値解析手法と比較すると、AIは速くないか、せいぜい少し速い程度だった

76本の検討結果：79%が弱いベースライン

筆者と指導教員は、流体力学PDEを解くためにAIを使った研究を体系的に検討し、論文を発表した
標準的な数値解析手法より優れていると主張した論文76本のうち 60本、79% が弱いベースラインを使用していた
- より発展した数値解析手法と比較していなかったか
- 同一条件で比較していなかった
弱いベースラインの割合：{p:79}
大幅な高速化を示した論文は、すべて弱いベースラインと比較していた
- 結果が印象的であるほど、不公平な比較をしていた可能性が高いように見えた
検討結果は 報告バイアス（reporting bias） も改めて確認した
- 研究者は否定的な結果をあまり報告しない傾向がある
- 弱いベースラインは過度に肯定的な結果を生み、報告バイアスは否定的結果の過少報告につながる
この論文は、計算科学・工学におけるAIをめぐる議論を引き起こした
- Lorena Barbaは、この結果をAIの誇大宣伝と非科学的な楽観への懸念を裏付ける根拠と見た
- Google ResearchのStephan Hoyerは、AI for PDEsから天気予報と気候モデリングへ移った理由をよく要約した論文だと評価した
- Johannes Brandstetterは、より複雑な産業応用ではAIがより良い結果を出せる可能性があり、この分野の未来はなお有望だと反論した

PDE分野で必要な検証方法

AIがPDE求解に関連する特定の応用で、いつか有用になる可能性はある
現時点では楽観する理由は多くない
- AI手法には、標準的な数値解析手法が持つ 理論的保証 がない
- 経験的に検証された堅牢性も不足している
より多くの努力が必要な方向は二つある
- 数値解析手法レベルの 信頼性 に合わせようとする研究
- AI手法を攻撃的に検証する レッドチーミング（red teaming）
研究助成機関は、PDEのためのチャレンジ問題を作るよう科学者にインセンティブを与える必要がある
- タンパク質フォールディング分野で30年にわたり研究を同期させ集中させてきた隔年コンペ CASP が、可能なモデルとして提示されている

AIが科学を加速した実例と限界

タンパク質フォールディングは、AIベースの科学革新の代表例である
- 2024年ノーベル化学賞のプレスリリースと結び付く事例として扱われている
他にも成果の事例がある
- 天気予報：AI予報は従来の物理ベースの予報より精度が最大20%高かったが、解像度は依然として低い
- 創薬：予備データは、AIが発見した薬剤が第1相臨床試験ではより成功していたが、第2相ではそうではなかったことを示している
- この傾向が続けば、新薬承認までの全体の成功率はほぼ2倍になる可能性がある
AI企業、学界、政府機関、メディアは、AIを有用な科学ツールを超えて、科学に「transformational impact」を与える技術として提示することが増えている
現在のLLMは、DeepMindの表現どおり、人間の科学者が依存するより深い創造性と推論には依然として苦戦している
仮想的な高度AIシステムがいつか科学プロセスを完全に自動化できるなら、科学を変え加速するだろうが、筆者はそれが近いうちに起こる、あるいは実際に起こるとは期待していない

科学者がAIを採用する理由

科学分野でAI利用が増えているという現象だけで、AIが科学に有用だと判断するのは難しい
科学者がAIへ移る理由は、科学よりも 科学者自身に利益 があるからかもしれない
- 筆者も2018年、AIがプラズマ物理学に有用であり得ると本気で考えていたが、高い給与、良い雇用見通し、学術的名声が大きな動機だった
- 研究所の上層部は、技術的な考慮よりもAIの 資金獲得可能性 に関心を示すことが多かったという
後続研究は、AIを使う科学者は上位引用論文を出す可能性が高く、平均して 3倍多く引用 されると示している
AIが科学の中で印象的な結果を出したとしても、それが直ちに科学に有用なことをしたという意味ではない
- 多くの場合、AIが後で有用になり得る 潜在力 を示したにすぎない可能性がある
AIを研究する科学者は、問題を探して解法を探すのではなく、AIが解法だと仮定してから解くべき問題を探す形で、逆向きに作業することが多い
- この「hammer in search of a nail」式のやり方は、すでに解決済みの問題や、新しい科学的知識を生まない問題につながり得る

生存者バイアスと再現性の危機

AI-for-scienceの成功を評価するには実際の科学を見る必要があるが、科学文献だけでは信頼しにくい
第一の問題は 生存者バイアス（survivorship bias） である
- AI研究では否定的な結果がほとんど出版されないという評価がある
- 失敗例が抜け落ちると、AIが科学に与える影響を評価しようとする試みが歪む
これは再現性の危機で知られる問題に似ている
- 統計的に有意でない結果が文献から除かれると、治療効果のようなものを過大評価することになる
- 医療研究のz値分布における-1.96と1.96周辺の急激な不連続は、有意性基準を下回る結果が出版されなかったか、データが調整された可能性を示唆している
AI-for-scienceでは、選択基準は統計的有意性ではなく、提案手法が他のアプローチに勝ったか、または新しいタスクに成功したかに近い
- そのため成功したAI事例は頻繁に報告され、成功しなかった結果はほとんど出版されない
PrincetonのArvind NarayananとSayash Kapoorは、30分野648本の論文から データ漏洩（data leakage） という方法論上の誤りを集めたリストを作成した
- データ漏洩は各ケースで過度に楽観的な結果につながる
- 彼らは、AIベースの科学が再現性の危機に直面していると見ている

過度な楽観を生む四つの落とし穴

出版された成功例も、AIの科学的潜在力を過大評価する結論につながり得る
分野ごとに細部や深刻度は異なるが、主な落とし穴は四つのカテゴリに整理される
- データ漏洩
  - 学習データと評価データが誤って混ざると、モデル性能が実際より高く見える
- 弱いベースライン
  - AIを最新の数値解析手法ではなく弱い比較対象と競わせると、性能差が誇張される
- チェリーピッキング
  - 成功した設定だけを選んで見せると、失敗モードと適用限界が文献から消える
- 誤報告
  - AIモデルを評価する人がその評価から利益も得るという 利益相反 が、核心的な問題として残る
  - DeepMindは2023年に 220万個の結晶構造 を発見し、人類が知る安定物質を1桁規模で拡張したと主張した
  - その後、材料科学者たちはその化合物を分析して「mostly junk」と評価し、その論文は新しい物質を報告していないと丁寧に示唆した
  - MIT大学院生Aidan Toner-RodgersのAIベースの新素材発見論文は、草稿では成果事例として入っていたが、MITが研究公正上の懸念から撤回を進めると発表したため除外された
  - 明白な不正疑惑は本文で扱った微妙な方法論上の問題とは異なるが、この論文がメディアで大きな注目を集めた事実は、AI技術の効果を誇張するさまざまなインセンティブを示している

結論：革命というより不均一な漸進的ツールに近い

科学研究でのAI利用は急速に増えている
- 科学出版物全体におけるAI利用率は、2015年の 2% から2022年には ほぼ8% に増えた
- AI利用率：{l:2,8}
- コンピュータサイエンスだけでなく、物理、化学、生物学、医学、社会科学でも採用が急速に増えている
AIが科学的ブレークスルーを生み得ることは認められる
- 懸念はブレークスルーの 規模と頻度 にある
- 一つのパラダイムへ人材、教育、時間、資金が大きく移動するほど十分な潜在力を実際に示したのかは不確かである
すべての科学分野がAIを異なる形で経験するため、一般化には注意が必要である
それでも筆者の経験から得た三つの教訓は、複数の分野に適用できる可能性がある
- AI採用の増加は、科学よりも科学者にとってより利益になるために起きている側面がある
- 否定的結果がほとんど出版されないため、AI-for-scienceは生存者バイアスにさらされている
- 出版された肯定的結果は、AIの潜在力を過度に楽観視する傾向がある
AIが科学の生産性低下と科学進歩の停滞を反転させるかは分からない
- 重大な高度AIのブレークスルーがなければ、AIは革命的なツールというより、漸進的で不均一な科学進歩 のための普通のツールに近いものになると見られる

1件のコメント

GN⁺ 2025-05-21

Hacker Newsの意見

興味深い記事だ。新しく登場した手法が、実際の価値以上に過剰な注目を集める危険は常にある。
記事の核心となる一文は、「ほとんどの科学者は誰かをだまそうとしているわけではないが、有利な結果を示さなければならない強いインセンティブがあるため、それでも読者がだまされる危険がある」という部分だ。人々がどのようなインセンティブ構造の中で発言しているのかを理解すると、その発言を解釈する際にしばしば役に立つ
- 「AI」という言葉を付ければ大金を稼げて研究費も得られると気づいた人たちがいる。だが結局、どんなソフトウェアにもある程度の機械学習は入っているのではないかと思うし、目新しいことでもなく、現在の実装も特別すごいわけでも正確なわけでもない
これは概ね、学界の既存の問題を繰り返しているように見える。もはや真理探究ではなく、引用数とキャリア主義に集中しており、AIはそうしたことが起きるもう一つの題材にすぎない
- 一般化したくはないが、ドイツの複数のHPCセンターを行き来して仕事をしていると、物理学から押し出された人たちが多く集まっていて、配分されるAI研究費のかなりの部分が彼らに吸収されるパターンが見える。その結果としてML4Scienceプロジェクトが数多く生まれる。
  個人的には残念だ。HPCセンターは物理学者だけのために存在するわけではないし、特にドイツでAI研究費があるのなら、AIの中核研究をもっとやるべきだと思う
- 公平に言えば、キャリア主義の問題は、学界が民間部門により強く魅了されるようになったことで、その問題まで受け継いだ副作用に近いと思う。
  ソフトウェア開発者として働いて学んだことが一つあるとすれば、あらゆる決定はキャリア主義的で利己的な観点から下されるということだ。何が最善かよりも、何が最も印象的で、その人を前に進ませるかが重要になる。仕事が終わればもう自分の問題ではなくなり、実際のところ誰も彼らを責めにくい。この考え方があまりにも広く浸透しているので、それに加わらなければカモになる。他の人たちはそうするだろうし、結局あなたを追い抜いていくからだ。結果は同じでも、あなただけがより不利になる
- この話を、ある意味で「もはや真理探究ではない」とどう解釈できるのか分からない。むしろ真理を見つけて発見した非常に明確な事例ではないか
- ここでなぜ「もはや」が入るのか本当に理解できない
運よく、AIベースのFEM類似構造解析器をいくつか試す機会があった。
せいぜい良くても、線形・小変形問題ではそこそこ使える程度だ。厳密解に近い結果を5分ほどで得られるモデルの代わりに、かなり雑な解を30秒ほどで得るレベルだ。非線形要素を入れ始めると、もう崩壊する。
非常に高いレベルの概念選定には十分かもしれないが、それですらあまり良くない。一部は実質的に曲率検出器にすぎないとかなり確信している。直線は青、大きく曲がっている場所は赤にして、残りを補間しているようなものだ
- こうしたモデルを反復解法の前処理器として使えるだろうか
- それなら「第2原理」解析器に近い気がする。すでに見たことのないものは合成できない構造だ
AIの擁護者ではまったくないが、否定的結果が出版されず、研究論文で誰もが自分の結果を誇張する問題は、残念ながらAIだけに限った話ではない。科学者が評価される仕組みと、従来メディアのようにaudienceを渇望する科学出版産業の帰結だ。
ともかく冬が来つつあるのではないか
- その通りで、AIだけの問題ではない。だがAI論文では、実際には「GPUを1兆個投入して永遠に回せば、{魔法のようなベンチマーク}が出る」という意味の文句をよく目にする。あるいは「この非常に賢いアルゴリズムは依頼すれば提供すると主張しているが、実際に依頼すると無視する我々の極秘の実世界データセットで評価すると、我々がどれほど賢いかを示すグラフが見られる」といった具合だ。
  もちろん先取りのための論文であることも多いが、こうした論文が大企業から出てくると、明白な欠陥があってもそのまま無視して進むわけにはいかない。
  結局は資源競争だ。予算の少ない大学の元研究者として、我々には競争できない。再現可能性もないまま、文献に「ベンチマーク」として伝えられる数値を信じるよう強いられているわけだ
- 15年少し前にAIの実用的応用に関する最初の論文を出版した後、別の分野へ移り、その後最近また引き戻された。
  科学全般の問題だという点には同意するが、AIは名声と金を追う研究者をとりわけ多く引き寄せているように思う。限られた経験では、誇張された主張とデータのチェリーピッキングがより極端に見え、責任ある研究者でさえ競争のために少しずつ誇張するようになる
- AIが今の過熱した流行の磁石だから、亀裂がよりはっきり見えているだけだ
- だがAIはもっともらしい論文を書くことをより簡単にしてしまう
HN のような場所で、人々の AI/ML に対する認識がここまで分かれる理由がよくわからない
こういうことは以前には見たことがない。テキスト入力をもとにコード生成のような仕事をこなすシステムや手法そのものが、事実上存在しなかった
先週も、基本 UI 付きの画像分割スクリプトを頼んだら、Claude が 1 分もかからず作ってくれた
革新的だと言える例はいくらでも挙げられる。画像生成スタック全体がまったく新しい
このブログ記事は十分に公平で、このテーマに過熱があるのも事実だ。だが、研究でコードを書く必要があるすべての研究者について見るだけでも、AI はすでにはるかに効率よく作れるようにしてくれる
さらに言えば、私たちは新しい時代に入ったのだと思う。データを再び非常に真剣に扱う時代だ。数年前には「インターネットは忘れない」と言われていたが、やがてインターネットも忘れ始めていることに気づいた。Google はページを削除し、キャッシュ機能をなくし、データをどう使えばいいのかわからず、もはや気にしていないように感じられた
そこに AI が登場し、データが再び王になっただけでなく、今は強化の時代の真っただ中にある。フィードバックを与えれば、システムがそのフィードバックを学習に反映する
AI/ML というテーマは、ハードウェア、アルゴリズム、ユースケース、データ、ツール、プロトコルなどあらゆる側面で扱われている。私たちはそれを統合し、それのために、そしてその上に構築している最中で、少し時間がかかるだけだ。それでも進歩のスピードは狂気じみて息つく暇もない
本当に天井があるのかどうかは、数年後にならないとわからない。AI アーキテクチャとアルゴリズムの実験をもっとずっと増やすには、GPU とより大きなデータセンターがさらに必要だ。ボトルネックは明らかだ。大企業でさえ、大規模モデル 1 つの訓練に数週間から数か月かけている
- 「先週も、基本 UI 付きの画像分割スクリプトを頼んだら、Claude が 1 分もかからず作ってくれた」という部分は、私たちから見ると Stack Overflow を気の利いたやり方でコピペしているのに近い。だから、「近くのレストランを Google に尋ねたら 500ms で見つかった。私の C64 にはできなかった」と言っているように聞こえる
  印象的で実際に役立つのは確かだ。だが、「現実世界を探索する方法を学び、関連する問題をすべて解けるようになった」と言っているように聞こえる一方で、実際に解いたのは「GIS データベースでうまく検索すること」だ。目新しさが消えれば、想像していたものではなく実際の姿が見え始める
  要点をもっと明確にすると、「Claude が生成した」と言うとき、あなたが想像しているのは、AI が「考え」、オントロジーを作り、その上で推論して、このスクリプトが正しい出力だという結論に達したということだ。実際に起きたのは、入力が何兆もの例で見たパターンに従ってこの出力と相関していたということだ。オントロジーもなければ推論もない。もちろんそれでも印象的で非常に有用だが、時間がたてば物珍しさは消えるだろう。限界はすでに明らかだ
- 「HN のような場所で、人々の AI/ML に対する認識がここまで分かれる理由がわからない」というのは、それぞれの立場から見れば、みなが合理的な行為者だからだ。AI を持ち上げる人にも、過熱を切り下げる人にも、それぞれもっともな理由がある
  この新技術を画期的だと見る根拠もあれば、大規模なデータ窃盗とプライバシー軽視を警戒する根拠もある
  まず、どんな事柄にも多様な考えがあることを認め、尊重しなければならない。しばらく自分自身を方程式から外して、反対側を理解する必要がある。本当に理解しなければならない
  他人の靴を履いて長く歩いてみるべきだ
- 「研究でコードを書く必要があるすべての研究者について見るだけでも、AI はすでにはるかに効率よく作れるようにしてくれる」という言葉に対して、科学者に必要なのは効率ではなく正確性だ。ソフトウェアのバグはすでに科学的誤りと再現性不足の大きな原因であり、たとえばこうした事例がある: https://www.vice.com/en/article/a-code-glitch-may-have-cause...
  研究環境におけるプログラミング品質は、業界と同じく悪名高いほどばらつきがあるが、研究では些細なミスが研究全体の結果を台無しにしうる。実験室のような環境では、印象派の画家のように、あるいはその AI 版のようにソフトウェアを使うことはできない。実際に自分が何を入力しているのかを理解していなければならない
  正しいかどうかを気にしないなら、AI はより効率よく作ってくれるかもしれない。夏のビーチバレーのイベント画像を作るにはすばらしいかもしれないが、科学の現場でコードを書くには破滅的な発想だ
- 逆に、「AI が科学を革命的に変える」という物語は、証拠が裏づけている水準をはるかに先走っているように感じられる
- HN はいつだって、「今過熱している技術がどれほど本物で、どれほど誇張なのか」をめぐって意見が割れる
  こういうことは何度も見てきたし、技術や時期によっては別々の側に立ったこともある
  私にはいつもの光景に見える
文章の冒頭では、科学全般におけるAI、少なくとも著者の分野におけるAIはすべて誇張されていると示唆しているように見える。だが、不満の矛先は PINN という特定のアーキテクチャに向けられているようで、最後には従来の数値解析法より速くPDEを計算するために別のディープラーニングモデルをうまく使ったとも述べている
- PINNよりはるかに広い問題だ。PINNがひどいことはずっと前から広く知られていた。だが、物理問題に機械学習を使うこと全般の失敗は、はるかに広く蔓延している。
  機械学習がたいてい真価を発揮するのは、比較的狭い領域について実験データがかなり多い場合だ。1990年代からあった 機械学習原子間ポテンシャル がその例だ。気象モデリングもそうである可能性はあるが、その件については論評したくない。あるいは、途方もない量のデータがあり、本当に巨大なモデルを訓練するときだ。私たちがAIと呼んでいるものはこれである。AlphaFoldが成功した理由も基本的にはこれであり、AlphaFoldも訓練データのどの点からも大きく離れた入力を与えると良い結果を出せない。
  しかし、物理問題向けの機械学習の大半はその中間のどこかにある。実験データは不足しており、シミュレーションデータは生成コストが高すぎて十分に用意できない。モデルも十分に大きくないが、大きすぎればどうせ推論が遅くなる。その一方で、これらのモデルに非常に広い範囲の物理を学ぶことを期待している。
  その後、誰もが過熱列車に乗り込んだ。試してみるのがあまりに簡単だからだ。皆が同じ外れ結果を得るが、それでも出版する。研究室やPIが十分に有名であったり、問題を独特で科学的・数学的に見えるよう定式化できれば、良いジャーナルや学会に載り、多く引用もされる。だが結局、結果は同じだ。訓練データをある程度なぞり、汎化問題 は誰かがさらに研究すべきだ、という結論になる
- 著者は複数のモデルを対象に 体系的分析 を提供する論文を丸ごと出版している。それに関する節も別にある。したがってPINNだけの話ではない
- PINNを何らかの「AI」解法に置き換えても、やはり誇張されているだろう。
  これまでのところ「AI」に対する現実的な評価は、専門家が退屈な作業を少し飛ばすのにだけ役立ち、出力は3回確認しなければならない、と認めることに尽きる
「数週間失敗したあと、別の大学の友人にメッセージを送ったところ、彼もPINNを使ってみたが良い結果は得られなかったと言った」という部分はAIと直接の関係は薄いが、大学で研究するときに遅すぎるくらい遅く学んだ教訓を思い出させる。継続的な協働 が重要だ。他の人がすでに失敗した領域を踏み直すことを避けられるからだ
- 研究者が 失敗した実験 も出版すべきだという必要性として見ることもできるのではないか
- これも、科学向けAIエージェントという発想があまり筋が通っていないと感じていた別の理由だ。研究は極度に協働的な活動の束だ。文献調査は非常によくできても、誰とも実際に会話せず、学会にも行かない研究者がどれほど優秀になれるだろうか
分析は素晴らしく、例も的確だ。AI関連研究のもう一つの問題は、論文のかなりの部分が新規でも「まともな」場所に出版されたものでもないのに、Google Scholarを見るだけでもあちこちで引用され続けていることだ。
結果を再現し、一部の主張の妥当性を確認するのが難しく、4年前の研究ではある一組のモデルを使っていたのに、今のテストでは別の訓練データを持つ別のモデル群が使われているという点もある。何が実際に結果へ影響しているのか、結論が古いモデルの特定の性質にだけ当てはまるのか、それとも 一般化可能 なのかを確立するのは難しい
- 科学者でも研究者でもないが、統計やデータ解釈に基づくものは何でもすぐ疑うようにしている
タイトルが変わったのか、それとも私が幻覚を見始めたのか。
タイトルは “I got fooled by AI-for-science hype—here's what it taught me” だ
- 変わったのは確かだ。個人的には、むしろ悪くなったと思う。元のタイトルから変更されている。
  ここでは深刻な問題がない限り原題を優先すべきだ。
  この原題には深刻な問題はなかった。科学研究への疑わしいAIの貢献を博士課程の学生が慎重に批判した内容を正確に要約していることが深刻な問題だというのでなければ
- 幻覚ではない: https://web.archive.org/web/20250520152757/https://news.ycom...
この記事はAIについての文章というより、博士課程のあまり語られない機能の一つである 学術的主張を読む力 を身につける話のように見える。
論文にある主張は驚くようなものではない。時間がたつにつれて私たちが「科学」と呼ぶようになった、入り混じったインセンティブ構造の自然な産物だからだ。科学の産出物を正しい文脈に置き、「論文」がそれに伴うあらゆる複雑さを持つ 社会技術的システム の産物であることを理解するには、時間をかけた訓練が必要だ

科学向けAIの誇大宣伝にだまされて学んだこと

プラズマ物理学からAIへ方向転換した理由

PINN実験で明らかになった脆弱性

PINNが残した教訓と現在の評価

弱いベースラインが生んだ過度な楽観

76本の検討結果：79%が弱いベースライン

PDE分野で必要な検証方法

AIが科学を加速した実例と限界

科学者がAIを採用する理由

生存者バイアスと再現性の危機

過度な楽観を生む四つの落とし穴

データ漏洩

弱いベースライン

チェリーピッキング

誤報告

結論：革命というより不均一な漸進的ツールに近い

関連記事

1件のコメント

Hacker Newsの意見