- Harvardの研究で、OpenAIのo1推論モデルは救急外来の初期トリアージ診断において人間の医師より高い精度を示し、LLMは臨床推論の大半のベンチマークを上回ったと評価された
- Bostonの病院の救急外来を受診した76人の患者の標準電子カルテを読む実験で、o1は正確または非常に近い診断を67%で提示し、人間の医師2人は50~55%だった
- より多くの詳細情報が与えられると、AIの精度は**82%**に上がり、専門医は70~79%だったが、この差は統計的に有意ではなかった
- AIは抗菌薬治療や終末期ケア計画のような長期治療計画の課題でも医師46人を上回り、5つの臨床症例でAIのスコアは89%、既存資料を使った人間の医師は34%だった
- 研究ではテキストで伝達可能な患者データのみを比較しており、非言語的シグナルは検証していないため、実際の医師代替というより書類ベースのセカンドオピニオンに近いという限界がある
Harvard救急トリアージ実験の主要結果
- Harvardの研究で、AIシステムは救急医療のトリアージ状況における診断精度で人間の医師より高い成績を示した
- Scienceで公開された結果は、数百人の医師の回答とAIの回答を比較した実験から得られ、独立した専門家はAIの臨床推論における「真の進展」だと評価した
- 大規模言語モデル(LLM)は「臨床推論の大半のベンチマークを超えた」と評価された
- AIの優位性は、情報が少なく迅速な判断が求められる救急外来の初期トリアージで特に際立った
76人の救急外来患者を対象とした診断実験
- Bostonの病院の救急外来に到着した76人の患者を対象に、AIと人間の医師2人が同じ標準電子カルテを読んで診断した
- 電子カルテには通常、バイタルサイン、人口統計情報、患者が来院した理由を記した看護師の数文が含まれる
- OpenAIのo1推論モデルは、正確または非常に近い診断を67%の症例で導き出し、人間の医師は50~55%の精度だった
- さらに多くの詳細情報が提供されると、AIの診断精度は**82%**に上昇し、専門家の人間は70~79%だったが、この差は統計的に有意ではなかった
長期治療計画の実験
- AIは、抗菌薬治療の提案や終末期プロセスの計画といった長期治療計画を立てる課題でも、より大きな人間の医師集団を上回った
- AIと医師46人は5つの臨床症例研究を検討し、AIは既存資料を活用した人間の医師より有意に優れた計画を立てた
- スコアはAIが89%、検索エンジンのような既存資料を使用した人間の医師が**34%**だった
研究の限界と医療現場での役割変化
- 今回の研究は、テキストで伝達可能な患者データだけを対象に人間とAIを比較した
- 患者の苦痛の程度や視覚的な外見のような非言語的シグナルをAIが読み取る能力は検証されていない
- そのため、AIは実際の救急外来医を代替したというより、書類ベースでセカンドオピニオンを出す臨床医に近い役割を果たしている
- Harvard Medical SchoolのAI研究所を率いるArjun Manraiは、この結果はAIが医師を代替することを意味するのではなく、医療を再編する「非常に深遠な技術変化」が進行中であることを意味すると述べた
- 研究が行われたBostonのBeth Israel Deaconess medical centreの医師Adam Rodmanは、AI LLMを「数十年で最も影響力のある技術」の1つと見ている
- Rodmanは、今後10年間でAIは医師を置き換えるのではなく、医師・患者・AIシステムが共に関わる新しい三者診療モデルに加わると見ている
臨床症例とAIの推論
- Harvard研究のある症例では、患者は肺血栓と悪化する症状を示していた
- 人間の医師は抗凝固薬が効いていないと判断したが、AIは患者のループスの既往が肺の炎症を引き起こす可能性を捉えた
- AIの判断が正しいことが確認された
すでに広がりつつある医療AIの利用
- 先月公開された研究によると、米国の医師の約5人に1人はすでに診断支援にAIを使用している
- 英国では医師の**16%**がAIを毎日使用し、さらに15%が毎週使用している
- Royal College of Physiciansの最近の調査によると、英国の医師の一般的な利用先の1つは臨床意思決定である
- 英国の医師が最も大きく懸念したのは、AIの誤りと責任リスクだった
- AIヘルスケア企業には数十億ドルが投資されているが、AIの誤りの結果をめぐる疑問は残っている
- Rodmanは、現時点では責任の所在に関する正式なフレームワークはないとし、患者は最終的に生死に関わる判断や難しい治療判断を人間に導いてほしいと望んでいると強調した
外部専門家の評価と注意点
- University of Edinburgh医療情報学センター共同所長のEwen Harrison教授は、この研究は重要であり、この種のシステムはもはや医学試験に合格したり人工的なテスト症例を解いたりする段階にとどまっていないと評価した
- Harrisonは、AIは特に、より広い範囲の可能な診断を検討し、重要なものを見落とさない必要があるとき、臨床医にとって有用なセカンドオピニオンツールのように見え始めていると考えている
- University of Sheffield数理・物理科学部のWei Xing博士は、他の結果の一部は、医師が独立して考えるというよりAIの答えに無意識に従ってしまう可能性を示唆していると見ている
- Xingは、AIが臨床環境でより日常的に使われるほど、この傾向はさらに強まる可能性があると述べた
- Xingは、AIがどの患者で診断がうまくいかなかったのか、高齢患者や英語を母語としない患者でより苦戦したのかについての情報が不足していると指摘した
- Xingは、この研究はAIが日常的な臨床利用に安全であることや、一般公開されているAIツールを医療助言の代替として使うべきことを証明するものではないと述べた
1件のコメント
Hacker Newsの意見
こういう研究はベンチマークを壊すのがあまりに簡単なので、信頼するにはかなり慎重にならざるを得ない
たとえば最近の論文では、AIがX線読影で放射線科医に勝ったことになっていたが、肝心のAIはX線画像にアクセスすらしていなかった: https://arxiv.org/pdf/2603.21687
既存の「汎用胸部X線理解のための大規模視覚質問応答ベンチマーク」を使っており、意図的に壊したわけでもなかった
しかもX線読影では人間の放射線科医は実際にX線を見る。ところがこの記事の文脈では、人間の医師は救急外来患者を診断するときにメモだけを見て判断するわけではない
必要でもなく、慣れてもおらず、訓練も受けていない課題をやらせておいて「AIのほうが上手い」と言っているようなもので、メモが妙な抜け道で答えを漏らしていなかったとしても驚きではない
この研究が確実に間違っているとか、意図的にごまかしているという意味ではないが、単一の研究だけで強い結論は出さない
結局のところ医学は知識、経験、知能、そしておそらくパターン認識の問題であり、こうしたものでは最高のAIモデル、とくに医療に特化したモデルが大半の人間、つまり医師を大きく上回るはずだ
ソフトウェアエンジニアについてすでにそう仮定するなら、この分野にも当てはめるべきだし、現実としてここ数か月、医師にかかるたびに、救急外来を2回含めて、みんなChatGPTを使っていた。冗談ではなく衝撃だった
だから純粋に知りたい。責任や倫理は脇に置いて、上位の医療AIが優秀な人間の医師の性能に、永続的に、あるいは少なくとも今後数十年は追いつけない、または追い越せないと信じさせる具体的な能力や能力の組み合わせとは何なのか?
こちらでは救急重症度分類を半分ほど間違えていた
見出しの数字は、看護師のメモだけを見て推定診断を行った結果を引用している。私の推測では、選別された症例研究では大規模言語モデルのほうが医師よりもためらいなく推測した可能性が高い
とても妥当な結論に思えるが、別の可能性を飛ばしている。X線が結果をむしろ不正確にしているのではないか?
記事も論文もかなり誇張されているように見えて驚いた。これは大規模言語モデルに大きく有利になるよう設計された形で医師と競わせており、臨床診療を代表していない
こうした推論ケースは医師向けベンチマークではなく学習ツールだ
診断はまず患者を正確に記述することに依存し、集める情報は鑑別診断によって変わる
医師の能力のひとつは、複数の情報源から情報を集め、重要なものを選り分けることだ。患者がうまく話せなかったり、非言語的だったり、介護者や家族から聞き取る必要があることもある
問診そのものが技能であり、身体診察も同様だが、ここではそのデータがすでに与えられている
とくにo1の学習データに含まれていた可能性のある質問で、平文のパターン認識だけを見れば医師を上回るのはまったく驚きではないが、臨床的に有用な比較には思えない
どんな検査をするか、画像を撮るか、病歴から不要な情報を切り捨てるかを決めるのも別の能力であり、診断形成と切り離しにくい
場合によっては確率的にはXを選ぶのが有利でも差が小さいことがあり、より安全な選択は別の可能性を先に除外したり、複数の可能性をカバーする安全な治療を始めたりすることかもしれない
この評価で単に「高得点」を取ることが、必ずしも良い医療行為とは限らない
この研究をそこまで重視はしないが、それでも多くの人が自己診断で大規模言語モデルが役に立つことは認められると思う
アメリカでは医師の注意や診療を受けるのが難しいため、結局は自分で何とかしなければならない現実がある
10年前なら、患者がGoogleで見つけた内容を持ってくると医師は不満を言っていたが、今では代替手段がないと思う
たとえば足と足首の問題で足の専門医にかかったが、足の問題はX線で診断した一方、足首の問題についてはX線に何も写っていないと言って肩をすくめただけだった
割り当てられた15分は終わり、原因も矯正方法もわからないまま帰された。大規模言語モデルに5分聞いてみたら、足の診断とも整合するもっともらしい足首の原因が得られた
医療企業がAIで患者ケアを改善するのではなく、1日に診る患者数を増やす方向を選ぶなら、状況はむしろ悪化しそうだ
「AIと人間の医師2人に同じ標準化電子カルテを読ませた」というのは、人間の医師の能力を制限する条件だ
人間の医師は患者を少し観察するだけでも、はるかに多くの情報を得られる
https://entropicthoughts.com/arithmetic-models-better-than-y...
AIが記録をレビューして診断候補を提案し、医師が患者を観察したうえでそれを検討するやり方がよい
また、ありふれた病気は実際にありふれている。これが結局、医師と大規模言語モデルの双方をどれだけバイアスさせるのかも気になる
鼻水と咳で来た人をインフルエンザと診断すれば、大半は当たる可能性が高い
医師や看護師は自分でタイプしなくていいので喜ぶが、かなり頻繁に起きる文字起こしミスを記録上できちんと確認しているかというと、完全にひどい状況だ
そして今度は欠陥のある文字起こし文をAI診断システムに入れることになる。AIはそれを福音のように受け取るだろうが、医師なら「ちょっと待て、これは何だ?」と立ち止まれる
自分と妻だけでなく、うちの犬たちの診断にも大規模言語モデルを使ってみた
AIベースの獣医療には大きな機会があると確信している。とくに、その後に地域の動物病院同士で診療や手術の価格入札までさせられれば理想的だ
地域の動物病院の価格は10倍以上違うこともある。80歳の母と義母は過大請求する獣医によくやられており、ペットが人生の大きな部分を占めるため、圧力にとても弱い
ここの否定的な反応が理解できない。コンピュータで30%程度にでも到達できるという事実自体が驚きだ
AIやOpenAIのようなフロンティア研究所、あるいはGoogle系に対する敵意が強すぎるし、筋が通っていない
私の考えでは要点は、AIは患者ケースのメモを受け取ったが、患者を直接見てはいなかったということだ
これは医師が訓練される方法と異なり、医師ができることを不必要に制限している。医師が提供する価値のかなりの部分は、患者と会話するところから生まれる
見出しはAIが医師を置き換えるかのように響くが、実際には「AIはこの狭い課題を医師よりうまくこなせる」に近い
使われたメモも、そもそも医師が書いた可能性が高い
本当の見返りは、医師+AIの組み合わせが医師単独より良くなることにある。医師が症例メモを読み、結論を出さなければならない場面では、今やAIのかなり良い提案を活用できる
賭け金が大きいほど、私たちはたいてい批判を弱めるのではなく強めるべきだ
懐疑主義は、行き過ぎてもなお非常に有用な道具だ
60歳の者として、自分でAI医療補助ツール[1]を作り、さまざまな症状に幅広く使ってきたが、非常に満足している
いくつかの検査結果を分析した後、医師が最初は考慮していなかった指標まで勧めてくれた
医師の代わりにはならないが、軽い症状の自己診断やセカンドオピニオンには非常に有用なツールだ
[1] https://mediconsulta.net (DeepSeek)
気になるのだが、その**33%**が50〜45%の部分集合なのか知りたい
部分集合でないなら、その誤りはどれほど深刻だったのか? 死亡が多かったのか? 回復時間が長かったのか? その差は実際に何につながったのか?
論文: https://www.science.org/doi/10.1126/science.adz4433 (2026年4月30日)
67%と55%の差はどれほど大きいのか? 研究は医師たちと同じ患者を対象にしたのか?
それぞれの状況を両者がどう評価し、なぜ異なる結論に至ったのかを並べて比較していないなら、科学的にどれほど有効なのかわからない
残り43%の中で、医師がAIには見えなかった死角を見つけられないと誰が保証できるのか
道具は代替のためではなく、努力を組み合わせるためのものだ
こういうパーセンテージを大衆に投げるのはかなり無責任だ