OpenAI o1、救急外来患者の67%を正確に診断　トリアージ担当医は50～55%

(theguardian.com)

1 ポイント投稿者 GN⁺ 2 시간 전 | 1件のコメント | WhatsAppで共有

Harvardの研究で、OpenAIのo1推論モデルは救急外来の初期トリアージ診断において人間の医師より高い精度を示し、LLMは臨床推論の大半のベンチマークを上回ったと評価された
Bostonの病院の救急外来を受診した76人の患者の標準電子カルテを読む実験で、o1は正確または非常に近い診断を67%で提示し、人間の医師2人は50～55%だった
より多くの詳細情報が与えられると、AIの精度は**82%**に上がり、専門医は70～79%だったが、この差は統計的に有意ではなかった
AIは抗菌薬治療や終末期ケア計画のような長期治療計画の課題でも医師46人を上回り、5つの臨床症例でAIのスコアは89%、既存資料を使った人間の医師は34%だった
研究ではテキストで伝達可能な患者データのみを比較しており、非言語的シグナルは検証していないため、実際の医師代替というより書類ベースのセカンドオピニオンに近いという限界がある

Harvard救急トリアージ実験の主要結果

Harvardの研究で、AIシステムは救急医療のトリアージ状況における診断精度で人間の医師より高い成績を示した
Scienceで公開された結果は、数百人の医師の回答とAIの回答を比較した実験から得られ、独立した専門家はAIの臨床推論における「真の進展」だと評価した
大規模言語モデル（LLM）は「臨床推論の大半のベンチマークを超えた」と評価された
AIの優位性は、情報が少なく迅速な判断が求められる救急外来の初期トリアージで特に際立った

76人の救急外来患者を対象とした診断実験

Bostonの病院の救急外来に到着した76人の患者を対象に、AIと人間の医師2人が同じ標準電子カルテを読んで診断した
電子カルテには通常、バイタルサイン、人口統計情報、患者が来院した理由を記した看護師の数文が含まれる
OpenAIのo1推論モデルは、正確または非常に近い診断を67%の症例で導き出し、人間の医師は50～55%の精度だった
さらに多くの詳細情報が提供されると、AIの診断精度は**82%**に上昇し、専門家の人間は70～79%だったが、この差は統計的に有意ではなかった

長期治療計画の実験

AIは、抗菌薬治療の提案や終末期プロセスの計画といった長期治療計画を立てる課題でも、より大きな人間の医師集団を上回った
AIと医師46人は5つの臨床症例研究を検討し、AIは既存資料を活用した人間の医師より有意に優れた計画を立てた
スコアはAIが89%、検索エンジンのような既存資料を使用した人間の医師が**34%**だった

研究の限界と医療現場での役割変化

今回の研究は、テキストで伝達可能な患者データだけを対象に人間とAIを比較した
患者の苦痛の程度や視覚的な外見のような非言語的シグナルをAIが読み取る能力は検証されていない
そのため、AIは実際の救急外来医を代替したというより、書類ベースでセカンドオピニオンを出す臨床医に近い役割を果たしている
Harvard Medical SchoolのAI研究所を率いるArjun Manraiは、この結果はAIが医師を代替することを意味するのではなく、医療を再編する「非常に深遠な技術変化」が進行中であることを意味すると述べた
研究が行われたBostonのBeth Israel Deaconess medical centreの医師Adam Rodmanは、AI LLMを「数十年で最も影響力のある技術」の1つと見ている
Rodmanは、今後10年間でAIは医師を置き換えるのではなく、医師・患者・AIシステムが共に関わる新しい三者診療モデルに加わると見ている

臨床症例とAIの推論

Harvard研究のある症例では、患者は肺血栓と悪化する症状を示していた
人間の医師は抗凝固薬が効いていないと判断したが、AIは患者のループスの既往が肺の炎症を引き起こす可能性を捉えた
AIの判断が正しいことが確認された

すでに広がりつつある医療AIの利用

先月公開された研究によると、米国の医師の約5人に1人はすでに診断支援にAIを使用している
英国では医師の**16%**がAIを毎日使用し、さらに15%が毎週使用している
Royal College of Physiciansの最近の調査によると、英国の医師の一般的な利用先の1つは臨床意思決定である
英国の医師が最も大きく懸念したのは、AIの誤りと責任リスクだった
AIヘルスケア企業には数十億ドルが投資されているが、AIの誤りの結果をめぐる疑問は残っている
Rodmanは、現時点では責任の所在に関する正式なフレームワークはないとし、患者は最終的に生死に関わる判断や難しい治療判断を人間に導いてほしいと望んでいると強調した

外部専門家の評価と注意点

University of Edinburgh医療情報学センター共同所長のEwen Harrison教授は、この研究は重要であり、この種のシステムはもはや医学試験に合格したり人工的なテスト症例を解いたりする段階にとどまっていないと評価した
Harrisonは、AIは特に、より広い範囲の可能な診断を検討し、重要なものを見落とさない必要があるとき、臨床医にとって有用なセカンドオピニオンツールのように見え始めていると考えている
University of Sheffield数理・物理科学部のWei Xing博士は、他の結果の一部は、医師が独立して考えるというよりAIの答えに無意識に従ってしまう可能性を示唆していると見ている
Xingは、AIが臨床環境でより日常的に使われるほど、この傾向はさらに強まる可能性があると述べた
Xingは、AIがどの患者で診断がうまくいかなかったのか、高齢患者や英語を母語としない患者でより苦戦したのかについての情報が不足していると指摘した
Xingは、この研究はAIが日常的な臨床利用に安全であることや、一般公開されているAIツールを医療助言の代替として使うべきことを証明するものではないと述べた

1件のコメント

GN⁺ 2 시간 전

Hacker Newsの意見

こういう研究はベンチマークを壊すのがあまりに簡単なので、信頼するにはかなり慎重にならざるを得ない
たとえば最近の論文では、AIがX線読影で放射線科医に勝ったことになっていたが、肝心のAIはX線画像にアクセスすらしていなかった: https://arxiv.org/pdf/2603.21687
既存の「汎用胸部X線理解のための大規模視覚質問応答ベンチマーク」を使っており、意図的に壊したわけでもなかった
しかもX線読影では人間の放射線科医は実際にX線を見る。ところがこの記事の文脈では、人間の医師は救急外来患者を診断するときにメモだけを見て判断するわけではない
必要でもなく、慣れてもおらず、訓練も受けていない課題をやらせておいて「AIのほうが上手い」と言っているようなもので、メモが妙な抜け道で答えを漏らしていなかったとしても驚きではない
この研究が確実に間違っているとか、意図的にごまかしているという意味ではないが、単一の研究だけで強い結論は出さない
- この特定の研究については同意するが、長期的に見て医師がAIモデルより優位に立ち続けるという考えはあまり理解できない
  結局のところ医学は知識、経験、知能、そしておそらくパターン認識の問題であり、こうしたものでは最高のAIモデル、とくに医療に特化したモデルが大半の人間、つまり医師を大きく上回るはずだ
  ソフトウェアエンジニアについてすでにそう仮定するなら、この分野にも当てはめるべきだし、現実としてここ数か月、医師にかかるたびに、救急外来を2回含めて、みんなChatGPTを使っていた。冗談ではなく衝撃だった
  だから純粋に知りたい。責任や倫理は脇に置いて、上位の医療AIが優秀な人間の医師の性能に、永続的に、あるいは少なくとも今後数十年は追いつけない、または追い越せないと信じさせる具体的な能力や能力の組み合わせとは何なのか？
- 興味深いことに、ChatGPT Healthを使った最近の研究ではかなり違う結果が出ている: https://www.nature.com/articles/s41591-026-04297-7
  こちらでは救急重症度分類を半分ほど間違えていた
- 記事を最後まで読むと、医師と大規模言語モデルの両方に症例の完全な記録を読ませた場合、統計的有意差の基準では差が消えていた
  見出しの数字は、看護師のメモだけを見て推定診断を行った結果を引用している。私の推測では、選別された症例研究では大規模言語モデルのほうが医師よりもためらいなく推測した可能性が高い
- 医師は人間の認知バイアスのせいで見落とすことがあり、人は自分が最も慣れたパターンに固着しやすいので、もっともらしい話ではある
- リンクされた論文はまだ全部読んでいないが、X線へのアクセスを与えなかったときの結果が幻想や見かけ倒しだという仮定は興味深い
  とても妥当な結論に思えるが、別の可能性を飛ばしている。X線が結果をむしろ不正確にしているのではないか？
記事も論文もかなり誇張されているように見えて驚いた。これは大規模言語モデルに大きく有利になるよう設計された形で医師と競わせており、臨床診療を代表していない
こうした推論ケースは医師向けベンチマークではなく学習ツールだ
診断はまず患者を正確に記述することに依存し、集める情報は鑑別診断によって変わる
医師の能力のひとつは、複数の情報源から情報を集め、重要なものを選り分けることだ。患者がうまく話せなかったり、非言語的だったり、介護者や家族から聞き取る必要があることもある
問診そのものが技能であり、身体診察も同様だが、ここではそのデータがすでに与えられている
とくにo1の学習データに含まれていた可能性のある質問で、平文のパターン認識だけを見れば医師を上回るのはまったく驚きではないが、臨床的に有用な比較には思えない
どんな検査をするか、画像を撮るか、病歴から不要な情報を切り捨てるかを決めるのも別の能力であり、診断形成と切り離しにくい
- 誤診例の分析も見るべきだ。人間の医師の目標は最高の正確度を取ることではなく、患者に及ぶ総合的な害を減らすことだ
  場合によっては確率的にはXを選ぶのが有利でも差が小さいことがあり、より安全な選択は別の可能性を先に除外したり、複数の可能性をカバーする安全な治療を始めたりすることかもしれない
  この評価で単に「高得点」を取ることが、必ずしも良い医療行為とは限らない
この研究をそこまで重視はしないが、それでも多くの人が自己診断で大規模言語モデルが役に立つことは認められると思う
アメリカでは医師の注意や診療を受けるのが難しいため、結局は自分で何とかしなければならない現実がある
10年前なら、患者がGoogleで見つけた内容を持ってくると医師は不満を言っていたが、今では代替手段がないと思う
たとえば足と足首の問題で足の専門医にかかったが、足の問題はX線で診断した一方、足首の問題についてはX線に何も写っていないと言って肩をすくめただけだった
割り当てられた15分は終わり、原因も矯正方法もわからないまま帰された。大規模言語モデルに5分聞いてみたら、足の診断とも整合するもっともらしい足首の原因が得られた
- 大規模言語モデルを医療に使うことが、アメリカ医療の問題に対する適切な解決策だとは思わない
  医療企業がAIで患者ケアを改善するのではなく、1日に診る患者数を増やす方向を選ぶなら、状況はむしろ悪化しそうだ
「AIと人間の医師2人に同じ標準化電子カルテを読ませた」というのは、人間の医師の能力を制限する条件だ
人間の医師は患者を少し観察するだけでも、はるかに多くの情報を得られる
- AIにも同じことが言えるのでは？
- 逆に、「臨床面談のように解釈が好き放題に開いてしまう資料にアクセスする専門家ほど危険なものは少ない」という言い方もある
  https://entropicthoughts.com/arithmetic-models-better-than-y...
- 同意する。この技術の最善の使い方は、両者の強みを組み合わせることだと思う
  AIが記録をレビューして診断候補を提案し、医師が患者を観察したうえでそれを検討するやり方がよい
  また、ありふれた病気は実際にありふれている。これが結局、医師と大規模言語モデルの双方をどれだけバイアスさせるのかも気になる
  鼻水と咳で来た人をインフルエンザと診断すれば、大半は当たる可能性が高い
- とても重要な観察に思える。加えて、AIが活用できるよう短い動画や写真も含めてみるのは面白そうだ
- ついでに言うと、医療ネットワークは今や医師に対し、電子カルテ入力にAI文字起こしソフトウェアを使うよう強く促している
  医師や看護師は自分でタイプしなくていいので喜ぶが、かなり頻繁に起きる文字起こしミスを記録上できちんと確認しているかというと、完全にひどい状況だ
  そして今度は欠陥のある文字起こし文をAI診断システムに入れることになる。AIはそれを福音のように受け取るだろうが、医師なら「ちょっと待て、これは何だ？」と立ち止まれる
自分と妻だけでなく、うちの犬たちの診断にも大規模言語モデルを使ってみた
AIベースの獣医療には大きな機会があると確信している。とくに、その後に地域の動物病院同士で診療や手術の価格入札までさせられれば理想的だ
地域の動物病院の価格は10倍以上違うこともある。80歳の母と義母は過大請求する獣医によくやられており、ペットが人生の大きな部分を占めるため、圧力にとても弱い
ここの否定的な反応が理解できない。コンピュータで30%程度にでも到達できるという事実自体が驚きだ
AIやOpenAIのようなフロンティア研究所、あるいはGoogle系に対する敵意が強すぎるし、筋が通っていない
- AIに否定的な空気が多いのは確かだ。だが、この研究にも現実的な限界がある
  私の考えでは要点は、AIは患者ケースのメモを受け取ったが、患者を直接見てはいなかったということだ
  これは医師が訓練される方法と異なり、医師ができることを不必要に制限している。医師が提供する価値のかなりの部分は、患者と会話するところから生まれる
  見出しはAIが医師を置き換えるかのように響くが、実際には「AIはこの狭い課題を医師よりうまくこなせる」に近い
  使われたメモも、そもそも医師が書いた可能性が高い
  本当の見返りは、医師+AIの組み合わせが医師単独より良くなることにある。医師が症例メモを読み、結論を出さなければならない場面では、今やAIのかなり良い提案を活用できる
- なぜ理解できないのかわからない。高評価の批判的コメントの多くは、たいてい理由をきちんと説明しているし、その理由もそれほど技術的ではない
  賭け金が大きいほど、私たちはたいてい批判を弱めるのではなく強めるべきだ
- Enronについても同じことが言われていた
  懐疑主義は、行き過ぎてもなお非常に有用な道具だ
- 医療界の知人たちが、カルテルに支えられた快適な高所得職から、私のようにAIに仕事を奪われるかもしれないという実存的恐怖を感じるようになるのは正直うれしい
60歳の者として、自分でAI医療補助ツール[1]を作り、さまざまな症状に幅広く使ってきたが、非常に満足している
いくつかの検査結果を分析した後、医師が最初は考慮していなかった指標まで勧めてくれた
医師の代わりにはならないが、軽い症状の自己診断やセカンドオピニオンには非常に有用なツールだ
[1] https://mediconsulta.net (DeepSeek)
気になるのだが、その**33%**が50〜45%の部分集合なのか知りたい
部分集合でないなら、その誤りはどれほど深刻だったのか？死亡が多かったのか？回復時間が長かったのか？その差は実際に何につながったのか？
論文: https://www.science.org/doi/10.1126/science.adz4433 (2026年4月30日)
67%と55%の差はどれほど大きいのか？研究は医師たちと同じ患者を対象にしたのか？
それぞれの状況を両者がどう評価し、なぜ異なる結論に至ったのかを並べて比較していないなら、科学的にどれほど有効なのかわからない
残り43%の中で、医師がAIには見えなかった死角を見つけられないと誰が保証できるのか
道具は代替のためではなく、努力を組み合わせるためのものだ
こういうパーセンテージを大衆に投げるのはかなり無責任だ

OpenAI o1、救急外来患者の67%を正確に診断 トリアージ担当医は50～55%

Harvard救急トリアージ実験の主要結果

76人の救急外来患者を対象とした診断実験

長期治療計画の実験

研究の限界と医療現場での役割変化

臨床症例とAIの推論

すでに広がりつつある医療AIの利用

外部専門家の評価と注意点

関連記事

1件のコメント

Hacker Newsの意見

OpenAI o1、救急外来患者の67%を正確に診断　トリアージ担当医は50～55%