2 ポイント 投稿者 GN⁺ 10 시간 전 | 1件のコメント | WhatsAppで共有
  • 右肩痛のMRI後、病院による Grade IIIの部分層断裂 という診断と迅速な治療計画に疑問が生じ、Opus 4.8で画像読影を再度試みた
  • 病院は肩甲下筋腱の「apical insertion」部位に 幅50%超の部分層断裂を認めたが、Opus 4.8は腱が保たれていると判断し、結論が大きく分かれた
  • GPT 5.5 Proは、病院の治療のうち 衝撃波治療Traumeel注射 の根拠を問題視し、それが診断自体を直接検討してみたいという動機を強めた
  • Opus 4.8はClaude Code環境で、約 266MBのDICOM MRIファイル 数百個を、パッケージのインストールとコード実行によって分析し、その後、人間の報告書とChatGPTでの会話も加えて仲裁分析を再度行った
  • 最終的な仲裁結果は「軽度の付着部腱症、明らかな部分層または全層断裂なし」に近かったが、医療専門家とAIのどちらを信じるべきかという不確実性は残っている

迅速に進んだMRI診断と治療

  • 数週間にわたって 右肩痛 があり、症状は改善しているように見えたが、整形外科医の意見を求めた
  • 医師はMRIを勧め、クリニックですぐに撮影できたため検査を受けた
  • MRI結果は、肩甲下筋腱の「apical insertion」部位に Grade III (>50%-width) partial-thickness tear があるという診断につながった
  • 病院はMRI直後の数分以内に治療を開始し、同じ治療を合計 3回繰り返す 計画も立てた
  • 治療の進み方があまりに早いと感じ、病院を出る際にMRI結果のコピーと、実施・提案された治療の一覧を求めた

GPT 5.5 Proが指摘した治療根拠の問題

  • MRI結果と治療一覧を GPT 5.5 Pro に渡すと、2つの点がすぐに明らかになった
    • 病院は肩に 衝撃波治療 を実施したが、最近の臨床診療ガイドラインは、石灰化のない腱板腱障害に衝撃波治療を使用または推奨しないよう述べている
    • 超音波検査中には、石灰化はないと言われた
    • 病院は Traumeel を注射したが、これはドイツで「治療適応なし」として登録されているホメオパシー医薬品である
  • この結果により、病院の診断と治療に対する信頼はさらに低下し、MRIそのものを分析してみたくなった

Claude CodeでOpus 4.8によりMRIを分析

  • MRIパッケージは、拡張子のないファイル数百個で構成された標準的な DICOM export で、全体のサイズは約 266MB だった
  • 分析にはClaude Code内で Opus 4.8 (xhigh) を使用した
    • コード実行とパッケージインストールが可能なため、Claude Codeを選んだ
    • 分析に必要なパッケージは事前にインストールするよう指示した
  • 同じモデルを使っても、Claude CodeとClaude.aiのチャットでは差が非常に大きいと見ている
  • MRIの知識がなかったため、Claudeが先に詳細な計画を立ててから実行するよう設定した
  • 最初に提供した医学的文脈は「右肩痛が2〜3週間」だけで、後から考えると、人間の医師が受け取った情報より少なかったと判断した

最初の分析で分かれた断裂の有無

  • 1時間 後、Opus 4.8が報告書を返した
  • 病院の読影とOpus 4.8の読影は、ほぼ正反対だった
    • 病院は肩甲下筋腱のapical insertion部位に Grade IIIの部分層断裂 を認めた
    • Opus 4.8は当該腱を intact tendon と判断した
  • 予想していた違いは断裂グレードが低めに出る程度だったが、実際には断裂の有無そのものが異なっていた

人間の読影とAIの読影を再度仲裁

  • 2つの結果を調整するため、Opus 4.8に 比較分析 を再び任せた
  • 今回は人間のMRI報告書だけでなく、ChatGPT 5.5 Proとの会話もあわせて提供した
    • この会話には、診断を見極めるために試す動きや姿勢が含まれていた
  • Opusは複数の サブエージェント を使い、既存の文脈にあまり偏らない新たな分析を得る方法で取り組んだ
  • 再び約 1時間 後、新しい報告書が出た
  • 仲裁結論はReader A側の証拠が優勢という判断で、「moderate-to-high confidence」と整理された
    • 軽度の付着部腱症
      • apical insertionを含め、明らかな部分層または全層断裂はない
      • 2つの報告書間の一部の相違は解決できないとしたが、この項目については比較的明確な結論を出した

AIセカンドオピニオン後に残った選択

  • 信頼する専門家に任せるときの安心感はあるが、AIベースのセカンドオピニオン はその感覚を居心地悪く揺さぶり得る
  • AI分析の後では、既存の診断と治療計画は事実関係に比べて性急で介入が多いように見えたが、AI自体も完全には信頼しにくい
  • 残る選択肢は、別の医師を探すか、現在行っている リハビリ で肩が良くなるかを待つことだ
  • 数世代後には、メールの校正のようにMRIレビューもAIを信頼できるようになることを望んでいる
  • クリニックと医師の名前は明かさず、この経験は医療助言ではなく、AIでセカンドオピニオンを得てみる技術的好奇心に関する事例である

1件のコメント

 
Hacker Newsのコメント
  • 放射線科医だが、3D MRIデータセット全体を見ないことには判断が難しい。超音波は石灰化を評価するのに適した方法ではなく、大きな石灰化は見つけられるが、小さなものは簡単に見落とされることがある
    単純X線のほうが役に立つし、MRIでも見えていた可能性がある。いずれにせよ、石灰化がない場合に衝撃波治療が有害というわけではなく、単に役に立たないだけだ
    画像診断レポートで「ない」と書く場合、常に「その撮影方法と取得された画像範囲の中ではない」という但し書きが暗黙についている。だから超音波レポートには石灰化なしとあり、単純X線レポートには石灰化ありとあっても矛盾ではない
    患者や医学用語に慣れていない人にとっては当然混乱するが、レポートにそれを全部書き出すと、今よりさらに条件付き表現が多く、読むのがうんざりする文書になるだろう

    • これはかなり好意的な言い方だと思う。これが理解できないなら、あらゆる診断機器が無限の解像度を持ち、常に正しいと仮定しない限り混乱しないはずだ
      Babbageに「誤った質問を計算機に入れたら正しい答えが出るのか」と尋ねたという逸話を思い出す。彼はおおよそ「そのような質問を思いつく心の論理を、私には到底推し量れない」と答えた
    • 放射線技師の立場からは「その通りです、先生!」と言いたい。患者が自分の状況を理解したり、基本的な血液検査の数値を把握したりする助けになるAI活用は見たことがあるが、人に過度に調子を合わせ、元投稿のように医学的なラビットホールへ引きずり込む用途には本当に向いていない
      AIなら、カルシウムは超音波よりX線/CTのほうがよく見える、という程度は指摘すべきだと思う
    • 同意する。放射線科医ではないが、MRI研究をかなりやっている。専門家と一般人では、最前線モデルから正しい診断を引き出す成功率が大きく異なる可能性があり、プロンプトの微妙な違いだけでも別の診断が出ることがある https://www.nature.com/articles/s41591-026-04501-8
    • ここに出てくる言葉を読んで調べてみたら、自分の右肩の症状にあまりにも似ているように見える。机の横に巨大なラビットホールが開いた感じだ
    • なぜ整形外科で診断用超音波をもっと使わないのか気になる。胎児の心臓や臓器は毎日見ているのに、肩はなぜだめなのか?ずっと安くて速いように思える
  • 興味のある人向けに、認定を受けた人間の放射線科医によるセカンドオピニオンサービスを提供している: https://expert.med

    • これの歯科版が必要だ
  • 核心は本当にこれだ。AIを信用できないことはわかっているが、同時にAIには説明をもっと求めたり反論したりするのがずっと楽だ。時間単位の予約もなく、時間あたりの費用もない点が大きい。だが情報が増えれば必ず役に立つわけではない
    15万マイル走った11年落ちのCivicを複数の整備工場に持ち込み、「セカンドオピニオン」ゲームをしたことがある。各整備工場の推奨を比較して、何をすべきか判断しようとした
    結果は互いにまったく関係のない3つの推奨で、そのうち1つは自分が確実に間違いだとわかる内容だった。始める前より気分が悪くなった
    不確かな情報への解決策は、AIが提供できるより多くの情報ではなく、より良い情報なのだが、現在のAIはそれを提供できていない

    • 複数のLLMサブスクリプションとローカルモデルを同時に使っている。自分の専門外の質問をするときは、アクセスできるすべてのLLMに聞き、別セッションを作って同じ質問を複数の言い方で投げる
      互いに異なり矛盾する答えがどれほど多く出るかを見ると、かなり明らかになる。ほとんどは自信たっぷりに提示される
      最後にClaudeに医療の質問を入れたときは、セッション間でも一貫した答えを得られなかった
      もっと怖いのは、各LLMを自分が念頭に置いている答えへどれほど簡単に誘導できるかだ。別のLLMが提示した選択肢について質問し始めると、各セッションがその説明の方向へ流れていった
    • パズルミステリーには大きな違いがある。パズルは目標状態がわかっており、ピース、つまりデータが増えるほど目標に近づく。目標までどれくらい残っているかもわかる
      ミステリーはもっと厄介だ。データのピースが1つ増えるたびに目標が遠のく。すべてがますます混乱していく
      Malcolm Gladwellが広めた区別だ
    • AIは現時点でもより良い情報を提供できるとは思う。ただし信頼できる形ではできず、非専門家にはその違いを見分けられないので、より危険になる
    • ChatGPTが、私たちがどれほど正しく賢いかをなだめるあのやわらかな声だなんて……どうして幻覚など起こせるだろうか、5.5なら特にありえないだろうに
    • 車について、たった3つの意見しかもらわなかったのか?なぜ50個もらわなかった?より多くの情報を集めれば、もっと有用なシグナルを見つけられたかもしれない
      整備士から意見をもらうのは時間がかかるのはわかる。だがAIはそうではない
  • 数年前、AIブームの前のことだが、結核の誤診を受けたことがある。慢性的な咳があり、あるクリニックの外部委託の放射線科医が結核の兆候を見つけた。その結果は法律に従って市の結核病院に送られ、そこの医師たちは放射線科の結論をそのまま受け入れ、少なくとも8カ月間、刑務所のような厳格な体制の病院に入っていろと言った。
    拒否する方法もなかった。ある種の生物学的危険物とみなされ、法的に従わなければならなかった。
    入院前に急いで別の放射線科医を探したところ、その医師は肺炎だと診断した。その報告書を結核病院の主治医に送ると、検討の末、最初の読影は誤りだったという結論になった。分かったのは、そこの医師たちは画像をまったく読めず、放射線科医の言うことをそのまま信じる仕組みだったということだ。
    おかしいのは、すでに私を公式の結核登録簿に載せてしまっていて、ミスを認めたがらなかった点だ。代わりに「その病院で7日で結核が完治した」という別の書類を発行してくれた。おそらく、その国で結核を1週間で克服した唯一の人間だろう。
    放射線科医や医師を信じにくいなら、費用的に可能なときは別の医師に診てもらうのがよい。結論を比較して一致するかを見られる。互いに無関係な2人の医師や放射線科医が同じことを言うなら、真実にかなり近い可能性がある。
    ただ、AIと人間のどちらをより信じるべきかはよく分からない。AIは幻覚を起こすが、私も人間に何度も誤診されたことがある。

    • どうしてそんなことがあり得るんだ? 画像だけで結核は診断できないし、結核病院ならそれを知っているはずだ。
    • 似たような経験をした。息子が肺炎になり、抗生物質を10日飲んでも痛みが続いた。X線写真を3人の医師に持っていったが、正しい診断である胸水を指摘したのは1人だけだった。
      各医師にそれぞれ勝手に見せるのではなく、最高レベルの専門家たちが画像を見る中央集約型の場所があるべきだと思う。
  • ここの人たちが人体を決定的関数のように、入力Xには出力Yが返るはずだと期待している様子は面白い。その期待が診断にも及び、同じ問題に対して複数の専門医から同じ診断が出ると思っている。
    人体の複雑さを考えれば、診断はキャリアの中で積み重ねた経験、知識、診断方法と機器が組み合わさった結果だ。「医師」のような肩書きは、国が「試験に合格したので診療しても安全」と認証したものだが、全員が同じように診療するという意味ではない。
    ある専門医は毎月知識をアップデートし、ある人は毎年行い、まったくしない人もいる。地域、政治、さらには天気まで、変数が多すぎる。
    だから専門医選びは本当に重要だ。その人の診療方針や専門分野に関する評判を調べるべきだ。正しい診断を受けられる確率を最大化できるだけで、誰かが医師と呼ばれているという理由だけで正しいと期待してはいけない。

    • 主にそういう関数を作る仕事をしている人たちで成り立つコミュニティなら、人体も決定的関数のように期待するのは予想できることだ。
    • 要点がよく分からない。医学には本質的に誤りがあるので、AI、特に複数の専門AIの束のほうがより良い診断を下す可能性が高い、という意味なのか?
  • 肩の痛みで、ほとんどすぐに手術を勧められた友人や家族をたくさん見てきた。手術を生業にしている人たちにとって、手術がデフォルトになることはよくある。
    私も一時期かなり肩が痛く、数カ月たっても痛みが引かなかった。手術はしたくなかったので、マッサージと鍼を試したが、まったく役に立たなかった。
    解決してくれたのは、懸垂に本気で集中したことだった。最初は1回もできなかったので、ぶら下がりと肩甲骨懸垂から始め、徐々に通常の懸垂へ移った。1セットで何回かできるようになってからは、「grease-the-groove」方式でトレーニングした。
    1セットで17回くらいできるようになった時点でトレーニングスケジュールはやめ、今は1日の中で分けて週3回、7〜8回を6セット行っている。肩の可動域運動もしている https://www.youtube.com/watch?v=vP8YmmRMz6I
    怠けてサボると決まって違和感が戻ってくるが、また筋力強化運動をすると消える。

    • 数年間、肩の問題があった。理学療法も試したし、引く/押す運動もしたが、そういう運動をすると痛みがひどくなった。肩を使う運動をしなければ「大丈夫」な状態だった。
    • 逆に、腱板の問題があったとき、外科医はメスを入れる前に数カ月の理学療法を勧めた。効果はあった。正しい肩の動きに集中してウエイトトレーニングを続けていると、痛みも戻ってこない。
      患者が手っ取り早い解決策を求めて行くと、そういう解決策を提案されるのだと思う。少し勉強したうえで自分にとって最良の解決策を探しに行けば、たいていはそれが得られる。
  • 約2年前、ChatGPTの「deep research」で、3年近く悩まされていた慢性副鼻腔炎について調べた。一般医3人と耳鼻咽喉科への3回の受診を経たあと、自分の観察内容をすべてAIに入れた。
    特に、耳鼻咽喉科医が私の副鼻腔を内視鏡で見てアレルギー反応の証拠を確認していたのに、その後のアレルギー検査のあとで、アレルギー薬では治療できないと結論づけた理由を説明できなかった。何度か尋ねたが、答えなかった。
    ChatGPTは、人の20%が身体の特定部位に限局したアレルギー反応を示し、肩での皮膚プリックテストでは検出されないことがあるというNIHの研究を見つけた。彼に聞いてみると、「アレルギーはそういうふうには働かない」と言うだけだった。そこで終わりだった。その研究を見てみようともしなかった。
    彼はCPAPと定期的なネブライザー治療を処方した。余談だが、CPAP業者からSMSが届いたものの、フィッシングではないか判別できず、誰なのか問い合わせても返事はなかった。
    そこで、単に第2世代のアレルギー薬を毎日飲んでみることにした。
    副鼻腔炎は消えた。以前は少なくとも四半期に一度はひどい副鼻腔炎になっていた。あの医師の言うように、アレルギーはそういうふうには働かないのかもしれないが、アレルギー薬は私の問題を完全に解決した。
    ありがたいことだ。数年前にCPAPを1か月きちんと使ってみたが、どうしても慣れず、睡眠もめちゃくちゃだったからだ。

    • ここには解きほぐすべきことがたくさんあり、最初から不利な状況だった。まず、ある検査がXだと言った場合、Xを否定するのは本当に難しい。これは医療界だけの問題ではなく、人間全般の問題だ。私たちは決定を見直したり修正したりするのが苦手で、それを覆す可能性を検討するのはさらに苦手だ。
      次は責任と時間だ。特に医療のように利害の大きい分野で、誰かに判断を再検討してほしいと言っても、その混乱を開く時間も意欲も誰にもない。
      本当にうまくやりたいなら、診断の輪が閉じる前、医師たちがまだあなたについての症例像を固める前に、研究で示された検査を提案すべきだ。そうして初めて、見るべきものを見てもらえる可能性が最も高くなる。
      何か仮説を持ってきたと率直に言うほうがいい。医師は自分たちが誘導されていることには非常に早く気づくが、患者が実際に正しかったことに気づくのはそれより遅い。過労の人たちが最善を尽くしているシステムでは、そう動く必要がある。
    • 毎日飲むアレルギー薬は、若年性アルツハイマー病のリスクが大きく増加することと関連している。効くものが見つかってよかったが、アレルゲン免疫療法の注射を受けてみるのもよいかもしれない。
  • 放射線科医として、ClaudeとChatGPTはMRI読影が本当にひどいと感じたし、まったく信用しない。テキストベースの資料を調べるときには強みがあるが、放射線画像はまだ十分うまく解釈できない。

    • AIは読影が弱い代わりに、画像を高画質化する方向で補っている。
      現在、SiemensのMRソフトウェアDeep Resolveは信号を生成し(約50%追加)、その次に2ピクセルに1つを生成し、3Dシーケンスでは2スライスに1つを生成する。各シーケンス時間を約59%短縮してくれ、本当に非常に優れている。
      私はMR技師だ。
    • 人々がChatGPTはチェスが本当に得意なはずだと期待するのに似ている。超人的な性能のチェスエンジンは何十年も前から存在しているのだから、数十億ドルをかけて学習した最新の最前線LLMなら当然簡単だろう、という見方だ。
      実際、ChatGPT 5.5のELOが気になる。吸収したコンテンツのおかげで、チェスの原理についての基本的な理解だけでも2000以上あっても、それほど驚かないと思う。
  • 否定的な反応が理解できない。現在の医療は、医師と患者の双方が頭を使ってこそ成り立つ。医師が診断を下してくれて、私はただ一日を続ける、というような問題はほとんどなかった。そういう場合があったときは、たいてい私自身が問題を確信していて、必要なものも分かっていた。医師は治療へのアクセスを阻む障壁だった。
    Dr. GPTは良いブレインストーミングツールだ。原資料だけでは難しい形で情報を統合してくれる。ただし、「これは筋が通らない」と言わせるように仕向ける必要もある。
    「医師たちは最新知識を知らない」という側は根拠が弱いと思う。事前学習中のトークン密度と事後学習データセットの構成方法を考えると、根本的な変化に適応するには非常に長い時間がかかるだろう。もし私たちが壊血病の治療法を忘れてしまったなら、新しい発見に適応するには論文が何本必要だろうか?

  • 画像についてはAIを信用しない。ただ一度、ChatGPTがMRIレポートのテキストだけを見て、そのレポートは大きく間違っている可能性が高いと言い、別の診断を提案したことがある。かなり強く主張するので別の医師を探し、再検査を受けた。結論だけ言うと、ChatGPTが正しかった
    繰り返すが、これは一人の単一の経験にすぎないので、大きな意味はない。

    • 逸話だが、医師が別の病気だと言った帯状疱疹患者の画像をGemini Proに入れたところ、正しい診断を下し、そのおかげで適切に治療して治った。
      医師たちが間違ったことを言う前に、なぜLLMにプロンプトを投げてみることすらしないのか理解できない。プライドのせいなのか?
      画像診断には特化した畳み込みニューラルネットワークが必要なので理解できるが、知識ベースに近い問題ならなおさらだ。
    • 視覚面のギャップのかなりの部分は、画像のどこに注目すべきかがあまり構造化されていないことにあると思う。逸話的には、小さなqwenのファインチューニングモデル、たとえば100億パラメータ未満のモデルでも、基盤モデルの30%未満の精度を90%まで引き上げる。こうしたモデルを成果ベースのバックオフィス業務向けに販売したことがある。
      実際の価値を提供する特化型VLMがたくさん出てくると思う。
    • 数日前、ChatGPT Enterpriseがカーネル7.0.2は6.69より古いと言っていた。
      こういうおもちゃはまったく信用できない。役に立たないという意味ではないが、信頼はできない。