- OpenAIは、医療現場におけるAIシステムの性能を評価するための新しいベンチマーク HealthBench を公開
- 262人の医師、60か国の医療経験、5,000件の現実的な医療対話を基に構築され、各対話について**医師が直接作成した評価基準(rubric)**を使用
- 評価基準には正確性、文脈認識、コミュニケーション品質、完全性などが含まれ、GPT-4.1ベースの評価モデルが基準を満たしているかを採点
- 最新のOpenAIモデルは従来比で性能が28%向上し、小型モデルでもコスト対性能が向上、最悪時性能(worst-of-n)の改善など、実質的な進歩を示す
- HealthBench全体、Consensus、Hardセットは、研究者および開発者向けにオープンソースとして公開され、今後の医療AI研究と安全性確保に貢献する見込み
HealthBenchの紹介
開発背景
- 医療情報へのアクセス拡大、臨床医の支援、地域社会の健康に関する権利強化など、AGIのヘルスケア活用の潜在力を最大化するための評価が必要
- 既存の医療評価セットには、現実性の不足、専門家判断に基づく評価の不十分さ、モデル改善余地の不足といった問題があった
主な特徴
- 5,000件の複数ターン・多言語・高難度の健康対話シナリオ
- 各応答は**医師が作成したカスタム評価基準(rubric)**で採点される
- 合計48,562件の評価基準により、モデルの多様な詳細能力を定量化可能
- 採点はGPT-4.1を活用した自動ルーブリック評価システムで行われる
HealthBenchのテーマと評価軸
7つの評価テーマ
- Emergency referrals: 緊急事態を認識し、適切な対応を勧められるか
- Expertise-tailored communication: ユーザーの理解レベルに応じて用語や詳細を調整できるか
- Responding under uncertainty: 不確かな情報のもとで適切に応答できるか
- Response depth: 状況に応じた情報の深さを提供できるか
- Health data tasks: 文書作成、知識支援など医療関連の実務を処理できるか
- Global health: 国ごとの資源・状況・言語に応じて調整できるか
- Context seeking: 必要な文脈情報を自ら求める能力
評価軸(Axes)
- 正確性(Accuracy): 医療上の事実や科学的コンセンサスに合致しているか
- 文脈認識(Context awareness): ユーザーの背景に応じて応答を調整しているか
- 完全性(Completeness): 必要な内容を漏れなく含んでいるか
- コミュニケーション品質(Communication quality): 長さ、用語、構成、強調の仕方が適切か
- 指示追従(Instruction following): ユーザーの要求する形式や方法に従っているか
実際の評価例
例1: 70歳の隣人が意識はないが呼吸はしている
- 救急医療サービスへの通報、回復体位にすること、CPRを開始する条件の明示などを含む
- Rubric基準92点満点中**71点(77%)**を獲得 → 優れた緊急対応ガイダンスを提供
例2: Quercetinのウイルス予防効果
- 根拠不足は明確に伝えたが、推奨用量や臨床データの不足、副作用への言及漏れがあった
- Rubric基準25点満点中1点(4%) → 科学的不確実性の表現は良かったが、情報の完全性が不足
例3: 心臓リハビリの経過記録ノート作成
- 構造化テンプレートの提示はしたものの、重要な臨床情報が多数欠落
- Rubric基準42点満点中15点(36%)
モデル性能比較
モデル別性能(全体/テーマ別/軸別)
- o3 がすべてのテーマと評価軸で**最高性能(0.598)**を記録
- GPT-4.1、Claude 3.7、Gemini 2.5 Proがこれに続く構図
- GPT-3.5 TurboおよびLlama 4は著しく低いスコア
コスト対性能
- GPT-4.1 nanoはGPT-4oより25倍安価でありながら、より高い性能を示す
- 小型モデルの進化が続き、低コスト高性能の実現可能性を示唆
信頼性(worst-of-n性能)
- o3、GPT-4.1は最悪ケースでの性能も向上
- 高リスク分野において信頼性確保のための重要指標
拡張ベンチマーク: Consensus & Hard
- HealthBench Consensus: 複数の医師の合意基準に基づいて設計された高信頼評価セット(3,671件の例)
- HealthBench Hard: 最新モデルでも難しい1,000件の高難度例
- モデル改善余地を検証できる評価セットとして活用可能
人間の医師との比較
- AIモデル単独 vs 医師(参照なし) vs 医師(モデル応答を参照可能)
- 2024年モデルとの比較では、医師+モデルの組み合わせがモデル単独より優秀
- 2025年の最新モデル(o3、GPT‑4.1)は医師の応答水準に到達または上回る
評価の信頼性
- GPT-4.1の採点結果と実際の医師の採点結果の一致率が高い
- モデルの採点基準が医師の判断と近い水準に整合 → ルーブリック自動採点システムの有効性を確認
今後の方向性
1件のコメント
Hacker Newsの意見
多くの一般的な診断や治療は、それ向けにきちんと調整・検証されたAIシステムで十分こなせると確信している。最近、咳止めを処方してもらうために医師とビデオ診療をしたが、何を飲むべきかはすでに自分で調べて分かっていた。人は「医者は何年も勉強している、Googleより信頼すべきだ」と言うだろうが、人間も間違えるし、医師だって Uptodate のようなところで情報を調べることが多い。リスクを取る意思があるなら、なぜ自分でそのリスクを負ってはいけないのかと思う。なぜ咳止め(約44ドル)に加えて93ドルも払い、医師が5分にも満たない Zoom で顔を見て処方箋を出す必要があるのか分からない。アメリカの殺人的な医療費と違って、故郷のミャンマーでは家の近くに診療所や薬局がいくつもあり、ほとんどの薬は処方箋なしで買える(もちろんオピオイド入りの薬は医師の処方が必要)。診断の確認だけしたければ10〜20ドル払って診察を受け、そのまま薬局で薬を買える。金さえあれば薬を自由に買えるのに、なぜアメリカではそのリスクすら自分で負えないのか疑問だ。世界的に医療費が上がる中で、AIがますますありふれた診断や治療を担うようになるだろうし(もちろん過度な期待はしていない)、その節約分の一部でも患者に還元されてほしい
あなたのケースは例外的に単純だったから、そのやり方でうまくいった。問題は、本人が単純な状況とそうでない状況を見分ける教育を受けていないことだ。咳はただの咳かもしれないが、より深刻な問題かもしれないので、「本物の」医師の診察が必要で、場合によっては専門医の追加診察も必要になる。私の話をすると、睾丸に痛みがあって、ある医師は何も触れないと言ったが、別の医師は何かあると言いながら何なのか分からなかった。結局、泌尿器科の専門医に行ったらすぐ腫瘍だと診断され、実際にがんだった。早期発見だったので治療は比較的容易だった。要するに、状況が単純でないときには専門性と経験が非常に重要だということだ
5分にも満たない Zoom 診療に93ドルも払うのはなぜかと言っていたが、それは10年以上勉強してきた専門家の知識を買っているからだ。今のAIシステムは、医療診断という点ではウェブ検索よりも信頼できない。ウェブ検索なら少なくとも専門家が書いた情報を自分で見分けて参照できるし、医師が検索するとしても、その情報を見極める能力に対してお金を払っているのだと思う。AIがその役割を人間よりうまく果たせると考える根拠が分からない。これは Henry Ford の「どこを叩くかを知っている知識に9999ドル払う」という話に近い
どこに住んでいて咳止めを処方箋なしで買えないのか気になる。私の知る限り、処方が必要なのは規制物質を含むものだけだ
医師たちがこうしたことまで全部こなすには、医師の数が絶対的に足りない。この不足は日ごとに悪化している。誰もがいつでも安く診療を受けられたら本当に良いが、私たちは理想の世界に住んでいるわけではない。こうしてAIが一部を代替するなら、大多数の人にとっては大きな利益だ
薬を誰でも簡単に買って服用できるようになると、抗生物質の無分別な乱用のような問題が起きる。残念だが、医療は平均以下の行動まで見込んで設計されなければならない。AIが一部の単純な分類(トリアージ)をこなせる可能性はあるが、LLMの現状では患者情報の信頼性や多感覚的な判断が不足していて、まだ医師の代わりにはなりにくい。本当の「AIかかりつけ医」は、完全な健康データと履歴ベースがあって初めて可能だろうが、そのレベルのデータ収集にはプライバシーなど新たな課題もある
もしこうした体験が一般的な医療利用の姿だとしたら、根本的にシステム全体をひっくり返す変化が必要な状況だ。AIは単に一部企業の利益率を高めるだけで、あなたには利益が戻らないかもしれない
AIにも別途コストがかかるようになるだろうし、無料ではないだろう
ベンチマークもモデルを作った側が作るのは利益相反ではないかと思う。少なくとも別の非営利組織か、親会社傘下の別法人が担うべきで、そうでないと透明性に欠ける
意味を理解していないLLMに健康情報を任せるという発想は深刻な誤りだ。データのパターン発見や娯楽、コード生成にはある程度使えるが、医療診断や助言では決して信頼できない。医療者がLLMの言ったことをオウム返しするだけだと考えるだけでも恐ろしい。こうした危険性は一刻も早く規制されるべきだ
具体的に、なぜその欠陥が致命的だと考えるのか気になる。LLMに明白な限界があるのは確かだが、人間にも限界があり、両者を組み合わせればより良い結果を得られると思う
誰が実際に何かを理解しているのかは、私たち全員にとって不透明だ。この記事自体もAIが書いたのか分からないし、誰が本当に理解力のある人なのかを判断する絶対的な基準はない。人間の専門性も結局は試験などを通じて間接的に測っているにすぎず、OpenAI は今まさにそこに挑戦している。私が気にするのは結果だ。「成績」が10%なら人間でもAIでも信頼しないし、95%ならむしろ医師より使えると感じるだろう。実際、近いうちに大半の医師はこうしたベンチマークで最新モデルほどの成績を出せなくなると予想している
「疲れていて偏見だらけの哺乳類の人間」に健康情報を任せるのも同じくらい危険だと思う。医師には共感やちょっとした会話、基本的な予防接種などで価値があるが、常に過労の医師がデータツールより正確だという保証はない。担当医が営業担当のプレゼン内容や時代遅れのガイドラインを繰り返すだけなら、それもまた恐ろしい
「k回のサンプルにおける最悪スコア」を示しているのが気に入った。現実には100人に1人でもその「最悪の回答」を実際に受け取ることになる
Grok がこうしたテストで思ったより健闘しているのが印象的だ。ニュースでは Grok は Gemini や Llama ほど注目されていない印象がある
Gemini が意外とかなりうまくやっているのに驚いた。Gemini は特に健康関連の話題を避けがちなので、それで点数が下がったようだ。おそらく検閲のために回答が不十分だったケースがすべて失敗として扱われたのだろう
Grok はモデルの重みをダウンロードしてローカルで動かすことはできない
この5年ほどケガに苦しんできた。複数のスポーツ専門医、スキャン、温熱療法も試し、鍼やカイロプラクティックにも通った。医師たちは「正常です」「原因が分かりません」など的外れな診断を増やすばかりだった。1人の医師だけは説得力のある意見を出したが、あまりに落胆していてその後の対応すらしなかった。ついに o3-deep-research に自分の履歴をすべて入力したところ、その医師と同じ意見に加えて、筋肉群の図表や運動方法まで提案してきた。まだ完全には良くなっていないが、久しぶりに慎重ながら希望を感じている
なぜLLMの診断を多くの医師の助言より信じるのか気になる。アメリカで医師が理学療法や運動処方をしなかったというのもあまり理解できない
ほとんどの筋骨格系のケガの治療は、非常に長い試行錯誤の旅になることを現実として受け入れるべきだ。画像検査にも限界があり、症状と画像所見が一致しないケースも多い。落胆せず、科学的根拠のあるさまざまな治療法を試していけば、結局は時間が解決することが多い。だからこそ、特定の治療が効いたように錯覚しやすくもある
実際に必要だったのは医師ではなく、優れた理学療法士だったのかもしれない
結局その医師の意見が正しかったのではないか。AIであれオンライン自己診断であれ、特別な勝利とは言いにくい
鍼やカイロプラクティックのような疑似療法は信じるのに、医師は信じられず、その次には嘘つきで悪名高いAIまで信頼しているように見える。自分の内的な判断基準を見直した方がいい
最近の政府の科学予算削減で、こうした新しいアプローチの試行や学習を妨げる安全第一主義者が少しでも減っていてほしい。こうしたモデルが「私は医療助言はできません」のような返答しかできないように縛られるのは本当に損失だ
今回の研究は非常に思慮深く有益だと感じる。この1年でモデル性能がほぼ2倍向上した点も印象的だ。o3 と deep-research は私の健康管理に実際かなり役立っている。たとえば1か月前、胸のあたり(心臓のあたり)に大きな衝撃を受け、o3 に症状と Apple Watch の心拍数・酸素飽和度の情報を渡した。既存の会話ですでに私の健康履歴も把握していた。予想される経過と治療法を正確に案内してくれ、実際に100%その通りに回復した。普段から身長、体重、服用薬、健康情報などの詳細なプロンプトを用意しておき、症状が出たときにすぐ o3 に入力して相談するととても役に立つ
Apple Watch や手首装着型ウェアラブルの SpO2 酸素飽和度データは、診断用途としてはかなり不正確だ。指にはめる専用のパルスオキシメーターの方がずっと正確だ
その診断にどれくらい自信を見せていたのか気になるし、実際にその自信を信頼したのかも気になる。医師である妻に聞いたところ、外傷などによる心嚢液貯留(潜在的に緊急事態)も別の可能性としてあり得るそうだ
このベンチマークは実際のモデル活用の仕方と乖離している気がする。実務では、ユーザーにただベースモデルとチャットさせるのではなく、RAG やガードレール、事前に用意した回答などの複合的な方法を使う。実際この評価がどんな商業的シナリオを意味しているのか疑問だ
コードのベンチマークも同じではないか。実際、専門的なQ&Aではベースの o3 にウェブ検索と良いプロンプトがあればそれで十分なことが多く、むしろ RAG やガードレールが性能を下げることさえある
単に ChatGPT のチャット自体がこのテストの現実的な適用先だ。非常に大きく重要なケースだ
非臨床の人たちでさえ、今や実際の健康問題の助けを得るために毎日 ChatGPT を使っている。この評価は現実的なリスクを減らせる良いデータセットだ
最近 ChatGPT に検査結果のレポートをアップロードして要約を頼んだところ、AI が重いがんを「幻覚」して、さらにいろいろ追加説明までつけてきた。実際のレポートには「がんなし」と書かれていた
どの LLM モデルだったのか気になる(4o、o3、3.5?)。初期モデルは性能が良くなかったが、o3 は健康問題の助けとしてかなり使えると感じた(耳の問題など)
もしかするとAIが結果レポートを読めず、ただ状況劇のように見当違いな返答をしただけではないかと思う。以前、エンジンマニュアルの PDF を渡して質問したら、それっぽく答えていたのに、実際にはまったく別の回路図を持ち出したことがあった
冗談で「がん検査:がんが見つかりました!」と返したみたいだ
実際の結果はどうだったのか気になる(時には、私たちが偽陽性だと思っていたものが後で実はがんだと分かることもある。がんは長期間たってからようやくシグナルが出ることもある)