オンタリオ州の監査担当者、医師向けAIノート作成ツールが基本的な事実を繰り返し誤ると指摘
(theregister.com)- オンタリオ州が医療提供者向けに承認したAI Scribeシステム20件で、重要情報の欠落、誤情報の挿入、発話されていない内容の生成が確認された
- 調達評価は模擬の医師・患者の録音とAI生成の診療メモを医療専門家が照合する方式で行われ、9件のシステムは治療計画の提案まで捏造した
- 12件のシステムは誤った薬剤情報を記載し、17件のシステムは録音に含まれていた患者のメンタルヘルスに関する重要な詳細を見落とした
- OntarioMDは医師にAIメモを手動で確認するよう勧告したが、承認済みシステムのうち正確性確認を必須にする機能を備えたものはなかった
- 評価配点では州内拠点の保有が30%を占めた一方、医療メモの正確性は4%、バイアス管理と脅威・リスク・プライバシー評価はそれぞれ2%にとどまった
監査報告書と評価方式
- CanadaのOffice of the Auditor General of Ontarioが公表した公共サービスにおけるAI利用状況に関する報告書には、Ontario Ministry of HealthのAI Scribeプログラムの評価が含まれている
- このプログラムは、医師、ナースプラクティショナー、その他の医療専門職を対象としたAIノート作成ツールの調達を扱う
- 調達プロセスでは模擬の医師・患者の録音を使用し、医療専門家が元の録音とAI生成の診療メモを照合して正確性を判断した
確認された誤り
- 20件のシステムのうち9件は、録音で扱われていない内容を捏造し、患者の治療計画の提案を生成した
- サンプル報告書には、「腫瘤は見つからなかった」あるいは「患者は不安を感じていた」といった潜在的に深刻な誤情報が含まれていたが、こうした内容は録音では議論されていなかった
- 20件のシステムのうち12件は、患者メモに誤った薬剤情報を記載した
- 20件のシステムのうち17件は、録音で扱われた患者のメンタルヘルス関連の重要な詳細を見落とした
- 6件のシステムは、患者のメンタルヘルス上の問題を全体または一部で省略したり、重要な詳細を欠落させたりした
手動確認と安全策
- 医師の新技術導入を支援し、AI Scribeの調達プロセスに関与したOntarioMDは、医師がAI作成メモの正確性を手動で確認するよう勧告している
- 監査報告書によると、承認されたAI Scribeシステムのうち、医師が正確性を確認したことを求める必須確認機能を備えたものは一つもなかった
評価配点の問題
- 低い性能のかなりの部分は、評価配点の問題と結びついている
- プラットフォーム評価点の30%はOntario州内の国内拠点の有無に割り当てられ、医療メモの正確性は総合点の4%しか占めなかった
- バイアス管理は総合評価点の2%、脅威・リスク・プライバシー評価は2%、SOC 2 Type 2準拠は4%を占めた
- こうした配点は、不正確または偏った医療記録を作成するおそれがあったり、機微な個人健康情報を保護するための十分な仕組みを備えていなかったりするベンダーを選定する結果につながり得る
Ontario州保健省の対応
- The RegisterはOntario Health Ministryに対し、この報告書への見解とAI Scribeプログラムの勧告に従う予定があるかを問い合わせたが、すぐには回答を得られなかった
- 保健省の報道担当者は水曜日、CBCに対して、Ontario州では5,000人を超える医師がAI Scribeプログラムに参加しており、この技術に関連する患者被害の報告は把握されていないと述べた
1件のコメント
Hacker Newsのコメント
現在のAI技術の将来については全体として悲観から楽観へと見方が変わったが、モデルが大きく進歩している最中でも、基本的な事実誤りが残り続けている点は依然として非常に気になる
Claude Opusで好みや風味に合わせてレシピを作ると魔法のように感じる一方で、大さじと小さじの変換のような基本的な単位計算を間違えた瞬間に一気に冷める
ほぼまともに振る舞っていた映画の登場人物がどこかおかしいと思ったらゾンビだった、というような感じで、このノート作成の事例も印象的なほどほぼ機能していながら重要な細部で失敗している
こうした失敗を見ると、現世代のAIはうまく管理すれば素晴らしいことができるとしても、本当の知能へ向かう正しい道筋の上にあるのかはますます疑わしくなる
AI業界は能力と信頼性が根本的に異なる性質だという事実をずっと曖昧にしているように見える。「正確だ」と「信頼できる」はしばしば同義のように使われるが、モデルがベンチマークをよく通過しても、実運用環境ではリスク要因になりうる
METRの最新結果も能力向上には大きく反応しているが、その測定が50%成功率基準である点はあまり語られていない。80%成功率基準の補助指標では、作業時間の範囲がはるかに短くなる: https://metr.org/
企業向けAIシステムを実装しているが、80%の信頼性どころか50%の信頼性を受け入れる企業を見たことがない
LLMが実質的に自分でプロンプトやコンテキストを設計できるように見えるのを見ると、永遠に人間の案内が必要というわけではなさそうだ
具体的な方法論がある単純な事実ベースの作業にはLLMは適切な道具ではなく、そのような作業を認識してより確定的に動作する道具へ渡せないのはハーネスの失敗だと思う
必要なときに「技能」を使うように、特定の作業は道具や特化した「頭脳」に渡すべきだ
最初の汎用人工知能は単一の頭脳ではなく、複数のLLM、ハーネス、技能、ドメイン・作業特化の下位システムが絡み合った複合システムになる可能性が高そうだ
オーストラリア式大さじは小さじ4杯/20mLで、アメリカ式は小さじ3杯/15mLなので、この誤りは現実世界の複雑さである程度説明できる
ただし3.14小さじや2小さじだと言うなら話は別だが
今ではほぼ解決されており、最近では現実と見分けがつきにくい動画まで生成している
だから、こうした微妙な誤りも今後減り続け、最終的にはほぼあらゆる作業で見つけにくくなるだろうと信じるようになった
着想は得られたが、とても基本的な内容すら誤って解釈していた。自分の使い方の問題かもしれないので断言はできない
職場で会議用のLLMノート作成ツールを使っているが、最近CIOが、ベンダーが約束して守らなかったと非常に怒っており、介入しなければならなかった
その「約束」があったという会議にCIOはおらず自分はいたが、実際には何も約束しておらず、議論はLLMの詳細要約よりはるかに微妙だった
議論が線形でないときにも外すのを見ている。たとえばSOCチームと最近のアラート/インシデント対応について行き来しながら話すと、要点は合っていても、正確性に依存すると本当に大きく外れる
病院で最初に看護師が行う来院記録のように、主訴、体重、身長、最近の変化の要約には向いているかもしれないが、医師との詳細で技術的な問答には信頼したくない
コンプライアンスの観点でも、病院は記録を書き換えるより録音文字起こしだけを使いたがるのではと思うが、よく分からない
その夜、母が折り返してきて少し話したあと、「それで……何かどうしても私に言わなきゃいけないことがあったの?」と慎重に尋ねてきて、私は完全に困惑した
聞いてみると、通話通知のLLM要約が、75%は特に意味のない人間関係上の緩衝表現である留守番電話を、堅くて過度に形式ばった業務的な文章に変えてしまい、何か不穏な雰囲気を作っていた
「話したい」「都合のよい時間を尋ねる」といった個々の表現に過剰な意味を与え、重要だが曖昧で時間も差し迫った何かを伝えようとする、回りくどいメッセージのように見せてしまった
その結果、母は少し心配し、ただの安否確認の最終結果がそうなったことに腹を立てていた。今や何にでも半熟のLLM要約をねじ込まなければならないらしい
要約記録は必ずすぐ確認し、問題があればできるだけ早く医師に連絡すべきだ
普通は医師が直接修正できるし、全員がまだそのことを覚えているうちにやるのが一番よい
特に長い文字起こしを継続的に参照するなら、人が必要だと感じる箇所に並べて要約を手動で付ければよい
こうしたやり取りには、たいてい大まかに捨ててよいノイズ情報は多くなく、細部がかなり重要だというのが私の経験だ
良すぎる面というのは、多くの商業環境で継続的な録音文字起こしが禁止されていることだ。特定の詳細が容易にディスカバリー対象となる記録として残り、事業リスクになるからだ
議事録や要約なら、センシティブな議論を外したり、具体性なしに合意だけを示したりできるし、「戦略的曖昧さ」を持つ解釈防御も生まれる
十分によくない面というのは、音声認識も依然として確率的だという点だ。実際の評価出力には選ばれた単語と同じくらい代替の単語・句のデータが含まれていることがあり、発言していない単語を表現したり別の印象を作ったりする余地が大きい
人々が音声認識文字起こしを権威ある記録のように考えているという事実が、この問題をさらに悪化させる
その上に要約のような生成的推論を載せると、両方の問題がさらに大きくなる。法務助言の立場からは、特定の検索可能な用語が少なく、責任と具体性が曖昧になる要約のほうが受け入れやすいかもしれない
最近実際に経験した。ランナー膝と診断されたのに、AI要約には骨粗しょう症の診断、股関節痛、歩行困難があると書かれており、そんな話はまったく出てもいないし示唆もされていなかった
文字起こしは必ず確認すべきだ。特にLLMの転記ツールは、実際にはない一般的な症状を入れたり、いくつかの細部には合っていても他の部分には合わない一般的な診断を主張したりすることがかなり多い
間違った記録はその後の診療や費用に強く影響しうるので、必ず修正しなければならない
単純で一般的ないくつかを除けば、私が受け取った「AI」要約の約50%はどこかが間違っていた。たいていは存在しない症状をあると言い、今回のようにより深刻な捏造も時々ある
LLMは一般的な音声テキスト化ソフトウェアではなく、そのように扱ってはならない。実際には存在しなかった文全体を挿入することがあり、医療記録では絶対に許されない
会議に出席できなかった別の人がその要約を後で読み、大きな論争になったのだが、その話題は社内で進行中の論争のためその人にとって敏感な案件だった
出席者全員が誤りだと確認したが、タイミングが偶然重なってしまい、その人には受け入れがたかった。LLM要約が、以前一部の出席者が矮小化していた懸念を裏づけるような形で内容を提示したからだ
結局、管理層が独立した検証なしに生成出力を信頼してはならないという方針を作るほど事態は大きくなり、少なくとも教訓は得たようだ
とはいえ、人間はどれほど正確なのか? 過去5年分の医療記録の出力を受け取ったが、本のように分厚かった
人がそれを全部読んで意味のあることをするのは難しいと思う
AIツールにざっと見させれば、確かに間違えたり根拠のない結論に飛ぶことはあるが、素早く確認しておかしい部分に反論し、その後正しい答えへ向かう速度は、看護師や医師とのどんな面談よりも速いかもしれない
完璧でない点だけを指摘するより、こうしたツールをどう使い、変だったり間違っていたりする部分にどう反論するかに集中したほうが、より多くのことができる
職場で使っているAIノート作成ツールは会議も録音し、各メモごとに録音内の該当位置へ直接飛べるタイムスタンプリンクを付けていて、自分で確認できるようになっている
HIPAA環境ではこうした解決策はもっと複雑だろうが、医療のような重要分野ではこうした方式が不可欠だ
信頼、信頼性、コンプライアンスなどにとって中核的な要素だ
ソフトウェアシステムがこうしたLLM出力を含みながら、人間が評価・検証できるように出力の出所を示さないのであれば、よく言っても悪いユーザー体験であり、最悪の場合は危険だ
正確性を求めるなら結局全部聞かなければならない
誰かが会議全体の録音を聞きながらすべてのメモを確認する必要があり時間も人手もかかるか、出席者が記憶でメモを確認する必要があり誤りに弱いか、出席者が自分のメモと照合する必要がありAIノート作成ツールの意味が薄れるかだ
現実的には、正確性が重要なあらゆる文脈でAIの使用はどんな形でも受け入れられないが、それを認めさせるのは難しい
カナダ人として、AIが医師の時間を確保し医療システムの負担を軽くしてくれる可能性には期待しているが、これは怖い
まだそこまで到達していない。今後は医師向けのAI教育が必要になるかもしれない
すでに一部のコンドミニアムには、医療機関所有のiPadでオンライン診療を行う場所もあり、かかりつけ医の予約手続きの煩雑さを回避してくれる
イノベーションの方向性自体は正しいと思うが、時間が必要だ。時々AIはあまりに早く市場投入されすぎたと感じる
医師の時間を確保する例で言えば、患者の受診はたいてい散漫で、患者はいくつもの問題を一度に話し、医師は限られた時間と規制上の説明義務の中で診療に影響する内容を伝えなければならない
完璧な文字起こしがあっても全員が損をする構造であり、LLMは完璧にはなれず、単にオートコンプリートしているにすぎない
患者が受付AIとやり取りして、何時間にも及ぶ支離滅裂な話や不安発作の最中の発言を受け止め、保護者が確認した要求の要約と関連トリアージ情報を医師が確認できるようにする構図を思い描いている
その時点では、薬の入手しやすさや保険ポリシーのような有用な情報も、医師の確認を経て提示できるし、患者は時間的プレッシャーなしにシステム理解を整理し補完できる
会話の質を高めて医師が患者により集中できるようにし、患者の対話ニーズが治療を圧迫しないようにする方向だ。医療には様式やチェックリストの記入が多く、オートコンプリートがその実施方法に効率をもたらせると思う
トロントに住んでいるが、私の医師はAIノート作成ツールを使ってよいか必ず尋ね、私は許可している
診療が終わると医師はメモを見直して修正しており、コンピュータに私よりたくさん話しかけなければならないとよく不満を言う
良い医師なので幸いこうした事後確認をしているが、これは医師たちが望まなくても無理やり押し込まれているという印象を与える
最近は会議に参加する人は大きな声でこう言うべきだ: 「告知: この会議におけるAIの解釈による発言は正確でない可能性があります」
私はすべての会議でそうしている
リンクされた報告書はほとんど役に立たないように見える。エラー率やサンプルサイズについて何も述べておらず、20のシステムのうち9つが「情報を改変し患者の治療計画に提案した」という事象が、10回中10回なのか1000回中1回なのか分からない
システムのエラー率が高いと仮定しても、なぜ導入されるのかが気になる
テストは非常に簡単そうなので、ひどいものなら医師・病院・政府がだまされて買う理由はないように思える
正確性は実質的に評価の中核ではなく、Ontario は気にしていなかったということだ
Ontario Ministry of Health が、医師、ナースプラクティショナー、より広い保健分野の他の医療専門職向けに開始した AI Scribe プログラムを具体的に扱っているとのことだが、保健省がどのような品質のソフトウェアを押し進めようとしているのか気になる
おそらくSOCのような資格要件が大半なのだろう
承認ベンダー一覧はこのリンクのようだ: https://www.supplyontario.ca/vor/software/tender-20123-artif...