2026-05-15 05:50 UTC+9サイト内リライト2 分で読了更新: 2026-06-27 09:25 UTC+9

衝撃的で危険：オンタリオ州監査当局が医師のAIメモ作成ツールに基本的な事実誤認が頻発と指摘

オンタリオ州監査総局が承認された20のAI診療記録システムを評価したところ、60%が処方薬を混同し、12システムが誤った薬剤情報を挿入し、9システムが録音にない情報を捏造していた。しかし評価基準では正確性の重みはわずか4%で、州内での事業拠点の有無が30%を占めていた。

ソースThe Register AI + ML

カナダ・オンタリオ州監査総局が公表した報告書によると、州政府が承認した医療用AIメモ作成システムに深刻な正確性の問題があることが判明した。評価対象となった20のベンダーシステムは、医師が患者の診療記録を自動生成するためのもので、模擬診療録音を用いて検証が行われた。医療専門家が録音とAI生成メモを比較した結果、12システム（60%）が患者記録に誤った薬剤情報を挿入し、9システム（45%）が録音にない治療計画や患者状態を捏造していた。例えば、しこりが見つかった、患者が不安であるなどの虚偽情報が含まれていた。さらに17システムは患者の精神的健康問題に関する重要な詳細を見落としていた。

報告書は評価基準の問題を強調している。総合スコアにおいて、ベンダーがオンタリオ州内に事業拠点を持つことが30%の重みを占める一方、医療記録の正確性はわずか4%であった。バイアス対策、脅威リスク評価、プライバシー保護は各2%、SOC 2 Type 2準拠は4%であった。つまり、正確性やセキュリティの重要指標がごくわずかな重みしか持たず、不適切なベンダー選定につながる可能性がある。

現在5,000人以上の医師がこのプログラムに参加しており、患者への直接的な害は報告されていないが、監査報告は評価プロセスの改善を強く勧告している。オンタリオ州保健省はコメントを控えているが、オンタリオ医師会はAIメモの手動確認を推奨している。しかし承認システムには必須確認機能はなく、今後の規制強化が求められている。

また、消費者向けAIが医療情報で誤りを犯す傾向があることは以前から指摘されており、大規模言語モデルは約80%のテストケースで適切な鑑別診断を提供できなかったという研究もある。今回評価されたのは消費者向けではなく医師向けの専門ツールであり、そのパフォーマンスの低さには説明が必要である。報告書は評価の重み付けに問題があるとし、正確性やバイアス対策、プライバシー保護に関する基準が軽視されていると批判している。このような不適切な評価は、不正確または偏った医療記録を生成する可能性のあるベンダーを選定するリスクをはらんでおり、患者の機密健康情報を適切に保護できない恐れがある。監査結果は、AIツールの信頼性と安全性を確保するために評価基準を抜本的に見直す必要があることを示している。