研究:AIの医療クエリへの応答精度は約76%
ペンシルベニア州立大学の研究者らによる新たな研究では、AI搭載チャットボットが一般ユーザーの日常的な健康に関する質問に約76%の精度で回答していることが明らかになり、現実世界の対顧客アプリケーションにおける信頼性に疑問が生じています。産科・婦人科や耳鼻咽喉科ではAIのパフォーマンスが最も良く、内科、神経科、皮膚科では最も悪かったとされています。研究者らは、AIツールは患者よりも医師が使用する方が適していると示唆しています。
記事インテリジェンス
要点
- LLMの健康クエリへの応答精度は全体で76.2%だが、エラー率は20%超と人間の医師の約2倍。
- 産科・婦人科と耳鼻咽喉科でAIの性能が最も良く、内科、神経科、皮膚科で最も悪かった。
- Diagnose-a-thonコンテストで34名の参加者が4つのLLMに212件のプロンプトを提出し、9名の医師が評価。
- 医学教科書による追加トレーニングはAIの性能を大幅に向上させず、ベースモデルが医療専門家パネルに好まれた。
重要な理由
このニュースが重要なのは、LLMの健康クエリへの応答精度は全体で76.2%だが、エラー率は20%超と人間の医師の約2倍ためです。
技術的影響
モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。
ペンシルベニア州立大学の研究者らが主導した新しい研究によると、ChatGPTのような大規模言語モデル(LLM)は健康関連の質問に対して約76%の精度で回答しており、現実の顧客向けアプリケーションにおける信頼性に疑問が投げかけられています。研究チームは、一般ユーザーがAIを健康上の懸念にどのように利用しているか、またAIが日常的な医学的質問にどの程度正確に応答するかを理解しようとしました。その結果、特に神経科や皮膚科などの専門分野では、AIツールは患者ではなく訓練を受けた医師が使用する方が効果的である可能性が示されました。研究成果は2026年にカナダ・モントリオールで開催されるACM Fairness, Accountability and Transparency(FAccT)カンファレンスで発表される予定です。
AIの応答の正確性と潜在的な有害性を評価するため、研究者らはペンシルベニア州立大学で「Diagnose-a-thon」と呼ばれるAIコンテストを開催しました。34名の参加者(教職員、学部生、大学院生を含む)が、患者と医師の両方の視点から書かれた実際および架空の健康問題に関する212のプロンプトとAI生成応答を提出しました。参加者はChatGPT-4o、ChatGPT-3.5、Gemini-1.5 Pro、Llama3-8bの4つのLLMから自由に選択できました。研究の共著者で情報科学技術の博士候補者であるBonam Mingole氏は、このような参加型研究は一般市民が日常生活でAIをどのように使用しているかを理解するために重要だと述べています。
その後、9名の公認医師がAI生成応答の正確性と有害性を6段階(非常に低いから非常に高いまで)で評価しました。全体として、LLM応答の76.2%が正確な情報を提供しました。産科・婦人科および耳鼻咽喉科などの専門分野ではAIのパフォーマンスが最も良く、妥当性スコアが高く、有害性スコアが低かったのに対し、内科、神経科、皮膚科ではAIのパフォーマンスが最も悪く、妥当性スコアが低く、有害性スコアが高かったと報告されています。また、60~250文字の具体的なプロンプトがより正確なLLM出力をもたらすことも判明しました。
研究者らはさらに、各LLMのベースモデルを医学教科書、臨床ガイドライン、査読付き研究論文で追加トレーニングし、妥当性スコアの向上と有害性スコアの低減を試みました。7名の医療専門家と研修医からなるパネルがベースモデルと拡張モデルの応答を評価した結果、GeminiとLlamaのベースモデルの応答が好まれ、ChatGPTモデルでは有意な差は見られませんでした。
研究の共著者でペンシルベニア州立大学臨床・トランスレーショナルサイエンス研究所所長のJennifer Kraschnewski氏は、AIには医療を変革する大きな機会があるが、エラー率が依然として20%を超え、人間の医師の約2倍であることから、患者に害を及ぼす可能性があると警告します。彼女はAIが医師に取って代わることはないが、医師のスキルアップに役立つと述べています。共同研究者のS. Shyam Sundar氏は、人々が健康問題の診断にAIを使い続けることから、この研究はAIを医療アドバイスに使用する最良の方法と最悪の方法についてのリテラシーを高めるのに役立つと述べています。