2026-05-13 23:00 UTC+9サイト内リライト4 分で読了更新: 2026-06-27 09:25 UTC+9

AIチャットボットは医師のように推論できるか？

Science誌に発表された新しい研究では、OpenAIの大規模言語モデルが臨床推論タスクで医師を上回ったが、信頼性、評価基準、責任ある使用への道筋をめぐる議論も引き起こしている。

ソースIEEE Spectrum AI著者: Greg Uyeno

記事インテリジェンス

エンジニア中級

要点

OpenAIのo1-previewモデルが、実際の救急記録を用いた複数の臨床推論タスクで医師を上回った。
チャットボットの信頼性はまちまちで、印象的な診断性能を示す一方、捏造された引用や誤ったアドバイスも見られる。
標準化された評価方法の欠如により、研究間で結果が矛盾している。
研究者らは「AI対人間」から人間とAIの協働へと焦点を移し、責任ある革新を求めている。

重要な理由

このニュースが重要なのは、OpenAIのo1-previewモデルが、実際の救急記録を用いた複数の臨床推論タスクで医師を上回ったためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

このパネルは AI が生成し、正確性を確認済みです。

コンピューティングの医学における初期の目標の1つは、診断に至り治療計画を立てるために必要な意思決定ステップである臨床推論を支援することでした。長年にわたり、研究者は多くの臨床意思決定支援システムを構築してきましたが、これらは通常、症状、検査閾値、薬剤相互作用に関する綿密に書かれたルールを用いた専用設計でした。人工知能の能力が発展するにつれ、臨床推論は自然な応用分野となっています。

今、4月30日にScience誌に発表された研究によると、OpenAIの大規模言語モデルが、実際の救急記録を用いた複数の臨床推論タスクで医師を上回りました。

この新たな発見は、チャットボットからの医療情報に関する懸念すべき証拠が相次ぐ中で現れました。ある研究では印象的な診断性能が示される一方、別の研究では捏造された引用、欠陥のあるアドバイス、研究者の評価方法によって結果が変動することが報告されています。その不確実性にもかかわらず、医療専門家向けの製品はすでに市場に投入されています。例えば、今年OpenAIはChatGPT for CliniciansとChatGPT for Healthcareを発表しました。

OpenAIのo1-previewは、その後新しいモデルに取って代わられた汎用モデルですが、その性能は有望で、著者らは実際の症例でのLLMのさらなるテストを推奨するに足るものでした。具体的には、医師が特定のチェックポイントで診断のセカンドオピニオンを求める形です。

ニューヨークのIcahn School of Medicineで医用画像のAIを研究するMickael Tordjmanは、実世界の応用に焦点を当てた研究の時期が来ていることに同意します。「前向き臨床試験でのさらなる証拠が必要です」と述べ、新しいLLMモデルや医療用に特化して訓練されたモデルはさらに優れた性能を発揮する可能性があると指摘します。

Science論文の著者らは記者会見でAIの医療的可能性に楽観的な見方を示す一方、LLMの重要な限界を強調し、自分たちの研究が誤解される可能性について懸念を表明しました。「私たちの結果がAIが医師に取って代わることを意味するとは思いません」と、ハーバード・メディカル・スクールでAIを研究する共著者のArjun Manraiは述べています。

「これは本当にクールだと思いますが、誤解しないでください」と、ボストンのBeth Israel Deaconess Medical Centerの医学教育者で共著者のAdam Rodmanは言います。「これらの結果がどのように使われるかについて、少し不安を感じています。」

チャットボットの医療問題における信頼性は？他のチャットボットの医療アドバイスを調査している研究者も、最近その信頼性に疑問を抱く理由を見つけています。例えば、ある研究では、5つの人気チャットボットが自由回答形式の健康質問に与えた回答のほぼ半数に欠陥がありました。チャットボットは情報や引用を捏造し、正確性に関係なく自信満々に回答を提示しました。

「これらのモデルは毎日使われています。定量化も軽減もされていない一定のリスクがあります」と、Science論文の著者とは別のハーバードのグループで医療現場のAIを研究するArya Raoは述べています。

研究の多くは、一般ユーザーからの健康質問——人が医療機関を受診する前に尋ねるような質問——にチャットボットが答えることに焦点を当てています。LLMを医師向けの臨床意思決定支援ツールとして使うのはまったく別のタスクです。医師は、LLMが正確な診断を下したり治療計画を立てたりするのにどのような情報が役立つか、また明らかな間違いを特定するための背景知識をはるかに良く理解しているはずです。

しかし、幻覚（ハルシネーション）を検出することは医師にとっても依然として難しい場合があります。「モデルは正しいときも間違っているときも同様に説得力があります」とRodmanは言います。「エラー率の低いワークフローを見つける必要があります。」

医師向けの臨床推論タスクに焦点を当てた研究でさえ、成功の定義の仕方によって大きく異なる結論に達する可能性があります。4月13日にJAMA Networkに発表された論文で、Raoと同僚はScience論文と同様の臨床推論タスクで21のLLMをテストしました。Science論文と同様、多くのモデルが最終診断で良好な成績を収め、o1シリーズのチャットボットも含まれていました。しかし、Raoは別の評価システムを使用したため、鑑別診断の問題ではLLMの評価を低くしました。

医師が鑑別診断を行う際、患者の症状のすべての可能性のある原因を挙げます。LLMが7つの可能性のある最終診断のうち6つを正しく挙げるかもしれません。これは合理的に86%と評価されることもあれば、Raoのシステムのように許容できない失敗と評価されることもあります。

合意された標準的な評価システムはありません。「これはまだ進行中です」とTordjmanは言います。「臨床推論におけるLLMを評価する完璧な方法はありません。」

現実世界での医療AIのテスト Science研究では、研究者はOpenAIモデルを、難しい自由回答形式の医学試験問題に匹敵する複数の医学ケーススタディでテストしました。チャットボットへの指示は時には長く、診断のための無関係または重要な手がかりとなる詳細が詰まっていました。

「私たちはさらに一歩進んで、このパフォーマンスが現実世界でも機能することを示しました」とRodmanは言います。研究の一部では、76件の実際の救急外来受診のデータを使用しました。研究者は、救急到着時、医師の評価後、病院の別の部門への転送後という複数のケア段階でLLMと医師に診断を求めました。情報が増えるにつれてコンピュータも人間も精度が向上しましたが、LLMは一貫して人間をわずかに上回りました。例えば、最終チェックポイントでは、LLMは82%の確率で「完全または非常に近い診断」を提供したのに対し、2人の医師はそれぞれ79%と70%でした。

私たちが知っているLLMはまだ10年も経っておらず、状況は急速に進化しています。主力LLMの更新版は、医学研究や学術文献の典型的なペースよりも速いペースで登場しており、規制と責任に関する多くの疑問が未解決のままです。多くの患者と医師がすでにこれらの機械に相談している中、研究者はIEEE Spectrumに対し、その利点、リスク、そして最善の使用方法を理解する緊急の必要性があると語りました。

AIの性能を人間の医師と比較することが研究にとって重要であった一方で、Manraiはより重要なのは医師が実際にこの技術をどのように使うかだと言います。「私たちは『AI対人間』から、人間がこの技術とどのように相互作用するかへと急速に移行しなければなりません」とManraiは述べています。

多くの未解決の問題にもかかわらず、ハーバードのRaoは、技術の進歩があまりに速く、医学が無視することはできないと言います。「慎重であること、評価することが重要ですが、おそらく革新することの方がさらに重要です」と彼女は言います。「私たちはパレードに雨を降らせたくありません——責任ある革新が道だと考えています。」