2026-05-12站内改写

AIの健康回答の半数が誤っている、説得力があるように聞こえても――新研究

BMJ Openに掲載された新たな研究では、5つの人気AIチャットボット（ChatGPT、Gemini、Grok、Meta AI、DeepSeek）を50の健康質問でテストしたところ、回答の約20％が高度に問題あり、半数が問題あり、30％がやや問題ありと評価された。Grokが最悪の成績で、オープンエンドの質問は特にリスクが高かった。研究は、AIを医療の権威として扱わず、情報を検証する必要性を強調している。

記事インテリジェンス

エンジニア上級

要点

研究ではChatGPT、Gemini、Grok、Meta AI、DeepSeekの5つのボットに各50の健康質問を実施。
回答の約20％が高度に問題あり、半数が問題あり、30％がやや問題ありと評価された。
オープンエンドの質問では32％が高度に問題ありと判定され、クローズドな質問の7％を大きく上回った。
完全に正確な参考文献リストを生成できたボットはなく、参考文献の完全性の中央値は40％だった。

重要な理由

このニュースが重要なのは、研究ではChatGPT、Gemini、Grok、Meta AI、DeepSeekの5つのボットに各50の健康質問を実施ためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

AIチャットボットが提供する健康情報は、説得力があるように聞こえても実際には誤りを含むことが多い――。ドイツ・テュービンゲン大学の研究者らが率いる研究チームが、5つの主要なAIチャットボットを対象に実施した系統的なストレステストの結果が、BMJ Openに掲載された。

研究では、ChatGPT、Gemini、Grok、Meta AI、DeepSeekの各ボットに、がん、ワクチン、幹細胞、栄養、運動パフォーマンスに関する50の医療・健康質問を投げかけ、2人の専門家がそれぞれの回答を独立して評価した。結果は深刻で、ほぼ完全に正確な回答はごくわずかだった。回答の約20％が「高度に問題あり」（誤った主張や根拠のない記述を含む）と評価され、半数が「問題あり」、30％が「やや問題あり」とされた。どのボットも正確な参考文献リストを一貫して生成できず、250の質問のうちわずか2問だけが完全に回答を拒否された。

ボット間で成績に差はあったが、全体的には似た傾向を示した。Grokが最も悪く、回答の58％が問題ありと判定され、次いでChatGPT（52％）、Meta AI（50％）となった。トピック別では、がんとワクチンに関する質問では比較的良好（それでも約4分の1が問題あり）だったが、栄養と運動パフォーマンスの分野では、矛盾した情報が多く厳密なエビデンスが乏しいため、成績が最も悪かった。

オープンエンドの質問（「どのサプリメントが全体的な健康に最適ですか？」など）では、高度に問題ありの割合が32％に上り、クローズドな質問の7％を大幅に上回った。これは現実の健康相談がほとんどオープンエンドであることを考えると重要な問題だ。

参考文献の問題も深刻だ。各ボットに10の科学的参考文献を求めたところ、完全性の中央値はわずか40％だった。25回の試行のうち、完全に正確な参考文献リストを生成できたボットは一つもなく、誤った著者名、リンク切れ、完全に捏造された論文など、さまざまな誤りが含まれていた。参考文献はあたかも証拠のように見えるため、一般読者がその内容を疑うことはほとんどない。

研究チームは、これらの発見がチャットボットの有用性を否定するものではないと強調する。複雑なトピックの要約、医師への質問準備、研究の出発点として役立つ可能性がある。しかし、AIを唯一の医療情報源として扱うべきではなく、健康情報は必ず検証し、参考文献は事実ではなく確認すべき提案として扱い、回答が自信過剰で免責事項がない場合には注意する必要がある。