可能性か確定か?臨床テキストにおける診断不確実性保持の評価ベンチマーク
大規模言語モデル(LLM)は臨床テキストタスクに使用されているが、診断不確実性の表現を正しく保持できていない。本研究は1,200の臨床文書と9,184の不確実性注釈からなるベンチマークを構築し、3つのLLMを評価。結果、元の不確実性手がかりを半分未満しか保持できず、隣接するレベルの微妙な区別に苦戦することが明らかになった。
近年、大規模言語モデル(LLM)は臨床テキストの要約や修正などのタスクに広く利用されています。しかし、これらのモデルが診断の不確実性を適切に保持しているかどうかは十分に研究されていません。「可能性肺炎」や「確定肺炎」といった不確実性表現は、利用可能なエビデンスの強さを伝え、フォローアップ検査や治療の判断に直接影響します。例えば、「可能性肺炎」は追加検査の必要性を示唆する一方、「確定肺炎」は直ちに治療を開始する根拠となります。これらの表現を変更すると、臨床的な意味が完全に変わってしまう可能性があります。
この問題を体系的に評価するため、研究者は1,200の臨床文書からなるベンチマークデータセットを構築し、5段階(確定、非常に可能性が高い、可能性がある、可能性が低い、除外)にわたって9,184の不確実性注釈を付けました。文書は多様な臨床シナリオから収集され、データの代表性が確保されています。各注釈は専門家によるレビューを受け、信頼性が保証されています。
研究チームは3つの主要なLLMを評価し、元の不確実性の手がかりをどの程度保持できるかをテストしました。実験では、LLMにテキスト要約や修正タスクを実行させ、出力と元のテキストの不確実性表現の一致度を比較しました。結果、LLMは元の不確実性の手がかりを半分未満しか保持できないことがわかりました。特に、隣接する不確実性レベル(例えば「可能性がある」と「非常に可能性が高い」)の微妙な違いを区別するのに苦戦していました。この失敗モードは、流暢さや一貫性といった標準的な評価指標では捉えられないものです。
この研究は、臨床テキスト処理におけるLLMの重要な失敗モードを明らかにし、臨床ワークフローでの安全な展開には不確実性保持に特別な注意が必要であることを強調しています。研究者は、このベンチマークが将来のモデル改善を促進し、自動生成された臨床テキストが臨床判断を誤らないようにすることを期待しています。この研究は、医療情報学、自然言語処理、人工知能の安全性の分野において重要な意味を持ちます。