2026-06-18站内改写1 分鐘閱讀更新: 2026-06-18

可能還是確定？評估臨床文本中診斷不確定性保留的基準

大型語言模型（LLM）越來越多地用於臨床文本任務，但它們在保留診斷不確定性方面表現不佳。本研究構建了一個包含1,200份臨床文件和9,184個不確定性標註的基準，評估了三個LLM，發現它們保留原始不確定性線索的比例不到一半，且難以區分相鄰級別。

來源arXiv Computational Linguistics作者: Hongbo Du, Zixin Lu, Jiaming Qu

近年來，大型語言模型（LLM）在臨床文本處理中得到了廣泛應用，包括總結和修訂醫療記錄。然而，這些模型在保留診斷不確定性方面的表現尚未得到充分研究。診斷不確定性，如“可能肺炎”或“明確肺炎”，對於指導後續檢查和治療至關重要。即使是細微的變化也可能完全改變臨床含義。例如，“可能肺炎”暗示需要進一步檢查，而“明確肺炎”則可能直接啟動治療。如果LLM在改寫時錯誤地將“可能”改為“明確”，可能導致不必要的激進治療或遺漏必要的檢查。

為了系統評估這一問題，研究人員構建了一個包含1,200份臨床文件的基準資料集，其中包含9,184個不確定性標註，涵蓋五個級別：確定、很可能、可能、不太可能、排除。這些文件來自多種臨床場景，確保了資料的多樣性和代表性。每個標註都經過專家稽核，保證了標註的可靠性。

研究團隊評估了三種主流的LLM，測試其在保留原始不確定性線索方面的能力。實驗設計包括讓LLM執行文本總結和修訂任務，然後比較輸出與原始文本中不確定性表達的一致性。結果顯示，LLM保留原始不確定性線索的比例不到一半。它們經常改變不確定性的級別，尤其是在相鄰級別之間，例如將“可能”改為“很可能”或反之。這種錯誤模式在標準評估指標（如流暢性和連貫性）中並未被捕獲，因為這些指標只關注文本的表面質量，而忽略了臨床語義的準確性。

該研究揭示了LLM在臨床文本處理中的一個關鍵失敗模式，強調了在臨床工作流程中安全部署LLM時需要特別關注不確定性保留。研究者希望這個基準能夠推動未來模型在醫療領域的改進，確保自動生成的臨床文本不會誤導臨床決策。這項工作對於醫療資訊學、自然語言處理以及人工智慧安全領域都具有重要意義。