AI News HubLIVE
站内改写1 分鐘閱讀

可能還是確定?評估臨床文本中診斷不確定性保留的基準

大型語言模型(LLM)越來越多地用於臨床文本任務,但它們在保留診斷不確定性方面表現不佳。本研究構建了一個包含1,200份臨床文件和9,184個不確定性標註的基準,評估了三個LLM,發現它們保留原始不確定性線索的比例不到一半,且難以區分相鄰級別。

來源arXiv Computational Linguistics作者: Hongbo Du, Zixin Lu, Jiaming Qu

近年來,大型語言模型(LLM)在臨床文本處理中得到了廣泛應用,包括總結和修訂醫療記錄。然而,這些模型在保留診斷不確定性方面的表現尚未得到充分研究。診斷不確定性,如“可能肺炎”或“明確肺炎”,對於指導後續檢查和治療至關重要。即使是細微的變化也可能完全改變臨床含義。例如,“可能肺炎”暗示需要進一步檢查,而“明確肺炎”則可能直接啟動治療。如果LLM在改寫時錯誤地將“可能”改為“明確”,可能導致不必要的激進治療或遺漏必要的檢查。

為了系統評估這一問題,研究人員構建了一個包含1,200份臨床文件的基準資料集,其中包含9,184個不確定性標註,涵蓋五個級別:確定、很可能、可能、不太可能、排除。這些文件來自多種臨床場景,確保了資料的多樣性和代表性。每個標註都經過專家稽核,保證了標註的可靠性。

研究團隊評估了三種主流的LLM,測試其在保留原始不確定性線索方面的能力。實驗設計包括讓LLM執行文本總結和修訂任務,然後比較輸出與原始文本中不確定性表達的一致性。結果顯示,LLM保留原始不確定性線索的比例不到一半。它們經常改變不確定性的級別,尤其是在相鄰級別之間,例如將“可能”改為“很可能”或反之。這種錯誤模式在標準評估指標(如流暢性和連貫性)中並未被捕獲,因為這些指標只關注文本的表面質量,而忽略了臨床語義的準確性。

該研究揭示了LLM在臨床文本處理中的一個關鍵失敗模式,強調了在臨床工作流程中安全部署LLM時需要特別關注不確定性保留。研究者希望這個基準能夠推動未來模型在醫療領域的改進,確保自動生成的臨床文本不會誤導臨床決策。這項工作對於醫療資訊學、自然語言處理以及人工智慧安全領域都具有重要意義。