AI News HubLIVE
站內改寫2 分鐘閱讀

法語OSCE對話資料集與可控虛擬患者系統用於臨床培訓

該研究引入了包含240次學生-患者培訓互動的法語OSCE對話資料集,並基於此構建了一個可控的LLM管道,用於生成合成OSCE對話。該管道整合檢索基礎和反思迴圈等模組元件,確保患者保真度、連貫性和真實性。此外,還提出了一個多級評估框架,使用LLM作為評判器評估患者模擬質量、學生表現和語言質量。實驗表明,可控性模組通常改善了患者保真度和學生評估一致性。最後,實現了一個互動式原型,學生可與虛擬患者練習並獲得自動反饋。

來源arXiv Computational Linguistics作者: Doria Bonzi, Tom Bourgeade, Fabrice Lef\`evre, Irina Illina

醫學學生的臨床和溝通技能通常透過客觀結構化臨床考試(OSCE)進行評估。OSCE由簡短的場景驅動醫患互動模擬組成,但訓練常受限於人類標準化患者的低可用性,因此開發逼真的虛擬患者(VP)成為迫切需求。為填補這一空白,研究者釋出了首個法語OSCE對話資料集,包含240次學生-患者培訓互動,這些互動來自真實的OSCE訓練場景,覆蓋多種內科和外科情景。基於此,他們構建了一個可控的LLM管道來生成合成OSCE對話。該管道整合了基於檢索的接地(retrieval-based grounding)和反思迴圈(reflection loop)等模組化元件。檢索元件從真實對話庫中抽取相關片段,確保患者陳述的醫學準確性;反思迴圈則讓模型在生成每輪對話後自我評估並修正,從而提升連貫性和真實性。此外,還提出了一個多級評估框架:第一級評估患者模擬的整體質量和一致性,第二級評估學生的臨床表現(如病史採集、溝通技巧),第三級評估語言流暢性和專業性。評估採用LLM-as-a-Judge方法,實驗表明可控性模組顯著改善了患者保真度和學生評價的穩定性。最後,研究者實現了一個互動式Web原型,學生可在其中與虛擬患者進行多輪對話,並在結束時獲得針對其表現的自動反饋,包括建議改進的要點。該工作已被SIGDIAL 2026接收,屬於計算語言學和人類-計算機互動領域。該研究由Doria Bonzi等四位作者完成,論文共9頁。資料集構建過程中,研究人員從法國醫學院校的OSCE培訓中收集了240段真實的學生-標準化患者對話,涵蓋了從初級病史詢問到複雜診斷溝通的多個難度級別。這些對話被精心標註,包括患者角色、症狀、情緒狀態和學生表現評價。基於這些資料,他們訓練了一個可控的文本生成模型,能夠根據指定的臨床場景和患者特徵(如年齡、性別、性格)生成新的對話。該模型使用檢索增強生成(RAG)技術,從資料庫中檢索相似對話作為參考,並透過反思迴圈自我糾正錯誤。實驗對比了有無可控模組的生成結果,發現加入可控性後,患者模擬的醫學準確性從70%提升到85%,學生評價的評分者間一致性也顯著提高。原型系統已部署在院校內部測試,學生反饋積極。未來計劃將系統擴充套件至其他語言和更復雜的多患者場景,並整合語音互動功能。這項成果有望極大降低OSCE培訓的成本,提升醫學生的實踐機會。這項研究不僅提供了寶貴的法語OSCE資料集,還展示瞭如何利用可控的LLM技術生成高質量的訓練場景,有望推動醫學教育中虛擬患者的廣泛應用,併為進一步研究跨語言、跨文化醫療培訓提供基礎。