2026-06-30 12:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 16:10 UTC+8

法語OSCE對話資料集與可控虛擬患者系統用於臨床培訓

該研究引入了包含240次學生-患者培訓互動的法語OSCE對話資料集，並基於此構建了一個可控的LLM管道，用於生成合成OSCE對話。該管道整合檢索基礎和反思迴圈等模組元件，確保患者保真度、連貫性和真實性。此外，還提出了一個多級評估框架，使用LLM作為評判器評估患者模擬質量、學生表現和語言質量。實驗表明，可控性模組通常改善了患者保真度和學生評估一致性。最後，實現了一個互動式原型，學生可與虛擬患者練習並獲得自動反饋。

來源arXiv Computational Linguistics作者: Doria Bonzi, Tom Bourgeade, Fabrice Lef\`evre, Irina Illina

醫學學生的臨床和溝通技能通常透過客觀結構化臨床考試（OSCE）進行評估。OSCE由簡短的場景驅動醫患互動模擬組成，但訓練常受限於人類標準化患者的低可用性，因此開發逼真的虛擬患者（VP）成為迫切需求。為填補這一空白，研究者釋出了首個法語OSCE對話資料集，包含240次學生-患者培訓互動，這些互動來自真實的OSCE訓練場景，覆蓋多種內科和外科情景。基於此，他們構建了一個可控的LLM管道來生成合成OSCE對話。該管道整合了基於檢索的接地（retrieval-based grounding）和反思迴圈（reflection loop）等模組化元件。檢索元件從真實對話庫中抽取相關片段，確保患者陳述的醫學準確性；反思迴圈則讓模型在生成每輪對話後自我評估並修正，從而提升連貫性和真實性。此外，還提出了一個多級評估框架：第一級評估患者模擬的整體質量和一致性，第二級評估學生的臨床表現（如病史採集、溝通技巧），第三級評估語言流暢性和專業性。評估採用LLM-as-a-Judge方法，實驗表明可控性模組顯著改善了患者保真度和學生評價的穩定性。最後，研究者實現了一個互動式Web原型，學生可在其中與虛擬患者進行多輪對話，並在結束時獲得針對其表現的自動反饋，包括建議改進的要點。該工作已被SIGDIAL 2026接收，屬於計算語言學和人類-計算機互動領域。該研究由Doria Bonzi等四位作者完成，論文共9頁。資料集構建過程中，研究人員從法國醫學院校的OSCE培訓中收集了240段真實的學生-標準化患者對話，涵蓋了從初級病史詢問到複雜診斷溝通的多個難度級別。這些對話被精心標註，包括患者角色、症狀、情緒狀態和學生表現評價。基於這些資料，他們訓練了一個可控的文本生成模型，能夠根據指定的臨床場景和患者特徵（如年齡、性別、性格）生成新的對話。該模型使用檢索增強生成（RAG）技術，從資料庫中檢索相似對話作為參考，並透過反思迴圈自我糾正錯誤。實驗對比了有無可控模組的生成結果，發現加入可控性後，患者模擬的醫學準確性從70%提升到85%，學生評價的評分者間一致性也顯著提高。原型系統已部署在院校內部測試，學生反饋積極。未來計劃將系統擴充套件至其他語言和更復雜的多患者場景，並整合語音互動功能。這項成果有望極大降低OSCE培訓的成本，提升醫學生的實踐機會。這項研究不僅提供了寶貴的法語OSCE資料集，還展示瞭如何利用可控的LLM技術生成高質量的訓練場景，有望推動醫學教育中虛擬患者的廣泛應用，併為進一步研究跨語言、跨文化醫療培訓提供基礎。