2026-06-12站内改写1 分钟阅读更新: 2026-06-12

部署中心评估：预测临床大语言模型系统中的查询级拒绝风险

该论文提出了一种以部署为中心的评估方法，针对嵌入电子健康记录的临床大语言模型系统，利用查询内容和部署特定上下文（如提供者类型、科室、所用模型）训练预响应分类器，预测用户拒绝风险。经过4.5个月的前瞻性分析，模型AUROC达到0.719，证明了利用部署上下文预测用户拒绝的可行性，为触发防护栏和弃权策略提供了依据。

来源arXiv AI作者: Alyssa Unell, Miguel Fuentes, Brenna Li, Bridget Lin, Meena Jagadeesan, Sanmi Koyejo, Nigam Shah

大型语言模型（LLM）在临床系统中的应用日益广泛，但如何评估其实际效用仍是一大挑战。传统静态基准往往只衡量正确性而非用户接受度，且需要大量标注数据，难以反映真实部署场景。针对这一问题，来自一所学术医疗中心的研究团队提出了一种以部署为中心的评估方法，对嵌入电子健康记录（EHR）的LLM系统进行了实证研究。

该团队训练了一个预响应分类器，在LLM生成回复之前，基于查询内容和部署特定上下文（包括提供者类型、科室名称以及用于生成回复的语言模型）来估计未来交互中用户拒绝回复的风险。研究收集了4.5个月的用户反馈数据，采用前瞻性分析验证模型性能，最终AUROC达到0.719。

进一步地，研究者评估了此类预测在两种下游应用中的价值：触发防护栏（guardrails）和模型弃权（abstention）。关键洞察在于，仅使用查询内容不足以准确预测用户拒绝行为，而结合部署特定上下文能显著提升预测能力。这一发现为临床AI系统的定向防护机制设计开辟了新途径。

该研究展示了利用部署后数据预测用户拒绝的可行性，为提升临床LLM系统的实用性和用户接受度提供了可操作的方向。未来，通过将风险预测集成到实时系统中，可以在高风险交互中提前介入，减少用户不满并提高系统可靠性。