2026-06-02 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

面向医疗大语言模型安全、鲁棒性和公平性评估的多领域红队框架

本研究提出了一个多领域红队框架，用于评估医疗领域大语言模型在对抗性和伦理复杂场景下的表现。通过对11个当代模型在690个临床场景的测试，发现平均得分范围0.791-0.984，但高性能模型在安全关键场景中会出现完全失败，且公平性任务中人口统计修改导致10-20%的误差放大。研究强调，性能方差和极端失败比平均准确率更能反映临床可靠性，混合评估方法结合自动化与临床医生监督对安全评估至关重要。

来源arXiv Computational Linguistics作者: Andrei Marian Feier, Veysel Kocaman, Yigit Gul, Ahmet Korkmaz, Alexander Thomas, Aleksei Zakharov, Jay Gil, Mehmet Butgul, David Talby

随着大语言模型（LLM）在医疗领域的应用日益广泛，传统基准测试已难以捕捉模型在临床实践中面临的对抗性或伦理复杂场景下的真实表现。为此，John Snow Labs Inc.的研究团队开发了一套多领域红队框架（Multi-Domain Red Teaming Framework），对11个当代大语言模型进行了系统性评估。该框架包含690个基于临床现实的测试场景，涵盖9个领域和超过150个子类别，并引入了对抗性变换以模拟真实世界的挑战。模型的响应采用七维度评分规则进行评估，结合了大语言模型辅助评分与人类专家在环验证。

研究结果显示，模型性能存在显著差异，平均得分范围从0.791到0.984。关键发现是，即便是得分最高的系统（如X-BAI、GPT-5、Claude Opus 4.1），在个别安全关键场景中也出现了完全失败，这意味着总体平均准确率可能掩盖具有临床意义的风险。性能在不同领域间波动较大，尤其是在公平性相关任务中，当输入中的人口统计特征（如种族、性别）被修改时，误差率放大了10-20%。此外，人类评审员识别出了自动评估未能发现的临床相关失败案例，凸显了人工监督的重要性。

该研究于2026年4月15日提交至arXiv，并将于2026年3月29日在荷兰代尔夫特举办的Text2Story 2026研讨会上发表。研究团队强调，性能方差和最坏情况下的失败比平均准确率更能提供有临床意义的可靠性指标。他们认为，结合自动化评估与临床医生监督的混合方法，对于可信的安全评估至关重要。这一框架为医疗领域大语言模型的安全部署提供了重要参考，提醒业界不能仅依赖平均性能指标，而需关注模型在极端情况下的表现。该研究的作者包括Andrei Marian Feier等9人，论文共10页，包含4张图表，即将发表在CEUR Workshop Proceedings上。