2026-06-05 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

通过基于方差感知的评分奖励与GRPO改进LLMs中专注于心脏的医学问答

本研究提出了一种采用组相对策略优化（GRPO）结合方差感知奖励框架的方法，用于后训练大型语言模型（LLMs）以提升其在心脏相关医学问答中的表现。该方法将传统的二元标准聚合和整体Likert评分替换为连续分析奖励函数，从而提供更丰富的优化信号。在HealthBench的心脏子集上，最佳变体相对于Qwen3-14B基础模型将准确率从0.362提升至0.502，F1从0.532提升至0.668，性能与GPT-OSS-120B相当。

来源arXiv Computational Linguistics作者: Arash Ahmadi, Parisa Masnadi, Sarah Sharif, Charles Nicholson, David Ebert, Mike Banad

大型语言模型（LLMs）在医疗健康领域展现出巨大潜力，但在实际部署中面临数据隐私、推理成本和边缘设备适用性等挑战。为应对这些问题，研究者致力于开发更小、更高效的模型，并需要稳健的后训练策略来确保可靠的医学推理。本文探索了组相对策略优化（GRPO）在心脏相关医学问答任务中的应用，并结合基于评分的监督信号（源自RaR-Medicine）。作者提出了方差感知奖励框架，该框架扩展了RaR-Medicine中已有的显式聚合和隐式聚合策略。具体来说，它用连续分析奖励函数替代了加权的二元标准聚合和单一的整体Likert评分。这种新公式能够为稀疏、多标准且难以自动验证的反馈提供更丰富的优化信号，并促进更稳定的在线强化学习。实验在HealthBench中保留的心脏相关子集上进行。最佳GRPO变体在Qwen3-14B基础模型上实现了准确率从0.362到0.502的提升，F1分数从0.532到0.668的提升，性能与大型模型GPT-OSS-120B（准确率0.508，F1 0.674）相当。这一结果表明，精心设计的基于评分的奖励策略能够有效增强LLMs在特定医学领域中的问答能力。作者指出，该方法不仅适用于心脏医学问答，还有潜力扩展至其他基于评分的任务，例如法律或金融领域的复杂推理。未来工作可探索将方差感知奖励应用于更广泛的后训练场景，并进一步优化小规模模型的推理效率。此外，该研究为在资源受限环境下部署高性能医疗AI模型提供了新思路，有望推动精准医疗和辅助诊断的发展。通过利用GRPO和方差感知奖励，研究人员能够在不增加模型规模的前提下显著提升特定领域的表现，这对于降低医疗AI的应用门槛具有重要意义。