通过基于方差感知的评分奖励与GRPO改进LLMs中专注于心脏的医学问答
本研究提出了一种采用组相对策略优化(GRPO)结合方差感知奖励框架的方法,用于后训练大型语言模型(LLMs)以提升其在心脏相关医学问答中的表现。该方法将传统的二元标准聚合和整体Likert评分替换为连续分析奖励函数,从而提供更丰富的优化信号。在HealthBench的心脏子集上,最佳变体相对于Qwen3-14B基础模型将准确率从0.362提升至0.502,F1从0.532提升至0.668,性能与GPT-OSS-120B相当。
大型语言模型(LLMs)在医疗健康领域展现出巨大潜力,但在实际部署中面临数据隐私、推理成本和边缘设备适用性等挑战。为应对这些问题,研究者致力于开发更小、更高效的模型,并需要稳健的后训练策略来确保可靠的医学推理。本文探索了组相对策略优化(GRPO)在心脏相关医学问答任务中的应用,并结合基于评分的监督信号(源自RaR-Medicine)。作者提出了方差感知奖励框架,该框架扩展了RaR-Medicine中已有的显式聚合和隐式聚合策略。具体来说,它用连续分析奖励函数替代了加权的二元标准聚合和单一的整体Likert评分。这种新公式能够为稀疏、多标准且难以自动验证的反馈提供更丰富的优化信号,并促进更稳定的在线强化学习。实验在HealthBench中保留的心脏相关子集上进行。最佳GRPO变体在Qwen3-14B基础模型上实现了准确率从0.362到0.502的提升,F1分数从0.532到0.668的提升,性能与大型模型GPT-OSS-120B(准确率0.508,F1 0.674)相当。这一结果表明,精心设计的基于评分的奖励策略能够有效增强LLMs在特定医学领域中的问答能力。作者指出,该方法不仅适用于心脏医学问答,还有潜力扩展至其他基于评分的任务,例如法律或金融领域的复杂推理。未来工作可探索将方差感知奖励应用于更广泛的后训练场景,并进一步优化小规模模型的推理效率。此外,该研究为在资源受限环境下部署高性能医疗AI模型提供了新思路,有望推动精准医疗和辅助诊断的发展。通过利用GRPO和方差感知奖励,研究人员能够在不增加模型规模的前提下显著提升特定领域的表现,这对于降低医疗AI的应用门槛具有重要意义。